D&C – Page 33 – 懒惰是人类进步的原动力

声音信号处理高清无码matlab 工具库

这个老师原本是台湾清华大学的，之前的资料地址是http://neural.cs.nthu.edu.tw/jang/，结果翻了X也发现找不到网页，去他们CS院的网站上查了下发现没这个人，就觉得可能是离职的。Google了一下，原来跑到台湾大学去了，混的比较好啊看来:)顺利找到了它的新主页，果然东西比原来更多了。
新的地址是这个：http://mirlab.org/jang/
好顶赞啊！里面资料超级全的，有机器学习的，然后还有语音信号处理的，感觉是个大牛~虽然我只要用到他的成果就行了。
对了，还有个声音信号处理的电子书，在这里http://mirlab.org/jang/books/audioSignalProcessing/
里面介绍的很详细，还有示例的matlab程序神马的！

Tags matlab, 声音信号处理

不学无术

研究生学位论文格式的统一要求

研究生学位论文格式的统一要求
http://www.gs.sjtu.edu.cn/policy/fileShow.ahtml?id=130

学位论文是研究生从事科研工作的成果的主要表现，它集中表明了作者在研究工作中获得的新的发明、理论或见解，是研究生申请硕士或博士学位的重要依据，也是科研领域中的重要文献资料和社会的宝贵财富。
为了提高研究生学位论文撰写质量，使学位论文在内容和格式上更加规范化、标准化，按照国家标准《学位论文的编写规则》，特作如下规定：
一、论文内容要求
研究生学位论文应用中文撰写，硕士学位论文字数一般为4～5万，硕士专业学位论文一般为2～5万；博士学位论文字数一般为8～10万（医学院研究生的学位论文字数要求参见其它规定）。学位论文内容要求完整、准确，应层次分明，数据可靠，文字简练，说明透彻，推理严谨，立论正确；应采用国家正式公布实施的简化汉字和法定的计量单位。文中采用的术语、符号、代号，全文必须统一，并符合规范化的要求。如果文中使用新的专业术语、缩略语、习惯用语，应加以注释。国外新的专业术语、缩略语，必须在译文后用圆括号注明原文。学位论文的插图、照片必须确保能复制或缩微。论文的页码须从“绪论”数起（包括绪论、正文、参考文献、附录、致谢等），用阿拉伯数字编连续码；文摘页、目次页、插图和附表清单、符号和缩略词的说明等，用阿拉伯数字单独编连续码。
论文内容一般应由十五个主要部分组成，依次为：1.封面（包括扉页）；2.题名页；3.论文原创性声明；4.论文版权使用授权书；5.论文答辩委员会名单及答辩决议；6.中文摘要；7.英文摘要；8.目录；9.符号说明；10.论文正文；11.参考文献；12.注释；13.附录；14.致谢；15.攻读学位期间发表的学术论文目录。各部分的具体要求如下：
1．封面（包括扉页）
采用研究生院下发的统一封面，封页上填写论文题目（不超过20个字）、作者姓名、指导教师姓名、学科（专业）、工程领域（工程硕士填写）、答辩日期（或论文提交日期）等内容。上述内容也应在扉页上填写清楚，并增加填写研究生学号，专业学位研究生须注明申请专业学位的名称。
论文题目应避免使用不常用缩略语、首字母缩写字、字符、代号和公式等。题目用词必须考虑有助于选定关键词和编制题录、文摘等二次文献，可以提供检索用的特定实用信息。在学位论文中出现的题目都应完全相同。如果学位论文是基金资助项目，应将基金注释在题目所在页下“页脚”位置。
2．题名页
题名页应置于封二，是对学位论文进行著录的依据。除包括封面上的全部内容外，题名页还应增加关键词、资助基金项目、研究方向、申请学位级别（博士或硕士）、培养单位等内容。
3．论文原创性声明
该《声明》全文可以从网上（网址：www.gschool.sjtu.edu.cn）的信息服务栏目中下载，经学位论文作者签名后生效。
4．论文版权使用授权书
该《授权书》全文可以从网上（网址：www.gschool.sjtu.edu.cn）的信息服务栏目中下载，经学位论文作者和指导教师共同签名后生效。
5．论文答辩委员会名单及答辩决议
论文答辩委员会名单及答辩决议书须经全体答辩委员、答辩委员会主席签名，可以用复印件附于论文中。
6．中文摘要（包括关键词）
中文摘要应该将学位论文的内容不加注释和评论、简短明了地陈述出来，它包含论文中的基本信息，体现科研工作的核心思想，具有独立性和自含性，即不阅读论文的全文，就能获得必要的信息。摘要中有数据、有结论，是一篇完整的短文，可以独立使用，可以引用。摘要内容一般应说明本项科研工作的目的和意义、研究方法、实验方法、研究成果、结果和最终结论等，重点是结果和结论，应注意突出学位论文中具有创新性的成果和新见解的部分。摘要内容应包含与报告、论文等同量的主要信息，供读者确定有无必要阅读全文，也可供二次文献（文摘等）采用。中文摘要一般不宜超过500字（硕士论文）或800字（博士论文），如遇特殊需要字数可以略多。
7．英文摘要（包括关键词）
英文摘要内容（含论文题目）应与中文摘要基本相对应，要符合英语语法，语句通顺，文字流畅。英文摘要的字数以实词计，一般不宜超过300（硕士论文）或500（博士论文）个实词，如遇特殊需要字数可以略多。
摘要中一般不用图、表、化学结构式、非公知公用的符号和术语。
8．目录
目录应将文内的章节标题依次排列，标题应该简明扼要。目录页中每行均由标题名称和页码组成，包括引言（或前言），主要内容的篇、章、条、款、项序号和标题，小结，（引文）参考文献、注释、附录，可供参考的文献题录、索引等。
论文中如图表较多，可以分别列出清单置于目录页之后。图的清单应有序号、图题和页码。表的清单应有序号、表题和页码。
9．符号说明
论文中所用符号所表示的意义及单位（或量纲）。
符号、标志、缩略词、首字母缩写、计量单位、名词、术语等注释说明，如需汇集，可集中置于图表清单之后。
10．论文正文
论文正文是主体，是学位论文的核心部分，占主要篇幅，一般由标题、文字叙述、图、表格和公式等五个部分构成。写作形式可因科研项目的性质不同而变化，一般可包括调查对象、实验和观测方法、仪器设备、材料原料、实验和观测结果、计算方法和编程原理、数据资料、经过加工整理的图表、形成的论点和导出的结论等。
由于研究工作涉及的学科、选题、研究方法、工作进程、结果表达方式等有很大的差异，对正文内容不能作统一的规定。但是，必须实事求是，客观真切，准确完备，合乎逻辑，层次分明，简练可读。
11．参考文献
参考文献是文中引用的有具体文字来源的文献集合，应按文中引用出现的顺序列出，可以列在各章末尾，也可以列在正文的末尾。按照GB 7714《文后参考文献著录规则》的规定执行。
在引用别人的科研成果时，应特别注意在引用处加以说明，避免论文抄袭现象的发生。
12．注释
注释可作为脚注在页下分散著录，但切忌在文中注释。
13．附录
附录是作为论文主体的补充项目，并不是必须的。附录内容大致有以下几种情况：
（1）为了整篇论文材料的完整，但编入正文又有损于编排的条理和逻辑性，这一材料包括比正文更为详尽的信息、研究方法和技术更深入的叙述，建议可以阅读的参考文献题录，对了解正文内容有用的补充信息等。
（2）由于篇幅过大或取材于复制品而不便于编入正文的材料。
（3）不便于编入正文的罕见珍贵资料。
（4）对一般读者并非必要阅读，但对本专业同行有参考价值的资料。
（5）某些重要的原始数据、数学推导、计算程序、框图、结构图、注释、统计表、计算机打印输出件等。
14．致谢
一般在正文之后，包括内容如下：
（1）对国家科学基金、资助研究工作的奖学金基金、合同单位、资助或支持的企业、组织或个人。
（2）对协助完成研究工作和提供便利条件的组织或个人。
（3）对在研究工作中提出建议和提供帮助的人。
（4）对给予转载和引用权的资料、图片、文献、研究思想和设想的所有者。
（5）对其他应感谢的组织和个人。
致谢应实事求是，切忌浮夸与庸俗之词。
15．攻读学位期间发表的学术论文目录
按学术论文发表的时间顺序，列出本人在攻读学位期间发表或已录用的学术论文清单（发表刊物名称、卷册号、页码、年月及论文署名）。其中应对发表刊物类别作具体说明，如：是否属于本校规定的学术刊物；论文署名单位是否为上海交通大学及作者排列顺序。
二、论文撰写规范
1．封页上的内容一律按统一格式和要求打印，必须正确无误。论文题目不得超过20个汉字。
2．硕士学位论文中文摘要字数为500字左右。博士学位论文中文摘要为800字左右。
（1）论文题目为三号黑体字，可以分成1或2行居中打印。
（2）论文题目下空一行居中打印“摘要”二字（三号黑体），字间空一格。
（3）“摘要”二字下空一行打印摘要内容（四号宋体）。每段开头空二格，标点符号占一格。
（4）摘要内容后下空一行打印“关键词”三字（四号黑体），其后为关键词（四号宋体）。关键词数量为4～6个，每一关键词之间用逗号分开，最后一个关键词后不打标点符号。
3．论文英文题目全部采用大写字母，可分成1～3行居中打印。每行左右两边至少留五个字符空格。
（1）题目下空三行居中打印“ABSTRACT”，再下空二行打印英文摘要内容。
（2）摘要内容每段开头留四个字符空格。
（3）摘要内容后下空二行打印“KEY WORDS”，其后关键词小写，每一关键词之间用逗号分开，最后一个关键词后不打标点符号。
4．目录：“目录”两字（三号黑体），下空两行为章、节、小节及其开始页码。章、节、小节分别以1、1.1、1.1.1等数字依次标出。
目录中章、条的编号和绪论、附录等均顶格排。章、条的标题及附录等的标题与前面的内容之间空一个字的间隙。前言、章、条等与页码之间用“……”连接，页码不用括号。目录所列内容回行时顶格排。
5．章、条、段：章、条的编号顶格排，编号与标题或文字之间一个字的间隙。章的标题占两行。段的文字空两个字起排，回行时顶格排。
6．标题：每章标题以三号黑体居中打印；“章”下空两行为“节”以四号黑体左起打印；“节”下空一行为“小节”，以小四号或五号黑体左起打印。换行后打印论文正文。
7．正文：采用小四号或五号宋体。
8．图：图包括曲线图、构造图、示意图、图解、框图、流程图、纪录图、布置图、地图、照片、图版等。图应具有“自明性”，即只看图例，不阅读正文，就可理解图意。图中一律采用英文标注。图文说明用中文。
图应有编号，由“图”和从1开始的阿拉伯数字组成，例如“图1”、“图2”等。图的编号应一直连续到附录之前，并与章、条和表的编号无关。只有一幅图时，仍应标为“图1”。
图宜有图题，采用中英文对照，其英文字体为五号，中文字体为五好楷体，并置于图的编号之后，图的编号和图题应置于图下方的居中位置。引用图应在图题右上角标出文献来源。
曲线图的纵横坐标必须标注“量、标准规定符号、单位”。此三者只有在不必要标明（如无量纲等）的情况下方可省略。坐标上标注的量的符号和缩略词必须与正文中一致。
照片图要求主题和主要显示部分的轮廓鲜明，便于制版。如用放大缩小的复制品，必须清晰，反差适中。照片上应有表示目的物尺寸的标度。绘图必须工整、清楚、规范。其中机械零件图按机械制图规格要求：示意图应能清楚反映图示内容。
9．表：表的编排一般是内容和测试项目由左至右横读，数据依序竖读，应有自明性。表应有编号，由“表”和从1开始的阿拉伯数字组成，例如“表1”、“表2”等。表的编号应一直连续到附录之前，并与章、条和图的编号无关。只有一个表时，仍应标为“表1”。表宜有表题，表题即表的名称，置于表的编号之后。
表的编号和表题应置于表上方的居中位置。如某个表需要转页接排，在随后的各页上应重复表的编号。编号后跟表题（可省略）和“（续）”，如所示：表1（续），续表均应重复表头和关于单位的陈述。
10．公式：公式应另起一行居中排，较长的公式尽可能在等号处回行，或者在“+”、“-”等符号处回行。公式中分数线的横线，长短要分清，主要的横线应与等号取平。公式后应注明编号，用“……”连接，按章顺序编排。
公式下面的“式中：”空两个字起排，单独占一行。公式中所要解释的符号按先左后右，先上后下顺序分行空两个字排，再用破折号与释文连接，回行时与上一行释文对齐。上下行的破折号对齐
11．附录：
附录编号（依次为附录1，附录2，……）、附录标题各占一行，置于附录条文之上居中位置。每一个附录应另起一面，以后各个附录通常另起一面，如果有多个较短的附录，也可接排。附录中的图表公式另编排序号，与正文分开。
12．参考文献：
参考文献应另起一页，所列文件均空两个字起排，回行时顶格排，每个文件之后不加标点符号。
（1）按论文中参考文献出现的先后顺序用阿拉伯数字连续编号，将序号置于方括号内，并视具体情况将序号作为上角标，或作为论文的组成部分。如：“……李××^［１］对此作了研究，数学模型见文献[2]。”
（2）参考文献中每条项目应齐全。文献中的作者不超过三位时全部列出；超过三位时一般只列前三位，后面加“等”字或“et al.”；作者姓名之间用逗号分开；中外人名一律采用姓在前，名在后的著录法。
参考文献中著录格式示例
①期刊
序号作者，题名，刊名，出版年份，卷号（期号），起止页码
②专著
序号作者，书名，版本（第1版不标注），出版地，出版者，出版年，起止页码
③论文集
序号作者，题名，见（英文用In），主编，论文集名，出版地，出版年，起止页码
④学位论文
序号作者，题名，［学位论文］（英文用［Dissertation］），保存地点，保存单位，年份
⑤专利
序号专利申请者，题名，国别，专利文献种类，专利号，出版日期
⑥技术标准
序号起草责任者，标准代号，标准顺序号－发布年，标准名称，出版地，出版者，出版年度
13．攻读学位期间发表的学术论文目录格式同上述第12条。
三、打印及装订要求
1．研究生学位论文内容一律采用计算机编辑，用A4规格幅面纸输出，打印区面积为230mm×155mm（包括篇眉）；或者设置页眉为2.5cm，页脚为3.0cm，页边距分别为上3.5cm，下4.0cm，左2.8cm，右2.8cm。
在特殊情况下（如图样、表不能缩小时），论文幅面允许根据实际需要延长和加宽。
2．用研究生院统一封面线装成册。

Tags 论文

不学无术

论文参考文献著录格式

论文参考文献著录格式
论文参考文献著录格式引用格式

Tags 论文

不学无术

特征选择-常见的搜索算法

本文转载自：http://hi.baidu.com/zhangweijiqn/item/bafddc1bf53cd4f5756a843e
2.2.1完全搜索
完全搜索分为穷举搜索(Exhaustive)与非穷举搜索(Non-Exhaustive)两类。
　　(1) 广度优先搜索( Breadth First Search )
算法描述：广度优先遍历特征子空间。
算法评价：枚举了所有的特征组合，属于穷举搜索，时间复杂度是O(2n)，实用性不高。
　　(2)分支限界搜索( Branch and Bound )
算法描述：在穷举搜索的基础上加入分支限界。例如：若断定某些分支不可能搜索出比当前找到的最优解更优的解，则可以剪掉这些分支。
　　(3) 定向搜索(Beam Search )
算法描述：首先选择N个得分最高的特征作为特征子集，将其加入一个限制最大长度的优先队列，每次从队列中取出得分最高的子集，然后穷举向该子集加入1个特征后产生的所有特征集，将这些特征集加入队列。
　　(4) 最优优先搜索( Best First Search )
算法描述：与定向搜索类似，唯一的不同点是不限制优先队列的长度。
2.2.2 启发式搜索

　　(1)序列前向选择( SFS , Sequential Forward Selection )
算法描述：特征子集X从空集开始，每次选择一个特征x加入特征子集X，使得特征函数J( X)最优。简单说就是，每次都选择一个使得评价函数的取值达到最优的特征加入，其实就是一种简单的贪心算法。
算法评价：缺点是只能加入特征而不能去除特征。例如：特征A完全依赖于特征B与C，可以认为如果加入了特征B与C则A就是多余的。假设序列前向选择算法首先将A加入特征集，然后又将B与C加入，那么特征子集中就包含了多余的特征A。

　　(2)序列后向选择( SBS , Sequential Backward Selection )
算法描述：从特征全集O开始，每次从特征集O中剔除一个特征x，使得剔除特征x后评价函数值达到最优。
算法评价：序列后向选择与序列前向选择正好相反，它的缺点是特征只能去除不能加入。
另外，SFS与SBS都属于贪心算法，容易陷入局部最优值。
　　(3) 双向搜索( BDS , Bidirectional Search )
算法描述：使用序列前向选择(SFS)从空集开始，同时使用序列后向选择(SBS)从全集开始搜索，当两者搜索到一个相同的特征子集C时停止搜索。
双向搜索的出发点是

。如下图所示，O点代表搜索起点，A点代表搜索目标。灰色的圆代表单向搜索可能的搜索范围，绿色的2个圆表示某次双向搜索的搜索范围，容易证明绿色的面积必定要比灰色的要小。

图2. 双向搜索
　　(4) 增L去R选择算法( LRS , Plus-L Minus-R Selection )
该算法有两种形式:
<1> 算法从空集开始，每轮先加入L个特征，然后从中去除R个特征，使得评价函数值最优。( L > R )
<2> 算法从全集开始，每轮先去除R个特征，然后加入L个特征，使得评价函数值最优。( L < R )
算法评价：增L去R选择算法结合了序列前向选择与序列后向选择思想，L与R的选择是算法的关键。
　　(5) 序列浮动选择( Sequential Floating Selection )
算法描述：序列浮动选择由增L去R选择算法发展而来，该算法与增L去R选择算法的不同之处在于：序列浮动选择的L与R不是固定的，而是“浮动”的，也就是会变化的。
序列浮动选择根据搜索方向的不同，有以下两种变种。
<1>序列浮动前向选择( SFFS , Sequential Floating Forward Selection )
算法描述：从空集开始，每轮在未选择的特征中选择一个子集x，使加入子集x后评价函数达到最优，然后在已选择的特征中选择子集z，使剔除子集z后评价函数达到最优。
<2>序列浮动后向选择( SFBS , Sequential Floating Backward Selection )
算法描述：与SFFS类似，不同之处在于SFBS是从全集开始，每轮先剔除特征，然后加入特征。
算法评价：序列浮动选择结合了序列前向选择、序列后向选择、增L去R选择的特点，并弥补了它们的缺点。
　　(6) 决策树( Decision Tree Method , DTM)
　　算法描述：在训练样本集上运行C4.5或其他决策树生成算法，待决策树充分生长后，再在树上运行剪枝算法。则最终决策树各分支处的特征就是选出来的特征子集了。决策树方法一般使用信息增益作为评价函数。
2.2.3 随机算法

　　(1) 随机产生序列选择算法(RGSS, Random Generation plus Sequential Selection)
算法描述：随机产生一个特征子集，然后在该子集上执行SFS与SBS算法。
算法评价：可作为SFS与SBS的补充，用于跳出局部最优值。
　　(2) 模拟退火算法( SA, Simulated Annealing )
模拟退火算法可参考大白话解析模拟退火算法。
算法评价：模拟退火一定程度克服了序列搜索算法容易陷入局部最优值的缺点，但是若最优解的区域太小（如所谓的“高尔夫球洞”地形），则模拟退火难以求解。

　　(3) 遗传算法( GA, Genetic Algorithms )
遗传算法可参考遗传算法入门。
算法描述：首先随机产生一批特征子集，并用评价函数给这些特征子集评分，然后通过交叉、突变等操作繁殖出下一代的特征子集，并且评分越高的特征子集被选中参加繁殖的概率越高。这样经过N代的繁殖和优胜劣汰后，种群中就可能产生了评价函数值最高的特征子集。
随机算法的共同缺点：依赖于随机因素，有实验结果难以重现。

不学无术

Primitive-based evaluation and estimation of emotions in speech 基于原语的语音情感评价估计方法

Post author By idailylife
Post date 2014年3月10日
No Comments on Primitive-based evaluation and estimation of emotions in speech 基于原语的语音情感评价估计方法

自己做了些笔记，不知道理解的对不对。
Primitive

Tags 原型理论, 情感计算, 语音情感识别

不学无术

MFC开启/关闭数字键盘（小键盘）

呵呵呵呵，帮别人改程序，然后自己的x230没有找到任何开启/关闭小键盘的方法。MFC程序运行发现小键盘默认开启的，导致我+-号键用不来。

// Set NUMLOCK Status.
void SetNumLock( BOOL bState )
{
    BYTE keyState[256];
    GetKeyboardState((LPBYTE)&keyState);
    if( (bState && !(keyState[VK_NUMLOCK] & 1)) ||
        (!bState && (keyState[VK_NUMLOCK] & 1)) )
    {
        // Simulate a key press
        keybd_event( VK_NUMLOCK,
                     0x45,
                     KEYEVENTF_EXTENDEDKEY | 0,
                     0 );
        // Simulate a key release
        keybd_event( VK_NUMLOCK,
                     0x45,
                     KEYEVENTF_EXTENDEDKEY | KEYEVENTF_KEYUP,
                     0);
    }
}

来自http://weseetips.com/tag/enable-numlock/

Tags MFC

木有技术

mysqld.exe 内存占用高达 400M 的解决方法

Post author By idailylife
Post date 2014年3月6日
No Comments on mysqld.exe 内存占用高达 400M 的解决方法

http://www.debugease.com/mysql/3404188.html

mysqld.exe 内存占用达 400M 这是很正常的啊！mysqld默认需要部分内存，还有你在my.ini配置的各种缓存，例如：
innodb_buffer_pool_size=107M
innodb_log_file_size=18M
innodb_log_buffer_size=2M
哈哈,这个好解决哈,
paip.mysql 5.6 数据库占用内存过多的解决方案
下载了mysql5.6.12 ,默认占用内存达400多M, 而原来使用的5.0 只有30M..
解决方案:调整以下参数
—————-
performance_schema_max_table_instances=600
table_definition_cache=400
table_open_cache=256
这样下来,mysql5.6.12就只使用 40—60M左右的内存了.

附注：mysql 5.6.x的配置文件目录，应该在安装目录的根目录下，反正文件名是my.ini，是在不想到安装的分区搜索下肯定有啦。
另外更改结束后不能忘记重启服务哦！

Tags mysql

木有技术

Linux/Ubuntu shell中的系统信息查询

Post author By idailylife
Post date 2014年3月5日
No Comments on Linux/Ubuntu shell中的系统信息查询

http://yige.org/linux/system.php
=============
Linux 的文件系统中，有一个特殊目录“/proc”，该目录下列出的文件并非保存在磁盘上，而是内存中的一个映像。在该目录下可以找到许多有意思的东西，例如：
/proc/cpuinfo 本机 CPU的相关信息；
/proc/meminfo 本机内存及交换分区的使用信息；
/proc/modules 本机已安装的硬件模块信息；
/proc/mounts 本机已挂载 mount 上的设备信息；
此外，该目录下有一些以数字为名称的子目录，每个子目录用于维护一个正在运行的进程，而目录名即为相应的进程ID。例如进入名称为“1” 的子目录：
cd /proc/1
该目录下文件“cmdline” 中的内容为该进程运行时执行的命令行；“environ”文件中的内容为该进程运行时的环境变量信息；“stat” 文件中存放的时该进程运行的状态信息等。
通过查看“ /proc” 目录下的文件，可以获取几乎所有的系统信息及系统的运行状态信息。事实上，Linux 下的诸多查询系统状态信息的命令，也是通过读取该目录下的文件而获取的。
以下是一些用于查看系统状态信息的命令：

df 命令

用于查看 Linux 文件系统的状态信息，显示各个分区的容量、已使用量、未使用量及挂载点等信息。如：
df -k 以千字节（KB）为单位显示各分区的信息；
df -a 显示所有分区，包括大小为0 的分区；
df -T 显示分区类型（EXT2 或EXT3等）。

du 命令

用于查看文件或文件夹的大小。如：
du -b /home 以字节为单位显示“ /home ”文件夹下各个子文件夹的大小；
du -ks home 以千字节（KB）为单位显示“/home” 文件夹的总大小；

top 命令

用于实时查看系统状态信息。运行该命令后，屏幕上会显示如下信息：
CPU状态（CPU states）：包括用户进程占用比率、系统进程占用比率、用户的nice 优先级进程占用比率及空闲CPU资源比率等；
内存状态（Mem）：包括内存总量、使用量、空闲量等；
交换分区状态（Swap）：包括交换分区总量、使用量、空闲量等；
每个进程的状态：包括进程ID、用户名、优先级、CPU和内存使用量，以及运行该进程时执行的命令行；
执行 top 命令后，每隔5 秒，系统会自动刷新一次状态信息，如果要指定刷新间隔，在启动时加入“-d” 参数即可。例如：
top -d 1 启动 top ，并且每隔1 秒刷新一次。
进入 top 后，按下如下按钮会有相应功能：
【空格】立即刷新显示信息；
【M】按内存使用量排序；
【N】按进程ID 排序；
【P】按 CPU使用量排序；
【c】扩展命令行信息，显示完整的命令行；
【?】显示帮助信息；
【q】退出 top 程序。

iostat 命令

统计并输出 CPU使用信息及特定设备或分区的IO 信息。
iostat -c 仅显示 CPU使用情况统计信息；
iostat -d 仅显示设备/分区使用情况统计信息；
iostat -d 2 统计设备/分区使用情况，并每隔2 秒刷新一次；
显示的 IO 统计信息中，各部分说明如下：
tps 设备每秒收到的 IO 传送请求数；
Blk_read/s 设备每秒读入的块数量；
Blk_wrtn/s 设备每秒写入的块数量；
Blk_read 设备读入的总块数量；
Blk_wrtn 设备写入的总块数量；
显示的 CPU统计信息各部分的含义同top。

Tags Linux, shell, ubuntu

不学无术

Hidden Markov Model 隐马尔科夫模型【自己的垃圾翻译】

Post author By idailylife
Post date 2014年2月20日
No Comments on Hidden Markov Model 隐马尔科夫模型【自己的垃圾翻译】

看语音情感识别看到的论文，论文是：
Survey on speech emotion recognition: Features, classification schemes,
and databases
其中有一段写到了HMM用作分类器的，原文中部分如下（版权问题我就不放原文全文了）：
The HMM classifier has been extensively used in speech
applications such as isolated word recognition and speech
segmentation because it is physically related to the production
mechanism of speech signal[102]. The HMM is a doubly stochastic
process which consists of a first-order Markov chain whose states
are hiddenfrom the observer. Associated with each state is a
random process which generates the observation sequence. Thus,
the hidden states of the model capture the temporal structure of
the data. Mathematically, for modeling a sequence of observable
data vectors,x1,…,xT, by an HMM, we assume the existence of a
hidden Markov chain responsible for generating this observable
data sequence. LetKbe the number of states,pi
, i¼1,y,Kbe the
initial state probabilities for the hidden Markov chain, and aij
,
i¼1,y,K,j¼1,y,Kbe the transition probability from stateito state
j. Usually, the HMM parameters are estimated based on the ML
principle. Assuming the true state sequence is s1,…,sT, the
likelihood of the observable data is given by
where
bi
ðxtÞPðxjst ¼iÞ
is the observation density of theith state. This density can be either
discrete for discrete HMM or a mixture of Gaussian densities for
continuous HMM. Since the true state sequence is not typically
known, we have to sum over all possible state sequences to find the
likelihood of a given data sequence, i.e.
====================================================
下面是我自己翻译的

====================================================

Tags HMM, 分类器

不学无术

机器学习&数据挖掘笔记_14（GMM-HMM语音识别简单理解）

Post author By idailylife
Post date 2014年2月20日
No Comments on 机器学习&数据挖掘笔记_14（GMM-HMM语音识别简单理解）

http://www.cnblogs.com/tornadomeet/p/3276753.html 全部内容及代码见左侧链接
为了对GMM-HMM在语音识别上的应用有个宏观认识，花了些时间读了下HTK（用htk完成简单的孤立词识别）的部分源码，对该算法总算有了点大概认识，达到了预期我想要的。不得不说，网络上关于语音识别的通俗易懂教程太少，都是各种公式满天飞，很少有说具体细节的，当然了，那需要有实战经验才行。下面总结以下几点，对其有个宏观印象即可（以孤立词识别为例）。
一、每个单词的读音都对应一个HMM模型，大家都知道HMM模型中有个状态集S，那么每个状态用什么来表示呢，数字？向量？矩阵？其实这个状态集中的状态没有具体的数学要求，只是一个名称而已，你可以用’1’, ’2’, ‘3’…表示，也可以用’a’, ‘b’, ’c ’表示。另外每个HMM模型中到底该用多少个状态，是通过先验知识人为设定的。
二、HMM的每一个状态都对应有一个观察值，这个观察值可以是一个实数，也可以是个向量，且每个状态对应的观察值的维度应该相同。假设现在有一个单词的音频文件，首先需要将其进行采样得到数字信息（A/D转换），然后分帧进行MFCC特征提取，假设每一帧音频对应的MFCC特征长度为39，则每个音频文件就转换成了N个MFCC向量（不同音频文件对应的N可能不同），这就成了一个序列，而在训练HMM模型的参数时（比如用Baum-Welch算法），每次输入到HMM中的数据要求就是一个观测值序列。这时，每个状态对应的观测值为39维的向量，因为向量中元素的取值是连续的，需要用多维密度函数来模拟，通常情况下用的是多维高斯函数。在GMM-HMM体系中，这个拟合函数是用K个多维高斯混合得到的。假设知道了每个状态对应的K个多维高斯的所有参数，则该GMM生成该状态上某一个观察向量（一帧音频的MFCC系数）的概率就可以求出来了。
三、对每个单词建立一个HMM模型，需要用到该单词的训练样本，这些训练样本是提前标注好的，即每个样本对应一段音频，该音频只包含这个单词的读音。当有了该单词的多个训练样本后，就用这些样本结合Baum-Welch算法和EM算法来训练出GMM-HMM的所有参数，这些参数包括初始状态的概率向量，状态之间的转移矩阵，每个状态对应的观察矩阵（这里对应的是GMM，即每个状态对应的K个高斯的权值，每个高斯的均值向量和方差矩阵）。
四、在识别阶段，输入一段音频，如果该音频含有多个单词，则可以手动先将其分割开（考虑的是最简单的方法），然后提取每个单词的音频MFCC特征序列，将该序列输入到每个HMM模型（已提前训练好的）中，采用前向算法求出每个HMM模型生成该序列的概率，最后取最大概率对应的那个模型，而那个模型所表示的单词就是我们识别的结果。
五、在建立声学模型时，可以用Deep Learning的方法来代替GMM-HMM中的GMM，因为GMM模拟任意函数的功能取决于混合高斯函数的个数，所以具有一定的局限性，属于浅层模型。而Deep Network可以模拟任意的函数，因而表达能力更强。注意，这里用来代替GMM的Deep Nets模型要求是产生式模型，比如DBN，DBM等，因为在训练HMM-DL网络时，需要用到HMM的某个状态产生一个样本的概率。
六、GMM-HMM在具体实现起来还是相当复杂的。
七、一般涉及到时间序列时才会使用HMM，比如这里音频中的语音识别，视频中的行为识别等。如果我们用GMM-HMM对静态的图片分类，因为这里没涉及到时间信息，所以HMM的状态数可设为1，那么此时的GMM-HMM算法就退化成GMM算法了。

Tags GMM, HMM, 人工智能, 模式识别