模式识别技术概论.doc_咨信网zixin.com.cn

资源描述

　引言：模式识别技术是人工智能的基础技术，21世纪是智能化、信息化、计算化、网络化的世纪，在这个以数字计算为特征的世纪里，作为人工智能技术基础学科的模式识别技术，必将获得巨大的发展空间。在国际上，各大权威研究机构，各大公司都纷纷开始将模式识别技术作为公司的战略研发重点加以重视. 关键词：语音识别技术生物认证技术声纹识别指纹识别数字水印技术模式识别从20世纪20年代发展至今，人们的一种普遍看法是不存在对所有模式识别问题都适用的单一模型和解决识别问题的单一技术，我们现在拥有的只是一个工具袋，所要做的是结合具体问题把统计的和句法的识别结合起来，把统计模式识别或句法模式识别与人工智能中的启发式搜索结合起来，把统计模式识别或句法模式识别与支持向量机的机器学习结合起来，把人工神经元网络与各种已有技术以及人工智能中的专家系统、不确定推理方法结合起来，深入掌握各种工具的效能和应有的可能性，互相取长补短，开创模式识别应用的新局面。 1、语音识别技术语音识别技术，也被称为自动语音识别Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。　语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。　目前，主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成　　信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征，供声学模型处理。同时，它一般也包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。语言模型。语言模型对系统所针对的语言进行建模。理论上，包括正则语言，上下文无关文法在内的各种语言模型都可以作为语言模型，但目前各种系统普遍采用的还是基于统计的N元文法及其变体。解码器。解码器是语音识别系统的核心之一，其任务是对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。从数学角度可以更加清楚的了解上述模块之间的关系。首先，统计语音识别的最基本问题是，给定输入信号或特征序列，符号集（词典），求解符号串使得：　　W = argmaxP(W | O) 通过贝叶斯公式，上式可以改写为　　由于对于确定的输入串O，P(O)是确定的，因此省略它并不会影响上式的最终结果，因此，一般来说语音识别所讨论的问题可以用下面的公式来表示，可以将它称为语音识别的基本公式。 W = argmaxP(O | W)P(W) 　　从这个角度来看，信号处理模块提供了对输入信号的预处理，也就是说，提供了从采集的语音信号(记为S)到特征序列O的映射。而声学模型本身定义了一些更具推广性的声学建模单元，并且提供了在给定输入特征下，估计P(O | uk)的方法。　　为了将声学模型建模单元串映射到符号集，就需要发音词典发挥作用。它实际上定义了映射的映射。为了表示方便，也可以定义一个由到U的全集的笛卡尔积，而发音词典则是这个笛卡尔积的一个子集。并且有：　　最后，语言模型则提供了P(W)。这样，基本公式就可以更加具体的写成：　　对于解码器来所，就是要在由,,ui以及时间标度t张成的搜索空间中，找到上式所指明的W。　　语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 2、生物认证技术生物认证技术(Biometrics)本世纪最受关注的安全认证技术，它的发展是大势所趋。人们愿意忘掉所有的密码、扔掉所有的磁卡，凭借自身的唯一性来标识身份与保密。国际数据集团（IDC）预测：作为未来的必然发展方向的移动电子商务基础核心技术的生物识别技术在未来10年的时间里将达到100亿美元的市场规模。 3、声纹识别所谓声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性，又有变异性，不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。声纹识别的应用有一些缺点，比如同一个人的声音具有易变性，易受身体状况、年龄、情绪等的影响；比如不同的麦克风和信道对识别性能有影响；比如环境噪音对识别有干扰；又比如混合说话人的情形下人的声纹特征不易提取；……等等。尽管如此，与其他生物特征相比，声纹识别的应用有一些特殊的优势：(1)蕴含声纹特征的语音获取方便、自然，声纹提取可在不知不觉中完成，因此使用者的接受程度也高；(2)获取语音的识别成本低廉，使用简单，一个麦克风即可，在使用通讯设备时更无需额外的录音设备；(3)适合远程身份确认，只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录；(4)声纹辨认和确认的算法复杂度低；(5)配合一些其他措施，如通过语音识别进行内容鉴别等，可以提高准确率；……等等。这些优势使得声纹识别的应用越来越收到系统开发者和用户青睐，声纹识别的世界市场占有率15.8%，仅次于手指和手的生物特征识别，并有不断上升的趋势。声纹识别可以应用的范围很宽，可以说声纹识别几乎可以应用到人们日常生活的各个角落。比如下面举几个例子。　　(1)信息领域。比如在自动总机系统中，把“得意”身份证之声纹辨认和“得意”关键词检出器结合起来，可以在姓名自动拨号的同时向受话方提供主叫方的身份信息。前者用于身份认证，后者用于内容认证。同样，声纹识别技术可以在呼叫中心(Call Center)应用中为注册的常客户提供友好的个性化服务。　　(2)银行、证券。鉴于密码的安全性不高，可以用声纹识别技术对电话银行、远程炒股等业务中的用户身份进行确认，为了提供安全性，还可以采取一些其他措施，如密码和声纹双保险，如随机提示文本用文本相关的声纹识别技术进行身份确认(随机提示文本保证无法用事先录好的音去假冒)，甚至可以把交易时的声音录下来以备查询。　　(3)公安司法。对于各种电话勒索、绑架、电话人身攻击等案件，声纹辨认技术可以在一段录音中查找出嫌疑人或缩小侦察范围；声纹确认技术还可以在法庭上提供身份确认的旁证。　　(4)军队和国防。声纹辨认技术可以察觉电话交谈过程中是否有关键说话人出现，继而对交谈的内容进行跟踪(战场环境监听)；在通过电话发出军事指令时，可以对发出命令的人的身份进行确认(敌我指战员鉴别)。目前该技术在国外军事方面已经有所应用，据报道，迫降在我国海南机场的美军EP-3侦察机中就载有类似的声纹识别侦听模块。　　(5)保安和证件防伪。如机密场所的门禁系统。又如声纹识别确认可用于信用卡、银行自动取款机、门、车的钥匙卡、授权使用的电脑、声纹锁以及特殊通道口的身份卡，把声纹存在卡上，在需要时，持卡者只要将卡插入专用机的插口上，通过一个传声器读出事先已储存的暗码，同时仪器接收持卡者发出的声音，然后进行分析比较，从而完成身份确认。同样可以把含有某人声纹特征的芯片嵌入到证件之中，通过上面所述的过程完成证件防伪。 4 指纹识别指纹，由于其具有终身不变性、唯一性和方便性，已几乎成为生物特征识别的代名词。指纹是指人的手指末端正面皮肤上凸凹不平产生的纹线。纹线有规律的排列形成不同的纹型。纹线的起点、终点、结合点和分叉点，称为指纹的细节特征点。指纹识别系统是一个典型的模式识别系统，包括指纹图像获取、处理、特征提取和比对等模块现在的计算机应用中，包括许多非常机密的文件保护，大都使用“用户ID+密码”的方法来进行用户的身份认证和访问控制。但是，如果一旦密码忘记，或被别人窃取，计算机系统以及文件的安全问题就受到了威胁。　　随着科技的进步，指纹识别技术已经开始慢慢进入计算机世界中。目前许多公司和研究机构都在指纹识别技术领域取得了很大突破性进展，推出许多指纹识别与传统IT技术完美结合的应用产品，这些产品已经被越来越多的用户所认可。指纹识别技术多用于对安全性要求比较高的商务领域，而在商务移动办公领域颇具建树的富士通、三星及IBM等国际知名品牌都拥有技术与应用较为成熟的指纹识别系统，下面就对指纹识别系统在笔记本电脑中的应用进行简单介绍。 5 数字水印技术数字水印（Digital Watermarking）技术是将一些标识信息(即数字水印)直接嵌入数字载体(包括多媒体、文档、软件等)当中，但不影响原载体的使用价值，也不容易被人的知觉系统(如视觉或听觉系统)觉察或注意到。通过这些隐藏在载体中的信息，可以达到确认内容创建者、购买者、传送隐秘信息或者判断载体是否被篡改等目的。数字水印是信息隐藏技术的一个重要研究方向。作为数字水印技术基本上具有下面几个方面的特点：　　----安全性：数字水印的信息应是安全的，难以篡改或伪造，同时，应当有较低的误检测率，当原内容发生变化时，数字水印应当发生变化，从而可以检测原始数据的变更；当然数字水印同样对重复添加有很强的抵抗性　　----隐蔽性：数字水印应是不可知觉的，而且应不影响被保护数据的正常使用；不会降质；　　----鲁棒性：是指在经历多种无意或有意的信号处理过程后，数字水印仍能保持部分完整性并能被准确鉴别。可能的信号处理过程包括信道噪声、滤波、数/模与模/数转换、重采样、剪切、位移、尺度变化以及有损压缩编码等。主要用于版权保护的数字水印易损水印（Fragile Watermarking），主要用于完整性保护，这种水印同样是在内容数据中嵌入不可见的信息。当内容发生改变时，这些水印信息会发生相应的改变，从而可以鉴定原始数据是否被篡改。　　----水印容量：是指载体在不发生形变的前提下可嵌入的水印信息量。嵌入的水印信息必须足以表示多媒体内容的创建者或所有者的标志信息，或购买者的序列号，这样有利于解决版权纠纷，保护数字产权合法拥有者的利益。尤其是隐蔽通信领域的特殊性，对水印的容量需求很大。结束语：模式识别技术是人工智能的基础技术，21世纪是智能化、信息化、计算化、网络化的世纪，在这个以数字计算为特征的世纪里，作为人工智能技术基础学科的模式识别技术，必将获得巨大的发展空间。参考文献： [1] 边肇祺,张学工等. 模式识别, 第二版. 清华大学出版社, 2000 [2] 刘成林,谭铁牛. 模式识别研究进展. 中国计算机学会通讯,3(12): 45-52, 2007 [3] （希）西奥多里德斯等著，李晶皎等译国外计算机科学教材系列电子工业出版社 2006-12-1 [4] 孙即祥著. 现代模式识别高等教育出版社 2007年3月

展开阅读全文