收藏 分销(赏)

基于多模态信息融合的情感识别研究.pdf

上传人:曲**** 文档编号:275905 上传时间:2023-06-26 格式:PDF 页数:87 大小:3.51MB
下载 相关 举报
基于多模态信息融合的情感识别研究.pdf_第1页
第1页 / 共87页
基于多模态信息融合的情感识别研究.pdf_第2页
第2页 / 共87页
基于多模态信息融合的情感识别研究.pdf_第3页
第3页 / 共87页
基于多模态信息融合的情感识别研究.pdf_第4页
第4页 / 共87页
基于多模态信息融合的情感识别研究.pdf_第5页
第5页 / 共87页
点击查看更多>>
资源描述

1、0159497分类号 密级UDC_学位论文基于多模态信息融合的情感识别研究东北大学信息科学与工程学院申请学位级别:硕士 学科类别:工学学位学科专业名称:模式识别与智能系统 万方数据A Thesis in Pattern Recognition and Intelligent SystemsEmotion Recognition Based on Multi-modal Information FusionBy Guo NingningSuper viso r:Asso ciat e Pr o fesso r Wang FeiNortheastern UniversityMarch 2018万方

2、数据东北大学硕士学位论文搞要摘要情感识别研究是实现情感智能的关键方法之一,涉及到包括生理学、心理学、认知 科学等在内的诸多领域,是一个多学科交叉的热点研究课题。由于单一模态(如语音、图像、文本等)的情感识别受到单一情感特征的限制,情感识别识别率有待提高。近年 来,有学者提出基于多模态融合信息进行情感识别的方法,使得情感识别的准确率得到 了较大提升。本论文提出一种融合情感语音、面部表情和情感文本的情感识别方法,并采用基于 特征层融合与决策层融合两种策略进行多模态融合。采用中国科学院自动化研究所建立 的CHEAVD2.0数据集,包含生气、悲伤、高兴、焦虑、惊讶、厌恶、担心和中性等八 种情感类型,共

3、计5624个多模态对应文件。本文的具体研究工作包括以下内容:(1)语音情感识别研究。本文首先基于梅尔频率倒谱系数的音频词袋特征选取语 音情感特征;然后,将原有的包含多帧数据特征的梅尔频率倒谱系数向量转换成维度固 定的句子级别的特征向量;最后,以这些句级特征向量作为语音情感特征的数据来进行 情感识别。(2)人脸表情识别研究。本文首先对数据集中的视频文件进行分帧和人脸检测,得 到面部表情数据;然后,设计一个六层的卷积神经网络进行表情分类;随后,为了进一 步提高表情识别的准确率,采用对VGG16网络进行二次微调的方法进行实验;最后,对比两个模型的分类性能,选择其中识别准确率更高的模型,将其全连接层的

4、输出作为 人脸表情特征,用于特征层融合实验,预测结果用于决策层融合实验。(3)文本情感识别研究。本文首先采用语音识别工具提取出所用数据集的语音文 本内容;然后,对得到的文本数据去标点符号、分词、去停用词等预处理,获得词汇文 本数据,同时,采用中文维基百科语料基于skip-gram模型训练出词向量模型,并用该 词向量模型将预处理后的词汇文本数据映射为词向量;随后,采用常用的暴力平均法获 得句子级别的特征向量,进行文本情感识别,最后,为了提高文本情感识别准确率,本 文提出基于循环神经网络的文本情感识别方法,用动态循环神经网络学习句子中所有词 汇的序列关系,得到句子级别的特征向量,用于文本情感识别.

5、II-万方数据东北大学硕士学位论文 摘要(4)多模态情感识别研究。本文提出一种基于二次训练的决策层融合方法,基本思 想是通过训练来拟合单模态决策结果与样本标签之间的映射关系。与特征层融合方法以 及传统的六种决策层融合规则进行了对比实验。实验结果表明,多模态情感识别的准确率高于单模态情感识别,而在两种融合策略 中,本文所提出的基于二次训练的决策层融合方法获得了更高的识别准确率。关键词:语音情感识别;人脸表情识别;文本情感识别;多模态情感识别;自然型情感 数据-III-万方数据东北大学硕士学位论文AbstractAbstractEmotion recognition research is one

6、 of the key methods to achieve emotional intelligence.It involves many fields including physiology,psychology,cognitive science,etc.It is a multidisciplinary hot research topic.Since the emotion recognition of single modality(eg,voice,image,text,etc.)is limited by the single emotion feature,the reco

7、gnition rate of emotion recognition needs to be improved.In recent years,some scholars have proposed a method of emotion recognition based on multimodal fusion information,Aiich has greatly improved the accuracy of emotion recognition.This thesis proposes an emotion recognition method that fuses emo

8、tional speech,facial expression and emotional text,and adopts two strategies based on feature layer fusion and decision layer fusion to implement multi-modal fusion.The CHEAVD2.0 data set established by the Institute of Automation of the Chinese Academy of Sciences is adopted.It contains eight types

9、 of emotions:angry,sad,happy,anxious,surprised,disgusted,worried,and neutral,for a total of 5,624 multimodal correspondence files.The specific research work of this thesis includes the following:(1)Speech emotion recognition research.This thesis firstly selects the speech emotion feature according t

10、o the bag of the audio word based on the Mel frequency cepstrum coefficient.Then,it transforms the original Mel frequency cepstrum coefficient vector containing multiframe data features into a dimension-fixed sentence-level feature vector.Finally,using these sentence-level feature vectors as data fo

11、r emotional emotive features to identify emotions.(2)Face expression recognition research.In this thesis,the video files in the data set are firstly framed and face detected to obtain facial expression data.Then,a six-layer convolutional neural network is designed to classify the expression.Then,in

12、order to ftirther improve the accuracy of expression recognition,the method of fine timing VGG16 is used.Finally,compare the classification performance of the two models,select a model with a higher recognition accuracy rate,and use the o 呷 ut of the full-connection layer as the facial expression fe

13、ature for the feature layer fusion experiment.The prediction results are used for decisionlevel fusion experiments.-IV-万方数据东北大学硕士学位论文Abstract(3)Text emotion recognition research.Firstly,this thesis uses speech recognition tools to extract the text content of the data set used.Then,the obtained text

14、data is pre-processed,such as removing punctuation marks,word segmentation,and removing stop words,to obtain vocabulary text data,and at the same time,the word vector model based on the skip-gram model is trained adopts Chinese Wikipedia corpus,and uses the word vector model to map the pre-processed

15、 vocabulary text data into word vectors.Then,using the commonly used violent average method to obtain the sentence-level feature vectors for textual emotion recognition.Finally,in order to improve the accuracy of textual emotion recognition,this thesis proposes a textual emotion recognition method b

16、ased on recurrent neural network.The dynamic recurrent neural network is used to learn the sequence relationship of all lexical items in the sentence,and sentence-level feature vectors are obtained for textual emotion recognition.(4)Research on multi-modal emotion recognition.This thesis proposes a

17、decision-level fusion method based on the second training.The basic idea is to fit the mapping relationship between single-mode decision results and sample tags through training.A comparative experiment with the feature layer fusion method and the traditional six decision layer fusion rules was cond

18、ucted.Experimental results show that the accuracy of multi-modal emotion recognition is higher than that of single-modal emotion recognition.In the two fusion strategies,the decision-based layer fusion method based on second training proposed in this thesis obtains a higher recognition accuracy.Keyw

19、ords:speech emotion recognition;facial expression recognition;text emotion recognition;multi-modal emotion recognition:natural emotion data-V-万方数据东北大学硕士学位论文目录目录独创性声明.I摘要.IIAbst r act.r v第1章绪论.11.1 课题背景及研究意义.11.2 情感的表示模型.21.3 情感计算的概念.41.4 国内外研究现状.51.4.1 单模态情感识别研究现状.61.4.2 多模态情感识别研究现状.61.5 论文的主要工作.71.

20、5.1 论文主要研究内容.71.5.2 论文纲要.8第2章基于语音、图像及文本的情感识别方法.112.1 常用情感识别数据库.112.1.1 情感语音数据库.112.1.2 人脸表情数据库.132.1.3 情感文本数据库.132.2 情感特征提取.142.2.1 语音情感特征提取方法.142.2.2 人脸表情特征提取方法.152.2.3 文本特征提取方法.162.3 情感分类模型.172.4 本章小结.19第3章 基于MFCC_Bo AW的语音情感识别.213.1 语音信号及MFCC特征.213.1.1 语音信号的短时平稳性.21-VI-万方数据东北大学硕士学位论文目录3.1.2 语音信号的M

21、FCC特征.213.2 基于MFCC-BoAW的语音情感识别.233.3 多模态情感识别数据集及分类效果的评价标准.263.3.1 多模态情感识别数据集.263.3.2 分类效果的评价标准.273.4 实验结果及分析.283.5 本章小结.33第4章基于深度学习的表情及文本情感识别.354.1 深度学习理论.354.2 基于卷积神经网络的表情识别.364.2.1 卷积神经网络的网络结构设计.364.2.2 实验结果及分析.384.3 基于循环神经网络的文本情感分析.454.3.1 循环神经网络的网络结构设计.454.3.2 实验结果及分析.464.4 本章小结.50第5章融合语音、人脸及文本信

22、息的多模态情感识别.515.1 多模态信息融合策略.515.1.1 特征层融合.515.1.2 决策层融合.525.2 基于二次训练的决策层融合方法.535.3 实验结果及分析.565.3.1 基于特征层融合的多模态情感识别.565.3.2 基于决策层融合的多模态情感识别.575.4 本章小结.62第6章总结与展望.636.1 工作总结.636.2 问题与展望.63参考文献.65-VH-万方数据东北大学硕士学位论文目录致谢.75攻硕期间取得的研究成果.77-VIII-万方数据东北大学硕士学位论文目录-IX-万方数据东北大学硕士学位论文第1章绪论第1章绪论1.1 课题背景及意义随着科技的发展,各

23、种电子终端影响着人类生活的方方面面,近几年,随着人工智 能的兴起和发展,人类与这些电子终端之间的交互需要更加人性化、智能化的方式。而 情感识别就是实现这一任务及其重要的一步,与我们的生活息息相关,应用前景极其广 阔,主要包括:(1)家庭保健与护理。有研窕显示,截至2016年年底,中国的65岁及以上老年 人口超过L 5亿,占总人口的10.8%,老龄化问题将成为中国社会和经济发展的新挑战。对于由此产生的空巢老人问题,可以在家庭环境下利用多种传感器多方位地采集老人的 信息,利用情感计算技术分析出其情感状态,然后通过一些措施给予适当的慰藉,起到 很好的陪伴作用,消除老人的孤寂感和对老年的恐惧,减轻子女

24、的家庭负担。(2)辅助医疗护理。在医院的病房中安装摄像头及麦克风等采集设备,实时采集病 人的多种外在表现信息及生理信号,跟踪看护对象的情感变化。当看护对象突然出现难 受等情感状态时,监控设备会立即提醒医护人员。医护人员不必时刻看护病人,而只需 在紧急情况下采取处理措施,大大减轻了工作负担,同时,对于一些无行动能力的病人,在出现突发状况时,不必按下呼叫按钮也能得到及时的救治。J丹麦模拟生气、高兴、中 性、悲伤、惊奇女性2人,男性2人419音频Speech UnderSinulated and ActualStress(SUSAS)(421英模拟、诱导生气、害怕、中性女性3人,男性4人16000音

25、频Enterface1431英模拟生气、讨厌、害 怕、高兴、悲 伤、惊奇女性8人,男性34人1277音视频SmartKoml)德、英自然生气、高兴、中 性、无助、沉 思、惊奇女性47人,男性32人2775音视频Audio-visual InterestCorpus(AVIC)的英自然中性、烦躁、高 兴女性10人,男性11人996音视频具有代表性的国内情感语音数据库如表2.2所示:表2.2具有代表性的国内情感语音数据库Table 2.2 Representative domestic emotional voice database数据库名称自然度情感类型人数数量多媒体CASIAM模拟生气、害怕

26、、高兴、悲伤、惊奇、中性女性2人,男性2人9600音频ACCorpus_SRl481模拟生气、高兴、悲伤、惊奇、中性50人50000音频北航情感语音数 据库网模拟生气、害怕、高兴、悲伤、惊奇、厌恶、中性女性8人,男性13人8400音频浙大情感语音数 据库硼模拟生气、害怕、高兴、悲伤、惊奇、厌恶、中性女性8人,男性13 A8400音频哈工大情感语音 数据库阳模拟生气、高兴、悲伤、惊奇女性9人,男性5人1256音频-12-万方数据东北大学硕士学位论文 第2案基于语音、表情及文本的情感识别方法具有代表性的连续情感语音数据库如表2.3所示:表2.3具有代表性的维度情感语音数据库Table 2.3 Re

27、presentative continuous emotional voice database数据库名称语言自然度情感类型人数数据量多媒体德语自然三维47 A1018 条音视频Semaine1521英语自然五维女性12人,7小时音视频男性8人2.1.2 人脸表情数据库当前,国内外常用的人脸表情数据库主要有:JAFFE(Japanese Female Facial Expression)国)发布于 1998 年,由 10 位日本女性在 实验室环境录制,包含213幅图像,悲伤、高兴、生气、讨厌、惊奇、害怕、中性七种 基本情感,,图像分辨率为256x256。Cohn-Kanade【“】数据库发布于

28、2000年,由卡内基 梅隆大学机器人研究所联合心理学系构建。包含生气、高兴、讨厌、悲伤、害怕、惊奇 和中性七种表情,约2000个灰度图像序列,图像分辨率为640X490。CK+数据库发 布于2010年,由Cohn-Kanade数据库扩展得到。面部表情数据集(Facial Expression Recognition2013,FER-2013)发布于2013年,包含生气、讨厌、害怕、高兴、悲伤、惊奇、中性七种情感。MMI数据库57是由英国帝国理工大学的人类与计算机交互研究 实验室所构建的,包含740幅静态图像以及848个动态的图像序列,静态图像均是24 位真彩色图像,分辨率是720 x576,图

29、像序列采集频率为每秒24帧。AFEW_4_0_EmotiW_2014I58Emotion Recognition In The Wild Challenge and Workshop 系列情感识别竞赛所使用的数据集,所有片段都截取自电影。国内研究者也建立了一些数据库。中国科学院计算技术研究所建立了 CASPEAL al 人脸数据库,它包含了中性、微笑、惊奇、皱眉、闭眼和张嘴等表情。北航的毛峡教授 等人网则建立了一个较为全面的人脸表情数据库,它包括三类面部表情,即十八种单一 表情、三种混合表情以及四种复杂表情。中科大NVIE数据集同】包括自然可见和红外面 部表情数据,是通过特定视频诱发,在正面、

30、左根h右侧光照三种光照下采集的表情库,每种光照条件下,对每人都采集喜悦、愤怒、哀伤、恐惧、厌恶、惊奇等情感状态中的 三种以上,标签以表格文件的形式提供,标签包括表情类的强度、激活度和效价。2.1.3 情感文本数据库目前大部分语料库是评论数据集,如电影评论、酒店评论、商品评论、社交社区评-13-万方数据东北大学硕士学位论文 第2章 基于语音、表情及文本的情感识别方法论等,这类数据资源丰富、获取便捷,并且具有主观性。在中文情感分析领域,中国科学院谭松波博士提供了中文情感挖掘语料库,包括酒 店、电脑和数据三个领域的为txt格式的评论数据。中国计算机学会自然语言处理与中 文计算会议发布的中文微博情感分

31、析测评数据,包括约20000条xml格式的腾讯微博。豆瓣网影评情感测试语料,数据来自于豆瓣用户对电影冰河世纪3的影评,数据格 式为HTMLo这些语料库为中文的文本情感分析提供了丰富的资源。在外文情感分析领域,康奈尔影评数据集(Cornell movie-reviewdatasets)(62.由IMDB 的篇章级电影评论构成,褒义和贬义评论各1000篇,句子级数据包括褒义和贬义各5331 个。多视角问答(Multiple-Perspective Question Answering,MPQA)瓯语料库来源于 535 篇新闻,标注等级为语句级别,标注信息包括情感文本的持有者、对象、强度以及极性 等

32、要素。Blog06是格拉斯哥大学的TREC测试集】,来自某些系列话题的主流博客。NTCIR多语言语料库(NTCIR multilingual corpus)闽由英文、中文和日文三个语种的新 闻组成,训练集标注了意见持有者、意见持有者的所有意见、情感极性以及根据主题预 设的相关信息。美国伊利诺斯大学的Hu等人阙构建了电子产品评论数据集,数据来源 是亚马逊和cNet上的商品评论,标注的信息包括评价持有者、倾向性以及强度。2.2情感特征提取2.2.1语音情感特征提取方法语音情感识别系统最主要的组成部分是情感特征的提取和识别,由于语音信号的复 杂性与多样性,能否准确地提取出体现情感差异而避免受说话人影

33、响的特征参数非常关 键环节。常用的语音情感特征有韵律特征、谱特征和音质特征三种。韵律特征指的是语音信号的基频、能量、时长等相关的特征,这些特征的变化能够 为人类所感受到,可以体现出说话人的部分情感信息,在韵律特征的实际计算中,一般 是采用这些特征的统计参数特征,如峰值、方差、均值、最大值、最小值等。表24常见的韵律特征】Table 2.4 Common rhythm characteristics特征类别具体特征基频相关基音频率及其均值、变化范围、变化率、均方差能量相关短时平均能量、短时平均能量过零率、短时平均振幅、振幅平均变化率、短时最大振幅时长相关语速、短时平均过零率-14-万方数据东北大

34、学硕士学位论文第2章基于语音、表情及文本的情感识别方法谱特征一般用短时表示的语音信号的特征,表示语音信号的短时功率谱特性。比较 常见的谱特征有短时傅里叶变换(Short-time Fourier transfbrm,STFT)、线性预测变换(Linear Prediction Transformation,LPC)、线性预测倒谱系数(Linear Predictive Cepstral Coefficients,LPCC)、梅尔频率倒谱系数(Mel frequency cepstrum coefficient,MFCC)等。其中最具有代表性的谱特征是MFCC特征,应用最为广泛。音质特征常用共振

35、峰表示,它是音质的决定因素,其参数包括共振峰带宽和共振峰 频率。以上描述的都是线性特征,近年来非线性特征也逐渐受到了研究者的关注,比较 有代表性的有1)Teager能量算子(Teager Energy Operator,TEO)特征,该特征已被应 用到了语音情感识别研究中,并取得了不错的表现;2)基于深度学习的特征,深度神经 网络能够自动分析数据、学习重要特征,提高了特征提取的效率,在语音信号处理中起 到越来越大的作用。2.2.2人脸表情特征提取方法人脸表情特征提取方法能够从原始的人类面部图像中提取出反映面部表情的特征 参数。人脸表情的特征提取方法网可以分为形变特征提取法和运动特征提取法两类。

36、形变特征提取方法是提取面部的纹理变化或几何形变特征,比较经典的方法有活动 外观模型(Active Appearance Model,AAM)、Gabor 小波变换、局部二元模式(Local Binary Patterns,LBP)等。活动外观模型方法是对数据进行统计分析之后建模来拟合目标。Cheon 等人皿融合了差分活动外观模型和流形学习方法进行表情识别,首先计算输入图像和参 考图像之间的差异作为差分AAM特征,随后使用流形嵌入法实现高维差分特征至平滑 连续的特征空间的映射,最后引入k近邻序列法实施分类,识别率至少可达到93.28%。Gabor小波变换具有良好的方向选择特性和光照适应性。L i

37、u等人结合局部Gabor小 波滤波器组和多项式核主成分分析进行人脸表情识别,用SVM进行分类,该方法有更 少的特征,并且对照度的影响不敏感,有着优秀的性能。局部二元模式由Ojala等人四 于1996年提出,其本质是一种简单却有效的纹理描述算子,优点是对光照变化鲁棒,且计算简单,便于实时分析。Shan网等人提出bo0sted-L BP算法提取有判别性的特征,然后用支持向量机对六类情感进行分类,识别率达90%左右。运动特征提取法是的提取对象是动态图像序列。经典的运动特征提取法包括光流法 四、运动模型176、特征点跟踪方法7刀等。光流法是运动特征提取方法中最常用的。人类 面部表情的变化伴随着眉毛、眼

38、睛、鼻子、嘴巴等各点的变化,光流就能够反映这些点 的运动信息和运动趋势,突出面部的形变。Hsieh等人Bl于2010年提出改进型光流法,-15-万方数据东北大学硕士学住论文第2章基于语音、表情及文本的情感识别方法融合了光流计算的灵活性表述和特征点标注的精确性特点,取得了较好的人脸表情识别 性能。Sdnchez等人DM系统地比较了局部特征点追踪法和整体脸密集流追踪法的性能,实验结果显示后者的性能更加优秀。Yh80b和Davis等人提针对六类情感的表情识别 任务出人脸局部参数运动模型,取得了良好的效果。特征点选择的位置一般是灰度变化 程度大的区域,例如眼角、嘴角等特征点。对这些特征点的跟踪有利于获

39、得面部特征的 位移或形变等信息。Tic等人口刀提出了一种特征点跟踪法,由若干个粒子过漉器实现,基于基准点的位移构建网络模型,最后计算出脸部表情的变化。2.2.3文本特征提取方法基于文本内容特征提取方法主要利用统计学方法去计算文本中字或词出现频率去 预测分类目标,目前现有计算词向量特征的相关算法包括:基于词频和逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)的特征提取法、卡方统计量(CHI)法、信息增益(InfbrmationGain,IG)法和互信息(MutualInfbrmatiion,MI)法等。灯,这些方 法每每只考虑到字或词

40、的形态链接,没有整体考虑到文本中嵌入的语义,情感相关信息 通常包括在语义信息中,也大概是以被忽略。这里介绍部分文本特征统计方法:(1)TFJDF 方法TF-IDF于20世纪80年代被提出,被认为是衡量词权重最为有效的解决方法,常 用于信息检索与文本挖掘等领域。TF-IDF是一种基于统计的方法,用以估计一个字或词 对于一个文件集或一个语料库中一个文件的主要水平,词汇的重要性与其出现在文中的 频数成正比,但与它出现在整个语料库中的频数成反比。(2)卡方统计方法CHI统计目的是衡量词与类别之间的关联关系水平,并且假定词与类别之间符合具 备一阶自由度的卡方分布,某个类别的某特征的CHI值越大,则该特征

41、与该类别越相 关,携带的信息越多,反之则越少。(3)信息增益法信息增益通常用在机器学习领域中,它通过文本中的文本特征项为整个分类所能提 供的信息量的多少来衡量此特征项的重要程度,来决定对该特征项的取舍。其定义为某 一特征在文本中存在之前以及存在之后的信息熠的差。信息增益法指的是分别计算出训 练数据中各个特征项的信息增益,将信息增益低的特征项剔除,其余项依照信息增益从 大到小倒序排列。信息增益法也存在一些问题,很多信息增益较高的特征项出现的频率 较低,因此信息增益选择的特征较少时,往往出现特征稀疏问题,致使分类结果变差。-16-万方数据东北大学硕士学位论文第2章基于语音、表情及文本的情感识别方法

42、(4)互信息法互信息是信息论中的基本概念,它表示的是词汇和类别之间的相互依赖关系的度量,其基本思想是:若果某个特征与某个类别之的互信息越大,则该特征与该类别共同出现 的可能性就越大。也就是说,某个类别和属于该类别的特征词之间具有最大的互信息。这四种方法是文本分类中最经典的特征提取方法,还有许多研究者提出了其他的特 征提取方法,如DTP(Distance to Transition Point)方法幽、期望交叉燧法、文本证据权 法、优势率方法】、类别区分词法网、基于粗糙集的特征提取法TFACQ等。2.3情感分类模型情感识别是一个非常典型的模式识别问题,大部分模式识别算法都可以用于解决情 感识别问

43、题网。常用的分类算法有线性判别分析(Linear Discriminant Analysis,LDA)支持向量机(Support Vector Machines,SVM)、k 近邻(k Nearest Neighbor,kNN)隐马 尔可夫模型(Hidden Markov Model,HMM)、高斯混合模型(Gaussian mixture model,GMM)、人工神经网络(Artificial Neural Networks,ANN)等。(1)线性判别分析线性判别分析是模式识别领域的经典算法。其思想为:将给定的训练集投影到一条 直线上,使同类样例的投影点之间的距离尽可能近,异类样例的投影点

44、之间的距离尽可 能远。院伊5】等人对于情感极性的识别任务,在传统的声学特征参数中融合了语义、词 汇等信息,基于英文情感对话数据进行情感识别实验,采用线性判别分类器取得的正确 识别率接近90%0(2)支持向量机支持向量机是定义在特征空间上的间隔最大化的二分类模型。核技巧的使用使它成 为一个非线性且具有良好泛化能力的机器学习方法,是一种非常有效的模式识别方法。Sobol-Shikler等人画基于英语情感语音数据库,提取基频、能量、语速和谐波等特征参 数,应用SVM模型有趣、兴奋、自信等九种复杂情感,识别的准确率达到83%。徐红 等【切提出以改进粒子群算法优化SVM关键参数,构造多层SVM模型进行人

45、脸表情识 别。任剑锋等人网结合流行学习和支持向量机进行文本分类计算,先用非线性流行学习 算法把高维文本特征降维到低维空间,然后用最小二乘支持向量机进行分类,提高了文 本分类的精度和效率。李琼和陈利提出一种基于Mercer核函数和二叉树改进的支持 向量机多分类方法,应用到网络文本分类中,有效缩短了训练时长,分类精度达93%。(3)K近邻-17-万方数据东北大学硕士学位论文第2章基于语音、表情及文本的情感识别方法K近邻法是一种常见的监督型的非参数化模式分类器。它的工作机制是:对于给定 的测试样本,基于某种距离的度量找出训练集中与它距离最近的K个训练样本,根据这 K个样本的类别信息预测测试样本的类别

46、。Attabi和Dumouchel1刻于2011年对KNN进 行改进,用于FAUAIBO语音情感数据库的情感识别任务,进一步提高了 KNN的分类 表现。Ou等人例1用Gabor小波和主成分分析的方法提取人脸表情特征,送入k近邻分 类器进行分类,取得了不错的分类效果。孙莹的基于网络文本数据,使用KNN情感分 类器构建了细粒度情感分类模型,取得了良好的分类效果。刘晓菲等人倒采用潜在语义 分析算法对文本特征向量降维优化之后设计加权KNN算法对消费者的评价信息进行情 感极性分类,在不降低分类效果的情况下提高了分类速度。(4)隐马尔可夫模型隐马尔可夫模型(HMM)是一种与时序有关的概率模型,是生成模型的

47、一种,描述 从隐藏的马尔可夫链随机生成观测序列的过程。HMM能够很好地描述语音信号的整体 非平稳性和局部平稳性,因此HMM被广泛应用于基于时序特征的语音情感识别、语音 识别、自然语言处理以及图像序列的表情分类任务中。Pa94】等人提出将四状态离散 HMM应用与语音情感识别任务,基于语音数据的MFCC、LPC、LPCC、LFPC等声学 特征参数,识别悲伤、厌恶、高兴、愤怒和中性五种情感状态,识别准确率可达88.7%。很多研究者在不断的试验中发现HMM有超越LDC、KNN等模型的性能。张发光等网 提出一种改进的HMM模型,针对传统HMM表情序列模型的识别能力有限的缺陷,在HMM模型中增加状态中心参

48、数实现模型扩展,取得了很好的识别效果。(5)高斯混合模型高斯混合模型(Gaussian Mixture Model,GMM)就是用多个高斯概率密度函数将变 量分布精确量化,是对高斯概率密度函数的扩展,是将变量分布分解为若干基于高斯概 率密度函数(正态分布曲线)分布的统计模型。GMM也可以看成是只有一个状态数的 连续性HMM。Schuller等人样】基于包含德英两种语言的情感语音数据库比较了 HMM 和GMM的表现。在实验的过程中,使用基于帧的短时统计声学特征参数和四个状态的 从左到右型连续HMM模型,以及基于整句语音的全局统计声学特征参数和四阶GMM 模型,对七种情感(Joy、Anger、Fe

49、ar、DisgustSadnessNeutrak Surprise)进行识别,HMM模型的识别准确率为77.8%,而GMM模型的识别准确率达到了 88.6%.(6)多分类器组合虽然情感识别任务可以使用各种模式识模型,但每种模型自身都有其优缺点。为了 充分利用每种分类器的优势以及进一步提高语音情感识别分类器的性能,可以采用多分-18-万方数据东北大学硕士学位论文 第2章基于语音、表情及文本的情感识别方法类器组合的方法来实现。Hu等人【97】使用将GMM和SVM串联的组合方式,将谱特征用 基于GMM的通用背景模型处理,得到GMM超向量,然后再将这个超向量输入到SVM 进行训练和识别。实验结果显示这

50、种串联组合的方法的效果要优于单独使用SVMo Enrique等人网将GMM、HMM和多层感知器层联成一个基于谱特征和韵律特征的两级 分类器模型,分类准确率比单一分类器更高。Ghimire和Lee网 基于Cohn-Kanade数据 库,采用几何特征,融合多类Adaboost和SVM进行人脸表情识另力准确率达97.35%。(7)人工神经网络人工神经网络(ANN)是一种模仿生物神经网络的结构和功能的、用于的函数的估 计或近似的数学模型。Park等人解决四种情感(Neutral、Anger、Laugh、Surprise)的 识别任务时,提取数据的基频特征作为动态循环神经网络的输入特征,最佳的识别准确

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 行业资料 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服