1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2,#,基于词典的中文情感倾向,文本分析工具,1,2,情感倾向可认为是主体对某一客体主观存在的内心喜恶,内在评价的一种倾向。,情感倾向方向,情感倾向度,情感倾向,2,2,目前,情感倾向分析的方法主要分为两类:,基于情感词典的方法;,是基于机器学习的方法,。,分析方法,3,2,文本情感分析的分析粒度,:,词语,;,句子,;,段落,;,篇章。,分析粒度,4,2,解决较短文本的情感分析,,篇章级文本情感分析的基础。,分析粒度,句子级的情感倾向分析,:,5,2,使用工具:,语言:,java,中文分词系统:,FudanN
2、LP-1.5,情感词典:,知网情感词典,语言和工具:,6,2,1,、文本切割转换,算法分析,3,、情感聚合,2,、情感定位,7,2,将文档,D,以换行符,”/n”,分割成段落,P,;,将段落,P,用中文里常用的句号、分号、问号、感叹号划分句意的符号,切割成不同的句,子,“,。,”,”,;,”,”,?,”,”,!,”,;,使用,FudanNLP,中的,分词函数,对,短句,进行分词,。,1,、文本切割转换,8,2,文本切割的目的是将文本变成我们后续分析需要的格式,:,“,我今天很不高兴。,”,(,1,,,“,我,”,“,代词,”,),(,2,,,“,今天,”,,,”,时态词,”,),(,3,,,“
3、很,”,,,”,副词,”,),(,4,,,“,不,”,,,”,否定词,”,),(,5,,,“,高兴,”,,,“,形容词,”,),1,、文本切割转换,9,2,2,、情感定位,单词列表,是否为情感词,否,next,标记并存入情感词列表,next,是,10,2,否定词的修饰会使情感词语的情感极性发生改变。,多重否定,:,当否定词出现奇数次时,表示否定意思;当否定词出现偶数次时,表示肯定意思。,否定词典,NotDict,,并设置其权值为,W=-1,。,常见的否定词如:,不、没、无、非、莫、弗、毋、勿、未、否、别、無、休,否定词和程度副词的优化,“,我今天很,不,高兴,”,11,2,当程度副词修饰情感
4、词,该情感词的情感倾向程度发生了变化。,否定词和程度副词的优化,“,今天坐了,12,个小时的车,身体,极度,疲惫。,”,12,2,type|,权值,超,|over,1.5,很,|very,1.25,极其,|extreme/,最,|most,2,较,|more,1.2,欠,|insufficiently,0.5,稍,|slightly,0.8,程度副词示例,13,2,经过文本切割转换,(,1,,,“,我,”,“,代词,”,),,(,2,,,“,今天,”,,,“,时态词,”,),,(,3,,,“,很,”,,,“副词,”,),,(,4,,,“,不,”,,,“,否定词,”,),,(,5,,,“,高兴,
5、形容词,”,),情感定位,(5,,,“,积极词,”,,,4),,,(4,“,否定词,”,-1),,,(3,“,程度词,”,1.25),“,我今天很不高兴。,”,14,2,篇章级情感倾向通过聚合篇章中所有的,句子的情感倾向,来计算得出。,句子级由句子中所含,情感词,来计算。,3,、情感聚合,情感值,=,否定词,(-1)*,程度词权重,*,情感词权重,15,2,“,我很不高兴,”,分词之后:我,很,不,高兴,“,我不很高兴,”,分词之后:我,不,很,高兴,否定词和程度词位置,关系,16,2,W=1;If,位置(否定词),位置(程度词):,W=-1;,意群情感值,=W*,程度词权重,*,
6、情感词权重,;,endIf,位置(否定词),位置(程度词):,W=0.5;,意群情感值,=W*,程度词权重,*,情感词权重,;,end,如果,句子,里出现多个否定词,则处理办法为:,For n in,所有否定词,:,W=-1*W,3,、情感聚合,17,2,句子情感值,=sum,(意群情感值,1,,意群情感值,2,),段落情感值,=average,(句子,1,情感值,句子,2,情感值,),文档情感值,=average,(段落,1,情感值,段落,2,情感值,),3,、情感聚合,18,2,最后可以通过整个文章的情感值的正负号以及权值大小来判断情感倾向是积极的还是消极的。,小 结,19,2,Thank you,