收藏 分销(赏)

本科毕业论文---教学分析评价评估和情感倾向性分析.doc

上传人:可**** 文档编号:2165008 上传时间:2024-05-21 格式:DOC 页数:30 大小:594.50KB
下载 相关 举报
本科毕业论文---教学分析评价评估和情感倾向性分析.doc_第1页
第1页 / 共30页
本科毕业论文---教学分析评价评估和情感倾向性分析.doc_第2页
第2页 / 共30页
本科毕业论文---教学分析评价评估和情感倾向性分析.doc_第3页
第3页 / 共30页
本科毕业论文---教学分析评价评估和情感倾向性分析.doc_第4页
第4页 / 共30页
本科毕业论文---教学分析评价评估和情感倾向性分析.doc_第5页
第5页 / 共30页
点击查看更多>>
资源描述

1、1 绪论本章的主要内容首先包括课题的研究背景和意义,其次介绍了教学评价和情感倾向性分析的国内外研究现状,最后再介绍了本课题的研究内容和研究方法。1.1 研究背景与意义 1.1.1 课题来源本课题来源于山东省自然科学基金青年基金面向网络异构文本的自适应话题跟踪及其演化分析方法研究(No. ZR2013FQ030)和山东科技大学研究生科技创新基金项目基于情感倾向性分析的教学评价自动分析方法(No.YC140326)。1.1.2 研究背景教学评价是教学过程中重要的一环,是加强教师队伍建设,提高教师教学质量的重要保证。教学评价的展开能否顺利进行,很大程度上决定了教师的教学质量。教学评价作为教学过程中的

2、重要组成部分已经受到教学领域的重视。我国高校教师的教学评价始于80年代中期。而1990年的统计发现开展教学评价的高校占全国高校的44.6%1。而目前我国高校教师教学评价已经逐步走向系列化、规范化、公开化。而国外的教师教学评价则经历了以教师的个性特征为主要标准的评价阶段、以教师的课堂教学行为为主要标准的评价阶段,以及以综合的标准全面评价教师教学效果等三个阶段2。而国内外常用的教学评价模式主要有纸质调查问卷式(人工填写、人工统计)、机读卡式(人工填写、光标机统计)和网络评价这三种模式,而前两种模式正逐渐被第三种模式所替代。高校学科各种专业的大规模出现与教学评价不被重视之间产生了矛盾,现阶段教学评价

3、的主体多是教育主管部门、专家转换。这样的方式不仅耗费人力和物力,而且转换的相当的慢。随着Web2.0技术的发展,Internet上出现了越来越多的教师教学评价平台,比如学邦网等。这些网络平台上的教学评价数据量非常大,单靠人工进行评测显然是一件费时费力的事情。情感倾向性分析是一种新颖的计算机分析语言技术,是自然语言处理的范围,可用于自动摘要、文本分类、自然语言接口等领域。情感倾向性分析的主要功能是自动分析评论者所发表的评论的感情色彩,同时还能挖掘更为细粒度的内容,例如评价对象等。这些年来国内外专家学者开始对情感倾向性分析产生了浓厚的兴趣。目前的研究的方向主要在电商产品评论的挖掘系统这个领域,随着

4、网络技术的不断发展和电子商务网站的越来越普遍,商家研究产品评论技术越来越热潮。商家根据购物者对商品的评价信息来判定产品受喜爱的程度;商家可以通过市场调查来明确购物者的喜好,然后知道产品的大概走向,从而生产出消费者满意的产品,进而提高产品的满意度和销售量。为此,为了应对网络上出现的海量评价信息,本文提出将情感倾向性分析技术引入到教学评价的自动分析中。通过本文的研究试图寻找一种由计算机辅助进行评价的方法,其中数据源选择为互连网络中出现的教学评价信息。把情感倾向性分析引入到教学评价中,能够构建一个更有效进行教学评价的平台。因此,对研究教学评价自动分析来说,让其在情感倾向性分析的基础上的研究具有重大的

5、现实意义和理论价值。1.1.3 研究意义基于情感倾向性的教学评价将传统教学评价的主体由教育主管部门、专家转换为在校大学生,通过大学生的评论信息对教师的教学课程进行评价,同时评价的过程是由计算机算法完成的而不需要专门的人进行统计和评价,因此论文的研究意义有以下几点:(1)降低教学评价的成本传统教师课程的评价,都是由各大高校组织专家进行评价,要经过准备、实施、处理、反馈这四个阶段,每个阶段都非常重要,都需要投入一定量的人物财力,对较少数量的课程评价信息有很好的效果。如果教师教学评论信息数量庞大,投入大量的资源用于教学课程评价是不合适的。基于情感倾向性的教学评价将由计算机代替人工评价,将会减少评价成

6、本。(2)有助于高校了解大学生的学习感受学习的人对课程的评价并没有得到调查公司和量表的制定的对于传统的教学评价来讲评测实施过程中的重视。相关文献研究说明,大学生对教师教学评价的感受才更有助于课程的改进与提高。情感倾向性分析的挖掘目标正是大学生对教师教学课程的评价信息,在对这些信息的挖掘过程中找出教师在这门课程的教学方面存在的不足。(3)有助于高校及时了解教师的教学水平 高校通过教学评价的挖掘结果,可以从一定程度上了解教师的教学质量,从学生的情感性评价信息中发现教师教学中所存在的问题,及时沟通,并且有利于高校制定相应的考核制度,进一步规范教师教学态度,提高教师教学质量等一系列问题。(4)更重视高

7、校课程的形成性评价3传统教学评价往往是总结性评价,每年首先由教学申报单位提出申请,随后在聘用专业的机构对其评价。这样的评价方式的主要缺点是:第一,不注意这样的评价方式在使用的时候的形成性评价;第二,没有灵活的时间分配;第三,评价机构才掌握最主要的决策权。这种评价模式对想及时获取教师教学本身存在的一些问题并不是最优的,可是对于情感倾向性分析技术的优点就是可以在第一时间获得老师所教授的课程的相关信息,在进行分类整理,将使用者对最关心的问题呈现给高校管理者,这样更有利于课程的优化工作。1.2 国内外研究现状情感倾向性分析和教学评价的研究在各自领域都取得了一定的进展和成就。情感倾向性分析技术多应用于商

8、业交易活动挖掘中,而将情感倾向性分析应用于高校教学评价的研究比较少,下面从两个方面介绍和本文相关的国内外研究现状。1.2.1 教学评价的研究现状高校课程的教育质量很大程度取决于教师本身,规范的教学评价有助于高校管理者及时发现教师教学的不足以提高课程的教学质量。所以,教师本身的教学风格、讲授方法在高校教育中有着非常重要的作用,国内外的专家学者对教学评价也做了很多研究。国外教学评价的研究成果具体表现为以下4个方面4:(1)以研究教师特征与教学有效性为重点本文的研究重点就是将有可能对课堂教学行为和哪些教师特征对影响教学的有效性的进行鉴别,例如,学生的个人的基础知识的高低和专业化程度,教师问问题的方法

9、和其对学生产生的作用,教师的特点、年龄、性别等。(2)以研究课堂教学活动与教学有效性为重点整个六、七十年代,西方课堂对教学有效性的研究十分感兴趣,并且研究具有一定的成果。研究在这个时候其范围已经开始扩散到了教师和学生组成的课堂教学活动,已经不仅仅是教师单一的影响特点。 关注学生的学习。在开始关心研究认知心理学的学者中比较早的一位是加涅。加涅于1965年著作的影响力巨大的心理学学习作品学习的条件一书。这本书初步概括了课堂学习的大部分学习论体系。他认为,学习的过程是随着学生受教育的程度和经验而不断变化的。 关注师生互动与沟通。另一个重要的对教学有效性的影响因素就是师生之间能否有效的交往和沟通,师生

10、之间如果能够有效的交往和沟通将产生良好的教学效果。教学的活动将不只是有教师主导,而在于双方的共同努力。 关注有效教学的有效决策和基本行为。另一个重要的心理学作品有效教学方法由鲍里奇主著,他的观点是如果要能够让教学成果十分有效,有以下几种因素严重的影响着教学行为:第一,确保学生成功率;第二,在学习的过程如何有效的引导学生积极投入;第三,任务导向;第四,多样化教学;第五,清晰授课。 关注教师的教学策略体系和教学模式的构建。韦尔和乔伊斯于二十世纪七十年代在所著作的一本书教学模式,这本书中给出了教学模式的概念和理论的应用。同时他们还在众多教学模式中选出了其中的二十五种,将他们总结为四种主要的教学模式即

11、社会相互作用、行为教学、信息处理、和个人发展等等。乔伊斯还说明,理想的教学模式是不存在的。没有一种模式是为完成所有类型的学习设计的。教师学习各种教学模式的目的是为了丰富教师自己原来的教学风格。 关注学生的学习策略。经相关文献的研究表明,和学生的基本技能如算、写、读、说和听比起来,更加高深的学习策略,如解决问题的策略、选择方法的策略、认知策略、合作学习策略、科学利用时间策略、原理学习策略等的掌握和运用,更能提高学生学习的有效性。(3)以研究教学环境与教学有效性为重点早在1970年,邓金和比德尔就提出了影响教学有效性的因素,除了学生、教师、教学内容外,还有教学环境。有关教学环境的研究主要考虑了:班

12、级规模大小及管理、设备和教材、课堂心理氛围、教学空间的设计等因素。 班级规模与教学有效性研究。20世纪末,美国的印第安纳州、田纳西州、威斯康辛州等进行了几项有关班级大小与教学成绩关系的实验,实验结果都认同小班化教育与学生学业成绩的提高有直接的联系。 课堂心理氛围与教学有效性研究。课堂心理氛围是指教学班级在课堂上所呈现出的情绪和情感状态。国外在这方面的研究集中在三个方面:一是研究判断课堂心理氛围对教学有效性影响的大小。结论是良好的课堂心理氛围对学习成绩的影响重大。二是研究怎样营造来良好的课堂心理氛围。老师应通过和学生建立起融洽的个人关系来促进学生成长。三是研究如何科学测量评估课堂的心理氛围。常用

13、的做法是设计一个量表,让学生来判断课堂心理氛围是否适当。 设备、教材、教学空间与教学有效性的研究。安利在1985年的研究认为,纵然提供优良的教学设备,也不大可能教学模式,但充足的教学仪器和良好的科学实验房间,却能够促进科学教学的实践,并促使学生广泛参与到科学学习中。(4)以课堂教学有效性标准研究为重点根据研究表明,无论是教学行为标准还是内容标准对教学都起指导作用。英国教师培训机构在1994年到1998年之间主动的开发基于教师的教学标准。在美国几乎各州、各学区都有自己的课堂教学有效性标准。我国高校教学评价研究的起步比国外晚一些,对于教学评价活动的开展也比其他西方的国家要晚一些,主要的研究方法是评

14、价的专家根据评价的标准的出评价模式的评价结论,其研究的主要方向是教学评价标准。近三十年来,在国家的鼓励政策和措施下,我国研究教学评价的水平也渐渐得到提高,我国的教学评价方法和理论在相关的实践工作者和理论工作者的协同努力下也取得了很大的成就。一直以来,国内各高校在建立和完善教学质量评价系统方面开展了大量的探索与研究,从而构成了三种评价模式:第一,网络评价;第二,基于光标机统计和人工填写的机读卡式的评价;第三,由人工统计和人工填写的纸质调查问卷式。由于缺乏时效性和存在效率低下等问题,后两种教学模式已将开始渐渐的被网络评价模式所取代。部分国内高校现在所设置的网络评价系统还不够完善,这种不完善性主要体

15、现在以下两个角度:一是教学评价指标不够全面,缺乏有效性和科学性。多数学校只建立了理论教学评价指标体系,同时往往相同的评价指标体系用在所有的开课课程中,这样就使得一般理论课程和选修课程的毕业设计、课程设计甚至试验课程评价指标体系都完全一样的情况,就不能将课程特征完全体现出来。二是系统的功能缺乏完善性,很多评价功能只能够让学生对课堂过程进行评价,没有将领导评价、同行评价和教师评价纳入进来;甚至有时要求学生必须将姓名填上才能评价,不能匿名,这就造成了学生评价的过程中的担心问题。1.2.2 情感倾向性分析的研究现状随着互联网的发展,网民数量呈指数增加。尤其随着Web2.0技术的发展,人与人之间的沟通变

16、得更为方便,同时2.0技术的发展为网民提供了发表意见与看法的更为广阔的平台。互联网中出现了海量的网民对于不同事物的评论信息,如何从这些信息中抽取出网民对某一产品或者事情的情感倾向性以便更好地制定相关决策,具有非常重要的意义。为此,出现了情感倾向性分析的这个概念。情感倾向性分析的概念就是分析主体对某个客观存在的现象的内心的喜欢或者厌恶的感觉,有程度和对象性。情感倾向性分析主要有四个要素构造:第一,情感(Sentiment);第二,陈述(Claim);第三,意见持有者(Holder);第四主题(Topic)。而且国外对于情感倾向性的研究也是基于这四个方面的要素展开,主要研究了以下几个方面:第一,意

17、见持有者的识别;第二,主题的识别;第三,情感分析;第四,主观陈述的筛选。到目前为止,国外已经有很多成型的文本倾向性分析系统。文本情感倾向性研究的历史不长,最早可以追溯到1991年至2000年,并且在2000年后突飞猛进的发展。目前,文本倾向性研究已成为国内外研究的热点问题。由于中英文的巨大差异,已有的外语情感倾向性分析系统并不适用中文,在我国,相关的专家学者对于情感倾向性分析的重要性的意识要比外国晚一点,最早开始相关方面的研究是Tsou(香港城市大学)在基于WebFountain 系统上对台湾、香港、北京和上海四大报刊上的四位重要的政治人物进行了分析,从总体上对于报刊上的四大重要的政治人物分类

18、整理了人们对于他们的褒贬评价,最后得出了对于特殊事件的人物所持的媒体态度。随后李琳琳等人(上海交通大学)成功的研制出了一个意见挖掘系统(OMS)5,它主要针对于特定范围领域的汉语句子而言。 本文首先将知网中的词语和文中的词语进行了匹配分析然后获取了词语的极性,然后开始对词语的极性进行分析,主要采用SVM 分类器;另外姚天昉、娄德成等人(上海交通大学)研制了情感倾向性系统,主要应用于汉语汽车评论中。这个系统的主要作用就是从相关的网站中积极的搜索到客户对不同类型的汽车的功能和品牌的评价,然后系统再对评价的褒贬极性进行判断,进而挖掘并概括所得的词语,最后再将他们应用到汽车的指标的分析过程中。1.3

19、研究内容与研究方法1.3.1研究内容结合国内外现状的分析,本文确定了以下几个方面的研究内容:(1)基于情感倾向性分析的教学评价分析模型对已有的教学评价模型进行分析,总结出这些模型共同的特点以及它们相应存在的不足,建立了基于情感倾向性的教学评价分析模型。(2)基于情感倾向性分析的教学评价情感分类研究本部分将情感分类技术引入到教学评价的情感分类中,最终得到学生在某一课程的教学评价中所包含的情感倾向,即褒义、贬义或者客观。本部分主要实现了基于情感词典的情感分类方法,并给出了一种情感词自动扩充方法。(3)教学评价对象自动抽取方法。本文将学生在进行评价时所评论的对象(如授课方式、仪表等)称为教学评价对象

20、。为了更为精确的发现学生在进行教学评价时所关注的对象,特开展教学评价对象自动抽取的研究,最终得到教师教学质量高低的影响因素,更好地帮助教师改善其教学质量。1.3.2 研究方法本文的研究主要采用了以下几种方法:(1) 文献研究法。通过对国内外的相关的情感倾向性和教学评价的文章进行阅读研究,掌握该领域的国内外研究现状及发展趋势,从而提出将情感倾向性分析技术引入到教学评价的自动分析中。(2)系统分析方法。将基于情感倾向性分析的教学评价模型作为一个系统,逐一地进行文本抽取、情感倾向性分析以及评价结果可视化等各个环节。(3)设计研究法,基于情感倾向性分析的教学评价分析方法的设计与实现,然后确定所分析的方

21、法的需求,随后在进行详细的设计,最后经过编码实现我们的教学评价方法。1.4 论文的组织结构本文内容的组织结构如下:第一章 绪论。第一章的主要内容是本课题的研究背景和意义,然后系统的介绍了内容外相关领域的研究现状,陈述了全文的组织结构。第二章 相关理论基础。这一章主要介绍了相关的理论知识和技术要点,主要包括教学评价概述、情感倾向性分析相关理论知识。第三章 基于情感倾向性分析的教学评价模型。这一章给出了本文所应用的基于情感倾向性分析的教学评价模型,并重点介绍了本文所采用的教学评价信息获取方法。第四章 基于情感词典自动扩充的教学评价情感分类方法,首先给出了本文用于教学评价情感分类的基本方法,然后给出

22、了自动抽取教学评价词的方法,最后验证了抽取的评价词在教学评价份情感分类中的性能。第五章 教学评价对象抽取方法,本章主要围绕着如何抽取教学评论中的教学评价展开研究,通过本章的研究可以清楚的发现学生们在进行教学评价时所更为关心的方面,以便更好地帮助教师改善教学质量。第六章 总结与展望,对全文进行了总结以及我在这次毕业设计过程中获得的宝贵经验和对于未来的展望。1.5 本章小结本章首先阐述了本文工作的研究背景与意义,然后分析了教学评价和情感倾向性分析的国内外研究现状及发展趋势,随后给出了本文的研究内容和研究方法,最后再系统的安排了本文的机构。302 相关理论基础对教学评价和情感倾向性分析技术的理解是论

23、文顺利开展的前提。本章将对教学评价、文本挖掘以及情感倾向性分析的相关技术和方法进行分析,以便更好地和后续工作中各种技术相融合。2.1 教学评价教学评价是高校教书育人,培养人才持续发展的起点,在高校教育中占有十分重要的地位。2.1.1教学评价的定义 (1)评价的定义“评价”根据字面的意思就是对货物价值的评论,最早的在我国的相关方面的记载是宋史戚同文传,在这边书里的相关的介绍是“市物不评价,市人知而不散”。在今天也是指衡量事物或者人物的指标。在国外,评价 (evaluate)的概念是阐明或者引出价值。综上所述,评价从本质上是一种价值判断的行为,它的主要作用是衡量事物的好坏、优劣和对错 6。(2)教

24、学评价的定义教学评价的作用是根据教学原则和教学目标,结合所有行得通的教学评价技术,判断教学过程和教学成果,从而给被评价的对象和相关的领域的人以信息或者证明某种资格。教学评价的因素一般由教学活动中的学生和教师、教学管理、教学环境、教学手段和方法、教学内容组成,主要是针对教学工作工程中的教师的教学表现和学生的学习成果的评价。教学评价有两个重要的环节,第一,课堂上或者课外的教师教学评估,主要对教师的教学实施、教学组织和教学设计等工作的评价;第二,考试和测验,主要是对学生的学习成果的评价。2.1.2 教学评价的功能教学评价的重点是促进学校提高教学质量和教学工作的健康发展,具体来讲包含以下几个方面的功能

25、7:(1) 检测功能:这个功能主要是为了判定和测量教学成果,也是一项重要的教学评价职能。教学评价是根据实验的结果进行分析和综合所得。检验的主要方法有调查、作品分析、考查、考试、测量、观察等,检测是其他功能的基础。只有通过检测后才能为教学内容的选择、教学计划的制定、教学方法的确定、教学成果的评定、办学质量的评价、学习成果的检查提供客观的凭据。(2) 诊断功能:作为教学评价的另外一个重要的职能就是诊断,它是从教师的方面来考虑的,主要包括以下内容:第一,诊断学生在学习过程中普遍存在的问题;第二,诊断学生在学习过程中出现的个别特殊的问题;第三,对教师而言,诊断其在教学过程中所存在的不足之处,然后帮助教

26、师更加清楚的明白自己的教学手段。教学方法和教学目标的应用的缺点,如是否明确了教学的目标,是否突出了教学的难点等,从而更加深层次的改进不足,修正教学方法,提高教学水平。(3) 反馈-调节功能:教学过程是一个信息输入、转换、输出、反馈和调节的过程。教学评价的目的不仅仅是为了教师更加了解教学的实际情况,而且还为教学的过程给出了许多的反馈信息,从而让教师知道自己原来的教学工作所存在的不足和缺点,为了今后的教学过程的设计和调节提供依据,从而获得更好的教学成果。另外,反馈和调节可以帮助学生更加深刻的认识到自己在学习的过程中所存在的缺点,更加清楚的认识到自身的优势,帮助学生更加深刻的进行反思,同时对自己在学

27、习过程中的方法和态度进行完善和调节,以达到更好的目标。(4) 激励功能:教学评价的功能还有更好的激励学生的学习欲望和学习兴趣。一般来讲,积极的评价可以提高和激发教师和学生的工作热情和学习兴趣,调动他们的主动性和积极性;消极的评价能够使教师和学生看到自己在工作或者学习过程中存在的缺点,以及造成自己和其他的人的差距的原因,从而从根本上治理,及时矫正。(5) 导向功能:教学评价对教师和学生具有导向的功能。例如,如今的教育要求学生全面发展德智体,因此,教师学校在教学的过程中就要对德智体进行全面的培养,从而才能使得学生在德智体方面得到更好的发展。此外,评价标准和检测内容又通常是教学的标准和内容,往往成为

28、影响教学的重要因素,同时还影响着教师和学生的精力分配和时间分配,教师和学生的努力目标。(6)管理功能:教学评价往往是衡量教学质量水平和工作目标实现的重要“尺子”和标准。这是由于教学评价可以帮助教师和学生发现教学工作的过程中的缺点,同时教学评价系统的数据挖掘可以更加清楚的了解教学目标的特点,可以帮助教师掌握教学的创新、教学改革、教学能力、教学态度等情况。从而为了更好的提高教学水平和教学质量提供决策参考意见,为教学管理的改进提供有效的依据。(6) 研究功能:教学评价的主要方法是科学测量的方法,他系统的分析了所收集的资料,同时其评价的结果往往需要写成书面的正式的报告形式,另外,教学评价本身就是科学的

29、探讨。因此,作为教育教学研究的一个重要的组成部分,教学评价在教学方法改革的研究和改革实验中,检验改革是否成功的重要手段和环节就是教学评价。综上所述,教学评价可以使得教育科学研究和教学改革得到更好的发展。(8)选拔功能:通过教学评价,国家、集体、社会可以选拔出优秀人才。2.1.3 教学评价的特点教学评价随着科学的不断发展和教育的不断先进化而进入了一个最新的历史时期,它现在主要有以下几个方面的特点:(1) 教学评价以教学目的为依据。没有目标是无法进行评价的,对于教学评价来说,明确教学目标是前提工作。教学目标是系统的全面的,由许多方面的因素共同构成的,而不是单一的。在教学目标系统中,教学目标起着重要

30、的主导的作用,所以在教学评价的过程中应该首当考虑教学目标。可是,教学目标的评价不能仅仅使用其中的单一某项或者某几项来对教学的质量进行判断其好坏,也不能脱离教学目标系统。此外,由于教学评价随着科学的不断发展和教育的不断先进化而不断的变化和发展,因此教学质量也不是固定不变和绝对的。另外,由于教学目标和教学内容随着地域的差别也不完全相同,在实际的教学评价的过程中,要根据具体的教学目标具体分析。(2) 教学评价的全面性。从宏观上来说,教学评价是对整个教学系统的评价;而从微观上来看,教学评价是对某个具体的对象的评价。教学评价的主要内容包含组织或者外部机构对教学的评价和检查、学生、教师和学校的自我评价和自

31、我检查。评价是结果和过程的相互统一。譬如,对于教师的评价则必须从教师的角度来考虑,将教师的特点在教学环境和教学的绩效精细全面的综合分析。在评价的过程中既要评价教师的教学表现,也要评价其教学绩效,还要评价其职责的完成情况。(3) 教学评价的连续性8。教学评价是学校的经常性的连续性的工作和活动。教学评价是判断和衡量被教育者和教育者完成目标的程度情况。在实际的教学评价过程中总是要根据当时当地所发生的教学变化而进行实际实践活动,采取一切可以实施的手段和方法进行的教学指导、诊断和评定等。(4) 教学评价活动中要重视客体的主动性。在整个教学评价的过程中,被评价的对象不是简单的处于被调查的被动地位,而是应该

32、主动的积极的进行自我检讨自我反省和自我评价。因此,对教学的评价过程,就不仅是评价。2.2 文本挖掘情感倾向性分析研究可以看成是文本挖掘中的一个研究内容,在此首先介绍一下文本挖掘的相关知识,为后续研究奠定基础。2.2.1 文本挖掘的定义与过程在客观的实际的社会中,很多的信息都是通过文本的方式存在文本数据库中的,并且很多数据员如Web页面、电子邮件、研究论文、新闻文档都是由大量的文档构成。同时由于电子格式的文本增长飞快,很多信息领域开始逐渐的意识到文本挖掘的重要性。到目前为止,文本挖掘没有一个精确的定义,大致可定义为一个知识密集型的处理过程。在这个阶段,用户对文本集的分析需要使用分析工具。而文本的

33、挖掘就是通过检索和识别人所比较有兴趣的模式来从海量的数据源中提取对客户自身有用的信息 9。文本挖掘没有特定统一的过程,但是文本挖掘过程大体可以包含以下几个过程: (1)文本挖掘预处理文本挖掘的有效性操作的决定因素是数据预处理的措施。实际上,文本挖掘的主要目的是从非结构化的原始数据源提取到结构化的文本。文本挖掘在某种程度上,文本挖掘可以根据预处理的概念来定定义。对于文本挖掘来说,于传统的数据挖掘技术相比,往往需要不同的预处理技术10。在实际中存在很多种文本挖掘的预处理技术,但是所有的这些技术的目的都是为了将文本进行结构化。因此,很多常见的结构化的文本表示都是使用了多种预处理技术从原始的数据文本中

34、进行挖掘处理,以下介绍几种常见的预处理技术。a) 中文分词预处理。首先分析基于词表的最大匹配分词算法,指出其存在的缺陷,随后根据具体的缺陷提出一种预处理技术即利用高频词的方法。他主要是根据高频词的特点,用很少的步骤将句子尽可能多的分成段,然后将段进行最大匹配。最后通过实验数据证明此技术将提高中文分词的效率。b) 词性标注,又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序。在汉语中,词性标注比较简单,因为汉语词汇词性多变的情况比较少见,大多词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说,只需选取最高频词性,即可实现80%准确率的中文词性标注程序。c

35、) 特征提取。特征提取主要是对文档的转化,是对数据库中的内容用特征向量来表示文档的内容,结果我们可以发现文档特征向量就会达到让人惊讶的维数。因此文本挖掘中的不可或缺的步骤就是特征的提取。在对文档的向量的维数进行压缩之后就可以用机器方法来对知识模型进行提取,最后得到整个知识模型的评价11。(2)文本模式挖掘文本挖掘的关键要点就是文本模式的挖掘,虽然原始的文本集合在经过文本挖掘预处理之后就会转变为概念级数据,这将使得对整个文本的操作和挖掘变得更加简单容易,但是文本挖掘系统的主要目的还是对文本集合中的各个文本的概念进行分析。事实上。文本挖掘系统主要的任务是根据启发式方法和算法对跨文本的各种的定义的频

36、繁项、关联程度和分布进行分析,其主要是为了让用户区别不同种类的概念之间的差别,同时将文本集合看作一个有机的整体来表现和反映这些概念之间的关联和种类。(3)挖掘结果可视化在文本挖掘系统中的表示层就是为了让挖掘的结果可视化,俗称浏览。这是算法核心知识的后期处理过程,而且现在很多的文本挖掘系统都可以进行浏览,而且是基于内容的和动态的浏览。浏览的主要目的是为了对原文的内容的引导。普遍来说,浏览可以用图形这种层次结构的形式来更加科学的有效的表示概念模式,同时改变其交互的性能。文本挖掘系统是一种概念集,它主要是方便用户从海量的文本集合中得到的有效的集合。所以,文本挖掘系统必须具有的功能就是让用户不在局限于

37、这些概念,同时能够以“图”的方式来对局部细节或者整个文本集的概貌进行浏览。文本挖掘系统可以使用的搜寻工具是可视化工具的概念模式搜寻和导航搜寻。这种工具表示复杂的数据之间的关联的方法是图形化的表达。以前,可视化工具以及其静态的图表和图形可以在打印机上打印或者屏幕上显示的报告。现在这种文本挖掘系统的表示方法高度的依赖于查询结果的图形的交互式的表达方法,同时这些方法可以让用户单击、拖拉等直接进行交互。文本挖掘系统的很多的研发设计人员不再让用户进行预先程序化的、固定的或者一定数量的搜索问题。事实上,很多用户已经可以使用开放的查询语言进行更多的搜索。这样的功能是通过使用命令行查询或者语言接口查询实现。此

38、外,文本挖掘的前端相比较于一些特殊的任务或者应用,它可以允许用户通过聚类工具而聚簇概念。此外,文本挖掘系统还可以让用户自己为概念与概念之间的关联和配置自定义的文件,由此而为搜索创造更加良好的知识环境。一些文本挖掘系统可以给用户提供关联、创建和操作等相关能力,功能更加强大,甚至可以和选项列表、文本框、单选按钮、下拉菜单等工具相互结合使得用户的界面交互性能更加良好。2.2.2 文本挖掘的体系结构文本挖掘的体系结构从挖掘过程出发可以划分为四个组成部分12:预处理任务、表示层元素、核心挖掘操作和预处理任务及求精技术。整个文本挖掘系统中的关键的组成部分就是核心挖掘操作和预处理任务。(1)预处理任务预处理

39、任务的主要内容包括所有的文本挖掘系统中的数据准备的程序、方法和过程。这些任务可以概括为三个:第一,数据源;第二,预处理;第三,分类。新的文本集之前的特征抽取方法就是对文本集的应用。预处理任务的主要的要求就是将原始的单个的数据源转化成规范的格式。预处理任务的方法中有时也含有精心设计,都是为了将原始数据中的有用部分提取出来。(2)核心挖掘操作核心挖掘操作的主要内容包括关联分析、实体关系抽取和实体的识别。文本挖掘系统的一种提高各种操作质量的方法就是分析背景知识源的影响,知识“蒸馏”过程通常用来描述整个核心挖掘工作(3)表示层元素表示层元素主要有面向用户的查询编辑器、可视化工具、查询语言、模式浏览器、

40、图形用户界面。(4)求精技术求精技术简单的来说就是一些方法,主要包括集成关联数据和过滤哪些多余信息。这些方法可以提供一套用于聚簇、一般化、修正和排序的文本挖掘系统工具,其主要是为了发现最优模式,通常也称为后期处理。如果将体系结构中各个步骤再进行细化,可以将整个系统的核心挖掘数据算法的功能细节和典型配置,整个文本挖掘系统架构如图 2.1所示,它是一种文本挖掘系统的通用框架。图2.1 文本挖掘系统构架Fig 2.1 System Architecture of Text Mining 在细化的结构中还有一种中间媒体格式即将核心挖掘操作和已加工的文本集合相互结合。这种中间媒体格式是用更加层次性的、压

41、缩的、平滑的表示方式而生成。可以用来挖掘各种核心操作,譬如层次树随即搜索。2.3 情感倾向性分析情感倾向性分析的目的在于自动地分析出文档中所表达出的作者的观点和态度(褒义或贬义)。其现在的主要内容包括词语语义倾向计算、文本情感分类和文本主客观性分类等方面。产品评论挖掘中集合了情感倾向性分析的应用。此外,一些潜在的应用也包含在情感倾向性分析技术中。例如语气搜索引擎、在线信息语气过滤、blog语气倾向分析和电子邮件语气分类等等。2.3.1 情感倾向性分析的定义文本情感分析(Sentiment Analysis)13,常常被称为意见挖掘,它的主要功能是对带有个人情感的文本进行推理、分析、处理和归纳的

42、过程。其中,主观情感可以是他们的判断或者评价、他们的情绪状态或者有意传递的情感信息。综上所述,情感倾向性的判断是情感分析的一个重要的任务。Pang等人将情感倾向分为正面、负面和中性,即褒义、贬义和客观评价。在一开始的时候,很多的研究者只对句子或者词语的倾向性进行研究判断,但是随着科技的不断进步和发展,很多主观性的文本词汇开始在互联网上出现,因此情感分析开始由简单的词语而渐渐的演变到对句子或者整个文章的分析研究。2.3.2 情感倾向性分析的研究内容从情感倾向性分析系统的结构及对于情感数据的处理过程来说,可以将情感倾向性分析研究分为两个部分:即文本主、客观性分析和对于主观性文本的情感分析。根据文本

43、情感分析技术所处理的程度,可以划分为对于多文档的情感摘要、篇章级的情感分析、属性级的情感分析、词语语义倾向计算(情感词典构建)、词语级的情感分析等研究方向14。归纳起来,文本倾向性分析研究的分类如下图2.2所示:图2.2 文本倾向性分析研究的分类Fig2.2 The Classification of Text Tendency Analysis(1)文本主、客观分类文本主、客观分类的主要目的是将描述事实的客观性文档与表达意见的主观性文档分开;或者将一个文本的客观记述和主观表达区别开来。根据相关的文献调查显示,文档语气分类和文本主、客观分类具有十分紧密的联系,主、客观性分类技术可以在进行文档语

44、气分类进行之前,去掉与语气表达无关或者会对语气分类器产生干扰的部分文档。文档在得到主观性分类技术处理后,大大的压缩了其规模,但是任然可以进行语气分类。在研究文本倾向性分析时很多学者认为语料预处理的一个不可或缺的过程就是主、客观性分类技术。主、客观分类过程通常是在句子级或者文档级进行试验之前。(2)词语级的情感分析词语级的情感分析研究主要是研究词语的语义倾向性,即判定一个词语是褒义词还是贬义词。词语语义倾向计算是文本倾向性分析研究中的一个基础且重要的研究领域,词语语义倾向的研究可以用(1,1)之间的实数来表示,正表示褒义词,负表示贬义词。而数的绝对值表示词语的极性强度。它是文本倾向性分析的基础。

45、Chen和Das于2001年运用人工编制的语气词典构建分类器来对股票价格和股票评论之间的关系进行识别。在我国对短语或者汉语词汇的情感倾向研究才刚刚开始,开始的研究主要是对同义词辞林和Hownet等语义词典。朱嫣岚等人给出了词汇语义倾向性计算方法,这种方法的主要依据是语义相关场和语义相似度。通过比较HowNet中己标注的词汇的褒贬性和目标词汇的差别,从而计算出目标词汇的倾向性。徐琳宏等(大连理工大学)把HowNet作为基准词,然后计算基准词与目标词之间的关联程度,从而分析出目标词汇的语义倾向。其他的人如路斌采用同义词辞林作为基准词,然后计算基准词与目标词之间的关联程度,从而分析出目标词汇的语义倾

46、向。Yuan(香港城市大学)对自动获取汉语极性词进行了相关的研究。王根等人研究出了一种极坐标方式表示词语倾向性的方法,并且探讨了词语的自身倾向性。很多的研究表明,如果要提升文本语气分类结果性能只要分析形容词的语义倾向就可。但是,其他的词汇如副词和名词也具有一部分的语义倾向15。现在,在构建情感词典的基础上除了对基准词和预先标注的词汇外,还要分析词语间的相似程度。目前,主要利用两种方法来获得词语相似度。 基于语料的方法基于语料的词语相似度计算方法通过计算两个词语在语料中共现的信息来计算这两个词语之间的相似度。随着科学技术的不断发展和网络技术的不断发达,越来越多的语料都是来源于互联网,并且利用搜索

47、引擎而得到的词语的信息。语料的来源除了搜索引擎所得到以外,另一个计算词语相似程度的方法页面摘要(Snippets)也被采用。页面摘要被Sahami等人利用TF*IDF17直接用一维向量来表示,然后计算词语间的相似程度方法就是通过对两个向量的内积进行计算就可以。Chen等人利用双检测模型,用非线性模型来计算一个词语页面摘要在另一个词语中出现的频率,从而得到这两个词语之间的相似度。 基于语义词典的方法语义词典如Hownet、Wordnet等利用词语相似度来得到词语关系,如词语上下位关系、反义和同义等,同时还可以利用词条解释来得到词语语义倾向。文献18直接利用Wordnet直接利用词语上下位关系、反

48、义和同义等信息然后通过迭代的方法来得到词语相似度;文献19利用Wordnet提供的词语关系构建词语无向图,随后只要通过计算得出词语之间最短途径就可以得到词语相似度。这种方法没有将词语间的上下位关系和反义关系考虑到。(3)属性级的情感分析属性级的情感分析主要是挖掘产品评论的细粒度。Liu等人于2005年发现了一种框架可以在用户评论中。并且研究出了Opinion Observer系统。这个系统主要包括两个子系统,第一,产品属性系统,主要作用是为了下一步比较打下基础,它可以自动的识别。第二,得到评论的褒贬程度的系统,这使得消费者可以利用可视化技术更加方便简单的比较各个产品之间的性能不同之处;此外,产品的生产商和销售商可以利用这种技术来提高产品的性能。这种系统的用户接口采用网页的形式,并且,用户可以通过这个接口用可视化的方式对比同类产品之间的不同的属性,从而得到更加适合自己的产品。这方面的研究在国内已经开始,姚天防教授(上海交通大学)已经研究出了意见挖掘系统,主要是汉语版的汽车评论,这个系统可以得到客户对于各种品牌的汽车表现态度和性能的意见,并且对

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服