1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,文本挖掘核心技术及其应用,2,目录,文本挖掘步骤,文本挖掘功能,文本挖掘应用,3,文本挖掘步骤,文,本,挖掘的一般处理过程,特征的建立,特征集的缩减,学习与知识模式的提取,知识模式,模式质量的评价,文档集,4,文本源,原始数据,预处理,过滤虚词,合并词根,分词,特征表示,计算权值,合并特征,过滤特征,特征提取,权值调整,特征约减,文本挖掘,文本分类,文本聚类,关联分析,模式提取,分类模式,聚类模式,关联规则,结果展示,展示界面,文本挖掘步骤,5,文本挖掘主要功能及应用,文本挖掘,应用,实现功能,自动分词
2、,文档归类,自动分类,自动聚类,信息抽取,文本相似性检索,自动摘要,舆情监控,垃圾邮件过滤,企业竞争情报系统,电子商务,客户自动问答,6,目录,文本挖掘步骤,文本挖掘功能,文本挖掘应用,7,自动分词,8,自动分类,莫言对话杨振宁:来生学物理,当下梦飞天,时政,社会,军事,评论,文化,国际,历史,9,自动聚类,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,,并,自动为该,类,生成,主题词,为用户确定类目名称提供方便,。,文本,1,文本,2,文本,3,文本,4,文本,5,类别,1,:,关键词:,比赛、赛季、联赛、球队、比分,、,太阳,、,NBA,、球员队员、,领先,类别,2,:,关键词
3、:,旅游,、黄金、游客、记者、旅行社,、,中国,、国家、假日、北京、线路,类别,3,:,关键词:,公司,、企业、招聘、面试、求职,、专业、,职业,、学生、大学、人才,10,信息抽取,信息抽取是从,文本中抽取指定的一类信息(事件、事实)并将其形成结构化的,数据,,填入,一,个数据库中以供,用户查询,使用。,会议时间,1998,年,3,月,9,日,会议地点,北京,会议召集者,/,主持人,个人姓名,/,团体名称,Name,蒋正华,机构、职位,Org/Post,主席,农工民主党中央,会议名称,/,标题,中国农工民主党第十二届中央常务委员会第一次会议,11,信息抽取,12,文本相似性检索,文本相似性检索
4、式对,一篇文档到索引库中查找,与其内容重复率高的文档和相似的文,档。目前应用最广的是论文查重。,13,自动摘要,对文章中的所有句子进行权值运算,对所有的句子按权值排列,提取出权值大的,作为,关键,句,进而形成摘要。,14,目录,文本挖掘步骤,文本挖掘功能,文本挖掘应用,15,应用,文档自动归类,文本源,原始数据,预处理,过滤虚词,合并词根,分词,特征表示,计算权值,合并特征,过滤特征,特征提取,权值调整,特征约减,文本挖掘,文本分类,模式提取,分类模式,结果展示,展示界面,16,应用,文档自动归类,17,应用,垃圾邮件过滤,商家利用电子邮件传播大量广告,垃圾邮件持续攀升,逐一查看邮件浪费时间,
5、面临的问题,对垃圾邮件进行过滤,对邮件进行归类,邮件自动回复,关键需求,18,应用,网络舆情监控,互联网的普及,网络舆论热点层出不穷;,民意表达向网络,倾斜;,网络舆论一旦被错误控制和引导,影响社会稳定;,面临的挑战,舆情信息的采集与提取,话题发现与追踪,网络舆情倾向性分析,关键需求,20,论坛,新闻,引擎,垂直,页面,采集和提取,博客,应用,网络舆情监控,难点,热点分析,21,应用,网络舆情监控,所采集的网络范围内重复程度最高的话题,22,应用,网络舆情监控,网络舆情摘要,提取出几条最重要的新闻,,自动生成摘要,,生成简报。,23,倾向性分析,自动聚合网络新闻并自动进行褒贬倾向性的分析。,对
6、文章的观点进行倾向性分析和统计,识别正负面信息。,应用,网络舆情监控,24,通过对网络信息中的犯罪信息量,的,分析,计算来反映网民的,安全感,,并进行分级;,通过对政府工作相关语料的褒贬,分,析,计算来描述公众对政府,工作的满,意程度,并进行分级。,网络舆情监控,应用,25,应用,企业竞争情报系统,企业情报采集效率低和实时性差,信息孤岛,缺少跨部门情报资源共享,情报内容存在重复性,资源没有得到有效整合,面临的问题,自动化收集商业信息,对情报内容进行统一管理,根据情报内容,确定潜在威胁,及时预警,,并制定相应策略,关键需求,26,应用,企业竞争情报系统,伊利作为中国乳业巨头之一,面临多方竞争,必
7、须密切关注对手动态,其最大的竞争对手是蒙牛,因此,蒙牛公司的动态对伊利公司有很大的影响。采集,2010,年,6,月至,11,月蒙牛官网的信息,对其进行分析。,6,月,词频量,7,月,词频量,8,月,词频量,9,月,词频量,10,月,词频量,11,月,词频量,合作,8,6,9,10,7,104,君乐宝,0,0,0,0,0,140,激增词频警报,递增词频警报,6,月,词频量,7,月,词频量,8,月,词频量,9,月,词频量,10,月,词频量,11,月,词频量,奶源,9,7,17,22,29,58,27,发现共线词关系:君乐宝,低温;华北;蒙牛,奶源,奶源,君乐宝,警,情:,蒙牛整合君乐宝,实现战略合
8、作,警,情分析:,整合事件极大程度转变蒙牛低温市场地位,并提升蒙牛竞争力,对伊利构成极大威胁;,提升蒙牛在华北地位,威胁伊利华北市场战略地位;,极大提升蒙牛奶源优势,对伊利在奶源的竞争造成威胁。,应用,企业竞争情报系统,28,电子商务网站,应用,数据激增,且有大量的非结构化数据,如何从大量数据中发现有价值的客户,挖掘其内在规律,面临的问题,分析商品之间的内在关联,发现有价值客户,对用户行为进行预测,关键需求,电子商务网站,应用,网站产品评论挖掘:,IT168,网站是中国指导,IT,产品采购的知名媒体品牌,是国内最大、最权威的导购咨询网站之一。从,IT168,网站下载三种产品的评论,分别是,:诺
9、,基亚,5320XM,的,206,篇评论、诺基亚,5800XM,的,205,篇评论和富士,S5205EXR,的,72,篇评论。如,以下是诺基亚,5320XM,的一篇评论,:,步骤:,文本源,原始数据,预处理,词性标注,去除停用词,分词,特征识别,特征标注,特征词提取,语义极性分析,句子极性,分析,极性词识别和强度确定,分类和结果评价,结果评价,分类,程度副词和极性词,分:褒、中、贬,强度:良好、优秀,如功能、价格、屏幕等,30,电子商务网站,应用,挖掘结果及分析:,数字代表特征的极性平均值,诺基亚,5800XM,的功能强大,价格合理,,,但是,电池不太好;诺基亚,5320XM,的,电池,不好,,但功能齐全,价格实惠。,帮助,消费者作出,购买决策;,给,商家提供客户满意度信息,并获得产品优缺点,帮助商家改进营销策略或者生产决策。,