收藏 分销(赏)

车网互联语义分析解决方案.pptx

上传人:w****g 文档编号:1827839 上传时间:2024-05-09 格式:PPTX 页数:31 大小:2.88MB
下载 相关 举报
车网互联语义分析解决方案.pptx_第1页
第1页 / 共31页
车网互联语义分析解决方案.pptx_第2页
第2页 / 共31页
车网互联语义分析解决方案.pptx_第3页
第3页 / 共31页
车网互联语义分析解决方案.pptx_第4页
第4页 / 共31页
车网互联语义分析解决方案.pptx_第5页
第5页 / 共31页
点击查看更多>>
资源描述

1、语义识别技术与应用文本分析文本分析是为文本建立结构的过程。在经过文本分析处理之后,我们便得到了可存入数据库的结构化数据,一旦建立,文本数据就可以被提取成为商业情报。一个媒体分析机构想要了解媒体及市场对于苹果iPhone 5手机的反应。每24个小时里,网络中有成千上万包含关键“iPhone5”的文章被发表。作为本职工作的一部分,这家机构需要知道:有多少篇文章是相关的,并实际表达了对于iPhone 5的观点?有多少篇文章仅是附带地提及到了“iPhone5”?有多少篇文章表达了否定的态度?又有多少篇表达了赞扬的态度?哪些有关iPhone 5性能的具体方面和特点被表扬或是批评了?例如,价格和屏幕尺寸?

2、对以上所有的这些问题的信息在过去6个月中的趋势分别又是怎样的?举例通过文本分析技术,电脑可以代替我们来执行这项工作。通过复杂的语言学,统计学以及半监督学习算法,玻森NLP引擎能够以极高的速率阅读和理解文本信息。文本分析技文本分析技术BonsonAPI服服务介介绍Page10 +情感分析相似话题聚类典型意见提取信息分类智能问答智能文本检索分分词&词性性标注注句法分析语义联想信息抽取标注数据注数据深度舆情分析情报分析挖掘危机预警应用用场景景深度深度舆情分析情分析对社交网络和其他数据来源的海量文本进行实时情感倾向程度判断,掌握舆情动态在第一时间捕捉和掌握敏感、暴力、不良信息的出现与扩散趋势自动将文本

3、按照预先建立的体系进行敏感程度判定、类别划分、关键词提取将语义上相似的意见进行聚合,获得传播数量最广、影响最大的观点自动归纳社会调查的开放性问题中的普遍、独特或典型的意见基于多数据来源和智能引擎的深度深度舆情分析系情分析系统(DPAS),可自动识别针对热点话题的舆论情感走向,在海量数据中挖掘典型观点和意见,为实时、准确了解舆情民意提供支持。社交网社交网络:价:价值和挑和挑战 “异常灾难发生后的5分钟内,Twitter的贡献最大,12小时后它开始帮倒忙。”这是外国媒体在美国波士顿马拉松爆炸案发生后,针对社交媒体上的大量负面情绪和谣言做出的反思。社交网络数据是一把双刃剑,在恐怖袭击、自然灾害或其他

4、突发事件初期,社交网络的实时性可帮助及时准确预判事件信息和影响。同时,实时掌握负面情绪的发生和谣言的传播也至关重要。深度深度舆情:情:实时情感分析情感分析 挑战实时分析海量网络非结构化文本,准确掌握热点话题、负面情绪、谣言的动态传播解决方案 使用玻森的自主研发的正负面情感引擎和信息分类引擎,对海量非结构化文本进行实时分析,准确获知负面情绪趋势和舆论热点和传播路径深度深度舆情:情:实时情感分析情感分析(示例示例)标签关键字负面疑似谣言黑幕昆明事件标签关键字中性昆明事件假消息标签关键字正面昆明捐款玻森自主研发的典型意见引擎,可以将语义相似的单个意见自动聚合,迅速从海量讨论中得出各个典型观点的内容和

5、数量深度深度舆情:典型意情:典型意见抽取抽取突发事件往往会引发社交网络上的大量讨论,如何快速了解网民中不同的观点内容和普遍程度?挑战解决方案热点事件典型意点事件典型意见根据情报内容、来源和其他信息自动预测情报等级和重要性,快速处理海量情报文档利用结构化信息提取支持全面、深度情报分析需求,通过实体识别、关系抽取技术自动提取情报中的时间、地点、人名、组织机构名、关系等高准确率、自主研发的中文分词技术和新词识别引擎,提升情报检索质量和召回率基于倒排表的实时索引技术,提高检索时效性和检索速度情情报分析分析建立基于玻森机器学习技术的情情报分析系分析系统(IAS),通过标注学习,可自动化对情报密级、重要性

6、、类别进行划分,提取其中结构化信息,可支持多种语言的快速查询和检索。玻森信息分类引擎,可以根据需求建立自动分类模型,对文本情报、文件进行自动分类和重要性判定。情情报报分析:分分析:分类类、筛选筛选海量文本情报信息,如何自动根据需求进行类别、重要性划分?如何自动聚合相似或冗余的情报信息?玻森聚类引擎,可自动将相似情报归类,减少检索难度、排除冗余信息。12挑战解决方案关关键字字标签:英媒英媒:专家认为昆明案恐怖分子与境外有染昆明部分暴恐事件康复伤者将出院 仍有11人危重情情报报分析:分分析:分类类、筛选筛选(示例示例)国际情报 政经情报 港澳台情报 安全情报 其他类别:相关情相关情报:昆明事件火车

7、站玻森实体识别和关系抽取引擎,可通过与领域专家合作建立结构化抽取引擎,从非结构化文本中提取时间、地点、人名、组织机构名、实体关系等信息,深度挖掘海量情报价值。情情报报分析:分析:结结构化信息提取构化信息提取如何从海量情报中自动提取结构化信息,快速筛选出重要情报?挑战解决方案类型抽取结果时间3月4日人名热比娅组织机构加拿大议会组织机构美国政府事件昆明“301”暴力恐怖袭击案意见/意见持有人“一群对政府失去希望的人的绝望行动”/热比娅情情报报分析:分析:结结构化信息提取构化信息提取在危机发生前或事件初期给出信号,如恐怖主义、犯罪、环境污染、安全事故、和金融危机等。在自然灾害事件发生时,通过社交网络

8、数据快速估计自然灾害的地区分布、严重程度和潜在损失。从海量文本数据中挖掘潜在的安全威胁、社会危机、犯罪、恐怖活动信号。利用实体识别、关系识别挖掘隐藏在非结构化文本中的时间、人物、事件、组织机构关联。通过典型意见、信息分类等引擎对海量文本进行分级分类,抽取典型意见,快速掌握危机中的舆论走向。危机危机预警警通过与领域专家合作建立早期早期预警系警系统(EWS),可利用半监督机器学习技术提炼领域知识并应用于海量实时文本数据的监测预警,在危机事件初期为决策者提供可靠的信息支持。玻森的智能信息分类和信息抽取引擎,通过与领域专家合作建立标注数据和机器学习模型,可实时自动识别各种类型的非结构化文本中的危险信号

9、,快速为危机应对提供实时情报危机危机预警:从文本中挖掘深度价警:从文本中挖掘深度价值挑战突发事件发生前的蛛丝马迹可能隐藏在海量社交网络、即时通信、短信等文本当中挑战解决方案危机危机预警:从文本中挖掘深度价警:从文本中挖掘深度价值基基础引擎引擎简介介1分词与词性标注中文的自然语言书写对于不同的词之间不会采用显示分隔符(如空格)进行分割,在大多数自然语言问题当中,分词都作为最基础的步骤。在Data内部已经有一个比较完备的分词与词性标注的引擎,目前分词的准确率可达98%,词性标注94%。词性分析结果:今年2 月3 日,李克强总理在看望棚户区居民高俊平时,他5 岁 的 小 孙子高宇博 光屁股 突然从

10、立柜里跳了出来。词性类别图示:时间词标点符号名词介词动词代词量词形容词方位词Data内部建有一个高效的依存句法分析引擎。依存句法核心思想为将一个线性描写的句子表述为成为之间的搭配与驱动关系。对于常见长度和内容的中文句子,单核分析引擎的效率大约在100句/s。2句法分析器Page6基基础引擎引擎简介介基基础引擎引擎简介介3语义联想在很多情况下,我们希望两个词语即便不完全一样(比如同义词),也应该可以匹配。在词义联想引擎中,我们将每个词表示为一个实数向量,以两个词之间的欧氏距离表示其匹配的相似性。该引擎可以用来进行:模糊匹配与检索同义词库构建用户输入关键词扩展推荐基基础引擎引擎简介介4智能信息抽取

11、非结构化数据到结构化数据的重要步骤,使得大量从文本中挖掘的信息参与大规模运算成为可能时间地点人物服服务引擎引擎简介介1情感判断引擎情感分析情感分析指将自然语言书写的文本进行情感分类的问题。情感情感指的是对人或事的态度,比如:对一个人,一个产品,一个组织,一个事件等。社会热点事件的舆情监测和正负面趋势分析基于情感指数实时跟踪负面事件舆情,及时了解负面事件演化动态新闻,微博,论坛发帖,评论等文档按照正负面程度分级应用场景:Page5衡量指衡量指标和效果展示和效果展示处理理速度速度准确率准确率当前情感分析引擎的速度大约在单核100条微博/s目前玻森的情感判断引擎在通用语料的准确率为80%-85%左右

12、,行业应用上,经过标注学习之后准确率可达85%-90%服服务引擎引擎简介介2相似文本聚类引擎相似文本聚相似文本聚类指的是机器自动能够对给定的文本进行话题聚类,将语义上相似的文章归为一类,方便人的浏览查看,可进行话题级的分析整理。热议话题发现和传播路径分析网络舆情在话题级别的分析评估热点事件话题聚类,在话题级别对信息进行归纳整理应用场景:对用户进行话题级别画像,发现用户典型话题衡量指衡量指标和效果展示和效果展示以儿童安全座椅为例,报道的同一个事件,虽然书写形式有所区别,文章标题也不一样,但由于语义的相似性,仍然可以被话题聚类引擎识别出来。服服务引擎引擎简介介3典型意见提取引擎用户意见分布在各种不

13、同的网站或平台,了解用户最典型的意见:从监测研究角度讲,可以快速了解事件传播中网民的核心论点,从而做出相应决策。从用户角度讲,能够快速掌握其他用户的意见,如其他用户对于某款产品的评价,帮助其做出购买决定。危机事件典型意见热议事件典型意见消费者意见收集电商产品评论意见提取应用场景:应用1:内容分类。将热点讨论归入“食品安全”、“金融安全”、“信访”、“公共安全”、“自然灾害”、“犯罪事件”等预设分类体系。应用2:语义消歧。例如,把含“大众”的文本分成“和汽车相关”“和汽车无关”;把含“非诚勿扰”的文本分成“电视节目”和“习语”应用3:无关内容过滤。如对垃圾、广告或其他无价值内容的过滤。Page1

14、0服服务引擎引擎简介介应用场景:4信息分类基于玻森的自然基于玻森的自然语义处理引擎理引擎,将文本信息将文本信息归类到到预设的分的分类体系中。体系中。典型意典型意见应用示例用示例热点事件典型意见提取产品评价典型意见提取Page11客户网络智能文本智能文本检索索玻森可以提供企玻森可以提供企业内部文档的全文索引与内部文档的全文索引与查询服服务高效搜索可以支持单机2000万篇文本的索引常规查询不超过2秒高扩展性来应对高速和海量的文本处理需求;充分从非结构化文本中获取结构化信息,挖掘海量文本数据的潜在价值;可基于需求定制文本分析模型,利用机器学习模型帮助领域专家提升文本筛选、分析、决策效率降低自行研发自行研发文本分析组件带来风险,降低系统维护成本采用采用NLP的价的价值使用NLP专业、高效的的中文信息处理引擎有如下优势:

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服