收藏 分销(赏)

舆情预警大数据应用平台建设方案.docx

上传人:二*** 文档编号:4742382 上传时间:2024-10-11 格式:DOCX 页数:39 大小:1.11MB 下载积分:5 金币
下载 相关 举报
舆情预警大数据应用平台建设方案.docx_第1页
第1页 / 共39页
本文档共39页,全文阅读请下载到手机保存,查看更方便
资源描述
舆情预警大数据应用平台 建设方案 下偌天交通制 -关■词 < 古田第济宁交管部S3就 >时间SUB:。全部 • 2&hw o-llOf 月自定义: 2016 12 12 V £ 2016-12 12 y 钊《体国总走势 •金・ •・• •馋培 •«« • «m •©・ •视・ • m ・仪・亿元 IM178 I M170O X X 1700 I M 17001 X1Z001 M U00 t X 17001 M U001 孤 IRQ 1 X IRQ I M 17«01 M PC0RJBAMTOP10 三京 • •••♦♦ RMxanopio •a浪畏M •幡浪网• as •・ am • v K•东湖区域分布 甲沟炎的病发原因及如何治疗(ftB1而I 经I女 侪浪网 2016 08-02 12 00- 甲沟炎的■发原ia及飨何出"7 ・山。*专**警甲内加M发原因”如何;方?■山青华电旅遇示:甲内炎案发生在一■甲沟由下,费咫为■制砌ci肿 感病,TS多无金.0WT伏.KfHLM* .枇内《W . *5内有底动",巾侬点.但不易破3W解S 甲沟炎的翕发原因及如何治疗[正.)而I 宣I玄 筋浪用 2016 03 02 12 00 申海炎的内蛇朦因及《)何沿”?・山・华专3W申国炎的■发鼻因及MMH6f7?・山,件专事»示:甲海炎常发生在一・甲沟皮下,表现为霸部明庆皿 M . TK仍无金,*«皿状.假设糠受发屈.翕灶内成版,HJM8内胃般动■,也限日点.如SHE出腿. 甲沟炎的病发原因及如何治疗[正at]© 1 A 1 *戴温网 201G-08-02 12 00 事海炎的KftBtiaRg何用疗? ■山・年专京IWf中再烫的病发原㈤及如例&47・山・明,««示:甲内炎1Mt生在 倒甲海及下.表现为或肤皿M . -TR多无全身g病症.假设■变发收.■»内成脓,红肿区内H波动•.出配自品,但不US1出脓_ 6liCP«OOOOOOOOOOW flMRMW XXXfflf CopyHght 2016 by Jusfouacom. Al Right Rese«v«d 2 .食品药品监管大数据平台 (1)应用场景解决的核心问题 对互联网上的“四品一械”舆情信息进行更深入的监管,实现了 每天24小时实时监测,不定期编制舆情简报,将重点舆情及时通报 给办公室及相关处室、市局领导,供领导参考。通过开展舆情监测和 分析研判,做到早报告、早预警、早处置。 (2)应用场景需要整合的内部外数据源 食药监贴吧,各大门户网站的食药监频道、地市食药监官网意见 栏,各大新闻媒体,微博,微信等媒体平台。 (3)应用场景可视化界面 -SV2 z二:二 e- (生号)© 【£*6】「 R a 3 .明星娱乐大数据 (1)应用场景解决的核心问题 通过采集互联网明星相关数据,对明星网络热度、相关话题、粉 丝画像进行全方位的分析,从而了解该明星的媒体关注度、公众影响 力、个人形象评估、社会形象评估、作品的产量、市场等多项指标, 对明星的商业价值进行评估。 (2)应用场景需要整合的内部外数据源 通过对新闻网站、微博、微信、论坛、博客、贴吧等平台进行数 据抓取。 (3)应用场景可视化界面 201阵明星网络热度排行201阵明星网络热度上升排行 201降明显商业价值排行 岩欣一蟆明・商业价值仍坚挺 假设干部鳗体休伪,小筑肉全面・榜 工IT 冰冰不N . S一上榜大花旦 O 2016«F WURiaiWtTOP 10。2016年明・网助MLL升TOP1。 O XH6年吩“阳ftffHlTOPIO明星 电视剧音乐 ■王"般后|需泮¥・iMrmtt et 疥数 142,122,42797,170,943 10Dm 9S,129.311 71.779,93170.4S6,034 Do之.❷大物 ❸关* 上升的数M 上升!WHt上“热敛12.005,4449,612.579 建行 明. 王子文王・尔 株允聚者均 8 917.61110 «-tlJ刘■然 版业像图3般 &80 厢业(numna8,28 限魔上”桁敏 8,00Mi an9elAbaby廊业馀®MR 7.9317.81 17.75 事件趋势0・•・原创・••转发・•・媒体 300k @新浪微舆情 较为突出,加上原创和媒体的关注,将事态开展推向高点. 从上图可以看出,整个事件的爆发点是201阵11月18日,转发类型的热点词 ,多偶像 r出帧为 g- S作揖超级藏件士 @新浪微舆情 男女比例② 血 72.94%II妞 M 27.06%H男性 72.94%用户认证② E) •普通 88.34% • 橙 V 2.37% • 达人 8.28% • 蓝V 1.01% 4.政务服务应用大数据平台 (1)应用场景解决的核心问题 通过采集网络上相关民意,运用大数据运算理念,对民意数据进 行深度分析,使管理者及时了解事件热度、事件发生地点、百姓需求 和事件的整体演化情况。 (2)应用场景需要整合的内部外数据源 民意数据通过采集新闻媒体网站、微博、微信、政府网站、各市 服务平台等渠道。 (3)应用场景可视化界面 潍坊市政务服务热线大数据平台民意总览 部门民意民意预测 民意同比Admin ^分析冬季供暧 地域分析发生时间: 2016年10月1日一2016年10月31日i 23239条 关健词分析N0.1 事件演化涉及地点: 安丘县渡城区定文区胃州市寿光市54% 咨询25% 本月排名措施建议 声•走势分析2500 Z0012000 420.22 本月早均声■1000 9-2610-1 10-710-15 10-2110-25 10-31地域分布 然点事件地域热力网热点事件地域撑行情 3套文区青州市 15441540 530430 寿光市230 关值字分析4学 教育 拥堵事件演化 9月10日•'; 9月10日 •10R20B•10A31B 措施建议热点 [:诉]天气太冷了 ,怎么还不供♦. 空气 环境 拥堵热点 相关民■ : 2330*【咨询】天气太泠了,怎么还不供11怎么还不佻■天气太冷了,怎么还不供♦. 天气太冷了,怎么还不供♦.天气太冷了,怎么还不保■. 相关民• : 2330条做: 2330> 本月,有2332殊出线民意是关于冬季快豪,其中皆旬熟线民意最多占54%.政府应采取提前供暖,监督减少燃料造成的污染、保证各家暖气取全使用的 5.质检产品分析 (1)应用场景解决的核心问题通过对舆情数据的采集、清洗等,分析产品相关的舆情数量和舆 情关键字,辅助企业尽早的发现舆情规律,控制舆论导向、话题演化 的规律,指导企业及时公关,辅助企业调整自身商业决策,帮助企业 规避市场风险。 (2)应用场景需要整合的内部外数据源通过对电商用户反响信息,新闻网站、微博、微信、博客等媒体 报道情况进行抓取。 质量问题产品排行榜 (3)应用场景可视化界面 TQP •上,儿奶购0叁 I wWWw 丫口口■奈eJUWH荷兰 2 TDP **佳儿奶粉荷兰 3 MHMI 15? ■■MUI奶IB 有兰 Tnp II*佳儿钟阈・竺 S TDP MW丰胃兰 TDP ..的 7 TOP •■匐荷三 日 MWI* EP佳儿WHO 0竺 3 •WWTW I top 主 1 □ MiM 6.品牌/产品营销策略 (1)应用场景解决的核心问题 通过平台可了解行业趋势和品牌趋势、各品牌份额,进行品牌认 知和竞争对手的判断,还可通过品牌开展指数洞察不同地区的开展情 况,为企业找到更有机会的蓝海地域,助其制定出行之有效的营销策 略。 通过对消费者“兴趣爱好”、“需求诉求点”、“搜索行为”、“搜索 路径”、“人口属性“和”地域分布”的研究,帮助企业制定出行之有 效的营销沟通策略。 (2)应用场景需要整合的内部外数据源 通过对各大电商(京东、淘宝、苏宁、亚马逊、一号店等)平台 数据抓取。从数据中提炼消费者评论、地域、消费商品信息、商品金 额、消费者属性等。 (3)应用场景可视化界面 42001400 •田七牙・•怪自士牙音 ・ 工人牙・品牌趋势 •安利牙修• !■王牙■ ;品牌份额 HKSW14* A 1 II ■an 讦,17% -1 \ I«!A±^W 1.7% -. \,\ 111 11品牌认知 615?膂 41,一(■盅・9号91% L WASH 104%• »B±tW • MW儿• ■■ E 、收?■• • • • ♦叫 hxl?w云育9头牙■ • wItWEH?W ■w?W 0 •.■人汨I• AKX7V和曰 ,—地域分析 61行• • • *14?W ■A?Wtf&kw • 叁《!联&-0.53 人口属性搜索行为 irM^s 1raHIa・法牙膏EH弼铺• ±Tttir®M*S PC • 3牙,ua?« > u.m Ui?W>UffrW»U4I9« ・ Q・99• Ui9A SU9・• QE 目录 一、 国家针对舆情预警大数据的相关政策3舆情预警大数据应用的必要性和意义5 1 .舆情大数据应用的必要性5 2 .舆情大数据应用的意义5舆情预警大数据应用平台主要功能6 1. 信息搜索6 2. 事件分析6 3. 热点推送7 4. 传播分析7 5. 情感分析8 6. 数据报告8 7. 预警消息8舆情预警大数据应用平台应用场景9 1 .民意云平台9 2 .食品药品监管大数据平台11 3 .明星娱乐大数据13 4 .政务服务应用大数据平台15 5 .质检产品分析17 6 .品牌/产品营销策略18 7 .外交事件分析20 8 .新闻媒体传播监测22平台采用的核心技术24 1 .核心技术:分布式数据采集技术24 2 .核心技术:数据清洗和数据预处理25 3 .核心技术:海量数据存储技术30 4 .核心技术:海量数据全文检索技术30 5 .核心技术:自然语言处理技术31 6 .核心技术:数据挖掘技术34 7 .外交事件分析 (1)应用场景解决的核心问题 通过分析各国外交及国内外动态信息事件,及时掌握事件热度, 所属媒体阵营、关联人物、社会评价、对华态度等,并对给予参考意 见,并建立专用处理系统,完成外交事件信息采集、处理、实时跟踪 等。同时,基于突发事件预测、预警,完成突发外交事件综合分析与 评估,做出事态走势的判断,做出相应的应对措施。 (2)应用场景需要整合的内部外数据源 通过对国内各大媒体(新闻、微博、微信等)、港澳台媒、境外 媒体(Facebook、Twitter等)进行数据采集。 (3)应用场景可视化界面 国民党主席洪秀柱访问大陆 。工0片 。曰" 2016 泳. u,e洪森住您访北京台湾创8 MHV 中BBDPM注3a代1,月3旺干誉次于比取标期9 会 m.如行胁*q圮而示.日《im侑\<^当"皿1次 ■ &■工出加 «»Aw:nwn 中BMR凭主Jt崇秀株出庭■岸知军发•梃 11R?OT^ 伸BFWKTR总犬追名.尹 的0。111点♦.帔行取<WM歌/伦»Or%M59:tl!USaM£ 蜕ag. w鼻桂林”・上安的*s. ••AW : &丽一 I —w) 滋Utt。访化京x海•1« 中叩律,TAXRHiiR3Ht 年Z2 于瓦▼RFIB2 «.依种3如松,$ 电泉,' H用N=PL^0IHa乂罗 父.人・:匚亘二 中HWR兜主3秀fWWIG平加怆坛 八月2日下耳.中asam菱席心网争 会花以.尹 修・・加好.■防弓会•的■况度去弓线 “■・*?天U修. H4促・筌加*・. XBAW |] [ 1RW ] 浜勇柱at次访的两夜关乎有无覆义7 浜勇柱at次访的两夜关乎有无覆义7 投案分布领 ・作用■ 全■ I "5BB I M 1浜秀林访大即旧即丁之簸-◎当问时此一周栈 三> R・ari,月2日u 4» 2洪用呈谪大1后优和平2前T。当内财就一声柳 尔・a* K田192日H0 3双,外访大Mfh卬甲711r •当只加然一影不成 ■Q,MW取日W 4 JMRninAWiffwravijr n^wnn 声不q *BK« RTMT1,中日 24, 5in/”s大忍阚hfa・2Mr事当*rut-雷柳 MM *5 ・作用■ 全■ I "5BB I M 1浜秀林访大即旧即丁之簸-◎当问时此一周栈 三> R・ari,月2日u 4» 2洪用呈谪大1后优和平2前T。当内财就一声柳 尔・a* K田192日H0 3双,外访大Mfh卬甲711r •当只加然一影不成 ■Q,MW取日W 4 JMRninAWiffwravijr n^wnn 声不q *BK« RTMT1,中日 24, 5in/”s大忍阚hfa・2Mr事当*rut-雷柳 MM *5 AMM “、・5F3. ••修-wx . ae,»E3Ammmws"*. fl^vtim^iti 工”对于WFF*t 汾•翼 XW,g 盒”. 兀”.yr EfuvaERaoi. ,・ma 七夕上但31 用n UH. "F/mBm. «OM*r tMWCCWsa . Mu«Mrky4| MMMBS4IHK ^OlUNMkH^IlOMt =fc«E KNDWSa<=与户=以改奇■fci<xiwaiL 赛Eipier田一,«tjwj3w 出g«gBf:*anm&iTQ. %-:»冬» »<»HE••寸X H,我•—•铁口及■•斯•♦•. 泛黑阵量 E*0子 R«n"5不外S SHir&WlWin秀,豆筋壮一或口«3! 5»«AR45S- m焦・♦■. ♦・*• e*wi4iWnrM»wi3MsMt RMM5tta«!UMw«Mr.弗• mtvxRAMiSBara ul« iammws«a ” ;4“鲁个本&fc- Zhfcmrx; 8 .新闻媒体传播监测 (1)应用场景解决的核心问题 通过建立相关数据模型,传播指数体系,并自动计算媒体发布信 息在互联网上的传播影响力。对媒体的传播影响力、编辑考核、比照 分析等提供相应的解决方案。 同时,企业根据这些统计数据,能够量化各家网站的传播力,发 掘优秀网站,同时通过分析落后指标提升落后网站的传播力。以此作 为一种监测手段,对传播信息质量不高、覆盖率及影响效果不好的网 站进行整改,为全网用户营造一个健康积极、良好的网络环境。 (2)应用场景需要整合的内部外数据源 通过各新闻媒体网站(包含一类资质的新闻网站和二类资质的商 业网站),微博,微信,六大门户,三大搜索数据进行采集。 (3)应用场景可视化界面 巴南广播电视台(首发) 人民网 2016/03/21♦频疙 人民网 2016/03/21华龙网 人民网 2016/03/21♦ ♦中国经济网 人民网 2016/03/21 ♦新浪网 人民网 2016/03/21♦中国新闻网 人民网 2016/03/21♦贵阳网 人民网 2016/03/21♦中国青年网 人民网 2016/03/21♦中国新闻网辽宁 人民网 2016/03/21 中国青年网 人民网 2016/03/21 群众网 人民网 2016/03/21 中国网江苏 人民网 2016/03/21 中国网河南 人民网 2016/03/21 重庆视界 人民网 2016/03/21 中国日报网 人民网 2016/03/21 中国江苏网 人民网 2016/03/21 东方视野 人国网 2016/03/21 武进新闻网 人民网 2016/03/21 东方网 人民网 2016/03/21 中华网 人民网 2016/03/21 中国西藏网 人民网 2016/03/21 ♦♦乐i匕网 人民网 2016/03/21 Z ♦黝卜网 人民网 2016/03/21♦大河网 人民网 2016/03/21中国江苏网 人民网 2016/03/21 东方视野人民网 2016/03/21 武进新闻人民网 2016/03/21 东方网人民网 2016/03/21 中华网人民网 2016/03/21 中国西藏网 人民网 2016/03/21♦环球网 人日网 2016/03/21♦新浪网 人民网 2016/03/21♦中国网江苏 人民网 2016/03/21♦ ♦今日头条 人民网 2016/03/21 期趣]L^J ) •示焉用5 建党%周年改革认识论 ) **2***** । 五、平台采用的核心技术.核心技术:分布式数据采集技术 采集系统基于分布式架构,统一调度采集任务,充分利用每个下 载机的资源,提高采集的整体性能。可通过调整集群的子节点数量来 提高集群的负载能力。 分布式网络爬虫包含多个爬虫,每个爬虫需要完成的任务和单个 的爬行器类似,它们从互联网上下载网页,并把网页保存在本地的磁 盘,从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器 需要分割下载任务,可能爬虫会将自己抽取的URL发送给其他爬虫。 这些爬虫可能分布在同一个局域网之中,或者分散在不同的地理位置。 根据爬虫的分散程度不同,可以把分布式爬行器分成以下两大类: (1)基于局域网分布式网络爬虫:这种分布式爬行器的所有爬 虫在同一个局域网里运行,通过高速的网络连接相互通信。这些爬虫 通过同一个网络去访问外部互联网,下载网页,所有的网络负载都集 中在他们所在的那个局域网的出口上。由于局域网的带宽较高,爬虫 之间的通信的效率能够得到保证;但是网络出口的总带宽上限是固定 的,爬虫的数量会受到局域网出口带宽的限制。 (2)基于广域网分布式网络爬虫:当并行爬行器的爬虫分别运 行在不同地理位置(或网络位置),我们称这种并行爬行器为分布式 爬行器。分布式爬行器的优势在于可以子在一定程度上分散网络流量, 减小网络出口的负载。如果爬虫分布在不同的地理位置(或网络位置), 需要间隔多长时间进行一次相互通信就成为了一个值得考虑的问题。 爬虫之间的通讯带宽可能是有限的,通常需要通过互联网进行通信。 在实际应用中,基于局域网分布式网络爬虫应用的更广一些,而 基于广域网的爬虫由于实现复杂,设计和实现本钱过高,一般只有实 力雄厚和采集任务较重的大公司才会使用这种爬虫。 WEB下载方式分为HTTP与FTP两种类型,它们是计算机之间交 换数据的方式,也是两种最经典的下载方式,该下载方式原理非常简 单,就是用户两种规那么(协议)和提供文件的服务器取得联系并将文 件搬到自己的计算机中来,从而实现下载的功能。爬虫程序主要采集 该现有jar包HttpClient来实现页面下载功能。 布隆过滤器(Bloom Filter):对于原理来说很简单,位数组+k 个独立hash函数。将hash函数对应的值的位数组置1,查找时如果 发现所有hash函数对应位都是1说明存在,很明显这个过程并不保 证查找的结果是100%正确的。同时也不支持删除一个已经插入的关 键字,因为该关键字对应的位会牵动到其他的关键字。所以一个简单 的改进就是counting Bloom filter,用一个counter数组代替位数 组,就可以支持删除了。 1 .核心技术:数据清洗和数据预处理 (1)数据预处理>构建D0M树 从输入网页构建DOM (文档对象模型,Document Object Model ) 树是数据抽取算法中的一个必要步骤。大多数HTML标签是成对使用 的。每一对由一个开始标签和一个结束标签组成(分别用◊和</>来 表示)。在每个对应的标签对间,可以有其他标签对,从而构成嵌套 结构。所以可以用一个网页的HTML编码来构建一棵D0M树。构建过 程有两个任务需要执行: HTML编码清理:一些标签不要求结束标签(如〈li〉、〈hr〉、<p>), 尽管它们有结束标签。于是,应该插入额外的结束标签以保证所有的 标签都是平衡的。系统使用tidy程序来订正格式有问题的标签。 树的构建:系统可以根据网页中HTML标签的嵌套块来构建D0M 树。这个方法对大多数网页都是有效的。然而,对一些格式有问题的 标签,即使tidy程序也无法订正。除了分析HTML编码以订正错误, 利用Web浏览器的渲染引擎(如Internet Explorer)具有很高的容 错性,用这个方法构建树更为健壮。只要浏览器能够正确渲染一张网 页,它的标签树就能被正确构建。 基于网页分割找正文块网页正确分割后,正文提取工作简化为对正文块的判断; 分割是利用HTML标签中的分隔线以及一些视觉信息(如文字 颜色、字体大小、文字信息等)。 存在问题:不同网站的HTML风格迥异,分割没有统一方法, 通用性难以保证。 基于标记窗先取出文章标题; 两个标签及其内部包含的文本合在一起称为一个标记窗(比 如〈hl〉text〈/hl〉中text就是标记窗内的文本),取出所有标记窗 内的文字;对文章标题和每个标记窗内的文本分词; 计算标题序列与每个标记窗文本序列的词语距离L,如果L 小于一个阈值,那么将此标记窗内的文本看做是正文文本。 存在问题:标记窗的提法很好,但每个标记窗文本都要先分 词,再计算词序列距离。 基于数据挖掘或机器学习 用到了文本分类、聚类、隐马模型、数据挖掘等。存在问题: 简单问题复杂化。 基于逻辑行和最大接纳距离的网页正文抽取 考虑人们编写网页时的一些启发规那么,考虑了正文的物理位 置会靠的很近; 做出以下推论:HTML每一行都表示一个完整的语义;正文代 码在物理位置上会靠的很近;正文代码的一行中大都是文字;正 文代码的一行中非HTML标签的文字数量较多;正文代码的一行中 超链接长度所占比率不会很大;凡符合上述推论的代码行被认为是一个正文行; 存在问题:正文在物理位置上确实会很接近,但标题很长的 链接群以及较长的文章评论信息同样满足上述条件。仍要靠html 标签做判断。 >基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、 与HTML标签无关。 首次将网页正文抽取问题转化为求页面的行块分布函数,这 种方法不用建立Dom树,不被病态HTML所累(事实上与HTML标 签完全无关)。通过在线性时间内建立的行块分布函数图,直接准 确定位网页正文。同时采用了统计与规那么相结合的方法来处理通 用性问题。作者相信简单的事情总应该用最简单的方法来解决这 一亘古不变的道理。整个算法实现代码缺乏百行。 (2)垃圾数据过滤 关联分析,又称关联规那么挖掘,常用于开展大量数据中项集之间 的相互联系,是数据挖掘领域中的一个重要问题。 垃圾数据关联挖掘的处理流程: (垃圾数据特征词关联挖掘处理流程图)国家针对舆情预警大数据的相关政策 在新时期和新环境下,舆情已成为关系到社会健康开展的重要内 容,过去的几年里,习近平主席也屡次提及舆情工作的重要性。 2013年8月19日,习近平在全国宣传思想工作会议上发表重要 讲话:很多人特别是年轻人基本不看主流媒体,大局部信息都从网上 获取。必须正视这个事实,加大力量投入,尽快掌握这个舆论战场上 的主动权,不能被边缘化了。 2014年2月27日,习近平主持召开中央网络平安和信息化领导 小组第一次会议时指出:做好网上舆论工作是一项长期任务,要创新 改进网上宣传,运用网络传播规律,弘扬主旋律,激发正能量,大力 培育和践行社会主义核心价值观,把握好网上舆论引导的时、度、效, 使网络空间清朗起来。 2016年10月9日,习近平在中共中央政治局就实施网络强国战 略进行第三十六次集体学习中强调:要发挥网络传播互动、体验、分 享的优势,听民意、惠民生、解民忧,凝聚社会共识。要深刻认识互 联网在国家管理和社会治理中的作用,以推行电子政务、建设新型智 慧城市等为抓手,以数据集中和共享为途径,建设全国一体化的国家 大数据中心,推进技术融合、业务融合、数据融合,实现跨层级、跨 地域、跨系统、跨部门、跨业务的协同管理和服务。 在这一思想的指导下,国家互联网信息办公室发布《国家网络空 间平安战略》提出:要加强网上思想文化阵地建设,大力培育和践行 (3)文本预处理 为了提高垃圾数据新词(组)挖掘的召回率和准确率,本文先对 邮件样本进行样本邮件的聚类分块预处理。文本聚类,就是把一个文 档集分成假设干称为集簇的子集,每个集簇的成员之间有较大的相似性, 而集簇之间的文档具有较小的相似性。本文采用时间和文本相似度为 尺度来进行文本的聚类。 2 .核心技术:海量数据存储技术 存储系统基于Hadoop的分布式存储框架,采用HBase分布式数 据库,构建于分布式HDFS之上,使用列存储技术,通过线性方式从 下到上增加节点来进行扩展,将大而稀疏的数据表存放到服务器集群 上,从而满足高可靠性、高性能、可伸缩的特性。 3 .核心技术:海量数据全文检索技术 采用solrCloud全文检索技术每天对千万级别以上的文档进行 实时搜索,毫秒级响应。在海量数据检索系统数据库中对外提供统一 的数据库接口,海量数据进入检索系统的同时一份持久化数据进入数 据库中,在索引过程起到备份数据的作用,并结合相关自然语言处理 技术做信息去重、做到实时入库。 全文检索系统的海量数据统一存储在分布式文件系统中,做到数 据实时快速存储,既可以实现从外部数据库一次性向检索系统数据库 迁移,实现一次性数据的采集、入库到检索平台数据库;也可以实现增量动态运行方式,无缝透明支持各细分行业的数据采集入库,将各 细分行业数据实时地更新到检索平台服务器。 全文数据集群服务器,是架构在多个物理全文数据库服务器之上 的分布式管理系统,满足海量数据和高并发环境下的分布式查询、检 索性能和可靠性要求。 采用分布式数据库系统的集群架构可实现以下目标: (1)数据随需求扩展; (2)大规模用户高并发条件下保证高性能; (3)实现无单点故障的高可靠性应用。 4 .核心技术:自然语言处理技术 (1)中文分词技术 中文分词,说分词是中文处理的基本技术,是由汉语的特点决定 的。中文分词的任务是把一连串的单字按词分开,比方,这是一个原 始句子:李明是一名优秀的学生。经过分词处理的结果为:李明是一 名优秀的学生。在这里,分词面临的第一个问题是如何定义一个词。 比方“自然语言处理”,可以作为一个词,也可以切分为:(1)自然 语言处理(2)自然语言处理 关于中文词的定义并没有统一的标准,语言学家从不同的角度对 词进行定义,而这些定义往往彼此并不完全兼容。分词的主要方 法分为:最大匹配法和歧义切分法。其中最大匹配法又分为: > 正向最大匹配法(Forward Maximum Matching, FMM) > 逆向最大匹配法(Reverser Maximum Matching, RMM) > 双向最大匹配法(Bi-directional Maximum Matching, BMM) (2)词性标注 词性标注(Part-of-Speech tagging 或 POS tagging),是指为 句子中每个单词标注一个词性类别,这里的类别包括名词、动词、形 容词、连词、副词、标点符号等。 词性标注是语言识别、句法分析、信息抽取技术的基础技术之一, 也可以直接应用在一些系统里,如问答系统等。 类似于中文分词技术,词性标注也可以看成是标注问题,因此可 以应用最大烯、HMM或CRF等算法进行模型的训练。 (3)句法分析 句法分析目的是确定句子的句法结构,例如“主谓宾”、“动宾”、 “定中”、“动补”等关系。 句法分析需要依赖某种预定的语法体系,目前比拟常见的是采用 依存语法表达,即通过语法树表达各个词之间的依存关系。目前广泛 接受的依存语法定义有4条公理: > 一个句子只有一个成分是独立的>句子中的其它成分直接附属于某一成分 >任何一个成分都不能附属于两个或两个以上的成分>如果成分A直接附属于成分B,而成分C在句子中位于A和B之 间,那么,成分C或者附属于A,或者附属于B,或者附属于A和B 之间的某一成分。 句法分析是进行进一步语义分析的基础。 (4)实体识别 命名实体识别的目标是定位句子中出现的人名、地名、机构名、 专有名词等。命名实体属于信息抽取领域的基本技术,通常用于挖掘 文本中的实体并进行分析。命名实体识别是进一步进行实体关系识别 的基础。 命名实体识别也可以看做是标注问题,因此可以采用HMM、CRF 等进行模型的训练。 基于统计的命名实体识别需要基于分词、词性标注等技术。 命名实体可以有多种分类方法,ACE08评测计划里定义了五大类 实体类型: 设施(FAC)、地理政治实体(GPE)、位置(LOC)、组织(ORG)、人物 (PER)o并定义了 31种子类型。 (5)实体关系抽取 实体关系抽取的目的是自动识别非结构化文档中两个实体之间 的关联关系,属于信息抽取领域的基础技术之一,是进一步进行数据 处理和数据挖掘的的前提。 实体关系抽取在信息检索、问答系统等领域有重要的意义。例如 近年搜索领域流行的知识图谱技术,就是构建在实体关系抽取的基础 上。 实体关系抽取是建立在命名实体识别的基础之上,基本任务就是 寻找实体之间存在的特定关系。实体关系抽取有多种方式,包括规那么 匹配、有监督学习、无监督(或半监督)学习。其中有监督学习需要 预先定义实体关系类别,并通常将问题建模为分类问题。有监督学习 需要预先人工标注语料库,工作量大,因此在一些开放性数据集上, 一些无监督(或半监督)算法也得到广泛应用。 一些常见的实体关系如下:附属关系(小明是杜克大学的教授)、 组织结构(研发一部是研发中心的下属部门)、人物关系(小明是小 红的爸爸)、地理位置关系(鼓浪屿位于厦门的南边)6.核心技术:数据挖掘技术 (1)文本分类算法文本分类大致有两种方法:一种是基于训练集的文本分类方法; 另一种是基于分类词表的文本分类方法。 >支持向量机 支持向量机(Support Vector Machine, SVM)最初是由 Vapnik 提出的,是一种相对较新的机器学习方法。支持向量机的基本实现思 想是:通过某种事先选择的非线性影射把输入向量x映射到一个高维 特征空间Z,在这个空间中构造最优分类超平面。也就是SVM采用输 入向量的非线性变换,在特征空间中,在现行决策规那么集合上按照正 规超平面权值的模构造一个结构,然后选择结构中最好的元素和这个 元素中最好的函数,以到达最小化错误率的目标,实现了结构风险最 小化原那么。 >朴素贝叶斯算法 朴素贝叶斯(Naive Bayes)算法的基本思路是计算文本属于类 别的概率,文本属于类别的概率等于文本中每个词属于类别的概率的 综合表达式。具体算法步骤如下: 朴素贝叶斯分类分为三个阶段: 第一阶段一一准备工作阶段,这个阶段的任务是为朴素贝叶斯分 类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个 特征属性进行适当划分,然后由人工对一局部待分类项进行分类,形 成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属 性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成 的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上 由特征属性、特征属性划分及训练样本质量决定。 第二阶段一一分类器训练阶段,这个阶段的任务就是生成分类器, 主要工作是计算每个类别在训练样本中的出现频率及每个特征属性 划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性 和训练样本,输出是分类器。这一阶段是机械性阶段,根据前面讨论 的公式可以由程序自动计算完成。 第三阶段一一应用阶段。这个阶段的任务是使用分类器对待分类 项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的 映射关系。这一阶段也是机械性阶段,由程序完成。 >向量空间距离 该算法的思路十分简单,根据算术平均为每类文本集生成一个代 表该类的中心向量,然后在新文本来到时,确定新文本向量,计算该 向量与每类中心向量间的距离(相似度),最后判定文本属于与文本 距离最近的类,具体步骤如下: 训练阶段:首先定义类别集合这些类别可以是层次式的,也可以 是并列式的;然后给出训练文本集合,每个训练文本都被标上所属的 类别标识;最后,提取训练文本集合s中所有文本的特征矢量,并采 用一定的原测来确定代表c中每个类别的特征矢量。 分类阶段:对于测试文本集合中的每一个待分类文本,计算其特 征矢量与每一个之间的相似度,可以用前面所提到的余弦法。之后, 选取相似度最大的一个类别作为的类别。 > K最邻近分类算法 该算法的基本思路是:在给定新文本后,考虑在训练文本集中与 该新文本距离最近(最相似)的K篇文本,根据这K篇文本所属的类 别判断新文本所属的类别,具体算法步骤如下:根据特征项集合重新 描述训练文本向量;将新文本表示为特征向量;在训练文本集中选出 与新文本最相似的K个文本,计算方法仍为余弦法:其中,K值确实 定目前没有很好的方法,一般采用先定一个初始值,然后根据试验测 试的结果调整K值,一般初始值定为几百到数千之间。在新文本的K 个邻居中,依次计算每类的权重;比拟类的权重,将文本分到权重最 大的那个类别中。 >决策树 决策树是被广泛使用的归纳学习方法之一。决策树是用样本的属 性作为根节点,用属性的取值作为分支的树结构。它是利用信息论原 理对大量样本的属性进行分析和归纳产生的。决策树的根节点是所有 样本中信息量最大的属性。树的中间节点是以该节点为根的子树所包 含的样本子集中信息量最大的属性。决策树的叶节点是样本的类别值。 决策树用于对新样本的分类,即通过决策树对新样本属性值的测试, 从树的根节点开始,按照样本属性的取值,逐渐沿着决策树向下,直 到树的叶节点,该叶节点表示的类别就是新样本的类别。决策树方法 是数据挖掘中非常有效的分类方法,它排除噪音的强壮性以及学习反 义表达的能力使其更适合于文本分类。比拟著名的决策树算法是ID3 算法以及它的后继C4. 5、C5等。基本的ID3算法是通过自顶向下构 造决策树的。 >神经网络 神经网络是采用感知算法进行分类,在此种模型中,分类知识被 隐式地存储在连接的权值上,使用迭代算法来确定权值向量,当网络 输出判别正确时。权值向量保持不变,否那么进行增加或降低的调整, 因此也称奖惩法。一般在神经网络分类法中包括两个局部训练局部和 测试局部,以样本的特征项构造输入神经元,特征的数量即为输入神 经元的数量,至于隐含层数量和该层神经元的数目要视实际而定。在 训练局部通过对相当数量的训练样本的训练得到训练样本输入与输 出之间的关系即在不断的迭代调整过程中得到连接权值矩阵。测试部 分那么是针对用户输入的待测样本的特征得到输出值
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服