舆情预警大数据应用平台建设方案.docx

资源描述

舆情预警大数据应用平台建设方案下偌天交通制 -关■词 < 古田第济宁交管部S3就 >时间SUB：。全部 • 2&hw o-llOf 月自定义： 2016 12 12 V £ 2016-12 12 y 钊《体国总走势 •金・ •・• •馋培 •«« • «m •©・ •视・ • m ・仪・亿元 IM178 I M170O X X 1700 I M 17001 X1Z001 M U00 t X 17001 M U001 孤 IRQ 1 X IRQ I M 17«01 M PC0RJBAMTOP10 三京 • •••♦♦ RMxanopio •a浪畏M •幡浪网• as •・ am • v K•东湖区域分布甲沟炎的病发原因及如何治疗(ftB1而I 经I女侪浪网 2016 08-02 12 00- 甲沟炎的■发原ia及飨何出"7 ・山。*专**警甲内加M发原因”如何;方?■山青华电旅遇示：甲内炎案发生在一■甲沟由下,费咫为■制砌ci肿感病,TS多无金.0WT伏.KfHLM* .枇内《W . *5内有底动",巾侬点.但不易破3W解S 甲沟炎的翕发原因及如何治疗［正.)而I 宣I玄筋浪用 2016 03 02 12 00 申海炎的内蛇朦因及《)何沿”？・山・华专3W申国炎的■发鼻因及MMH6f7?・山，件专事»示:甲海炎常发生在一・甲沟皮下,表现为霸部明庆皿 M . TK仍无金，*«皿状.假设糠受发屈.翕灶内成版,HJM8内胃般动■,也限日点.如SHE出腿. 甲沟炎的病发原因及如何治疗［正at］© 1 A 1 *戴温网 201G-08-02 12 00 事海炎的KftBtiaRg何用疗？ ■山・年专京IWf中再烫的病发原㈤及如例&47・山・明，««示：甲内炎1Mt生在倒甲海及下.表现为或肤皿M . -TR多无全身g病症.假设■变发收.■»内成脓,红肿区内H波动•.出配自品,但不US1出脓_ 6liCP«OOOOOOOOOOW flMRMW XXXfflf CopyHght 2016 by Jusfouacom. Al Right Rese«v«d 2 .食品药品监管大数据平台（1）应用场景解决的核心问题对互联网上的“四品一械”舆情信息进行更深入的监管，实现了每天24小时实时监测，不定期编制舆情简报，将重点舆情及时通报给办公室及相关处室、市局领导，供领导参考。通过开展舆情监测和分析研判，做到早报告、早预警、早处置。（2）应用场景需要整合的内部外数据源食药监贴吧，各大门户网站的食药监频道、地市食药监官网意见栏，各大新闻媒体，微博，微信等媒体平台。（3）应用场景可视化界面 -SV2 z二：二 e- (生号)© 【£*6】「 R a 3 .明星娱乐大数据（1）应用场景解决的核心问题通过采集互联网明星相关数据，对明星网络热度、相关话题、粉丝画像进行全方位的分析，从而了解该明星的媒体关注度、公众影响力、个人形象评估、社会形象评估、作品的产量、市场等多项指标, 对明星的商业价值进行评估。（2）应用场景需要整合的内部外数据源通过对新闻网站、微博、微信、论坛、博客、贴吧等平台进行数据抓取。（3）应用场景可视化界面 201阵明星网络热度排行201阵明星网络热度上升排行 201降明显商业价值排行岩欣一蟆明・商业价值仍坚挺假设干部鳗体休伪，小筑肉全面・榜工IT 冰冰不N . S一上榜大花旦 O 2016«F WURiaiWtTOP 10。2016年明・网助MLL升TOP1。 O XH6年吩“阳ftffHlTOPIO明星电视剧音乐 ■王"般后|需泮¥・iMrmtt et 疥数 142,122,42797,170,943 10Dm 9S,129.311 71.779,93170.4S6,034 Do之.❷大物 ❸关* 上升的数M 上升!WHt上“热敛12.005,4449,612.579 建行明. 王子文王・尔株允聚者均 8 917.61110 «-tlJ刘■然版业像图3般 &80 厢业（numna8,28 限魔上”桁敏 8,00Mi an9elAbaby廊业馀®MR 7.9317.81 17.75 事件趋势0・•・原创・••转发・•・媒体 300k @新浪微舆情较为突出，加上原创和媒体的关注，将事态开展推向高点. 从上图可以看出，整个事件的爆发点是201阵11月18日，转发类型的热点词，多偶像 r出帧为 g- S作揖超级藏件士 @新浪微舆情男女比例② 血 72.94%II妞 M 27.06%H男性 72.94%用户认证② E) •普通 88.34% • 橙 V 2.37% • 达人 8.28% • 蓝V 1.01% 4.政务服务应用大数据平台（1）应用场景解决的核心问题通过采集网络上相关民意，运用大数据运算理念，对民意数据进行深度分析，使管理者及时了解事件热度、事件发生地点、百姓需求和事件的整体演化情况。（2）应用场景需要整合的内部外数据源民意数据通过采集新闻媒体网站、微博、微信、政府网站、各市服务平台等渠道。（3）应用场景可视化界面潍坊市政务服务热线大数据平台民意总览部门民意民意预测民意同比Admin ^分析冬季供暧地域分析发生时间： 2016年10月1日一2016年10月31日i 23239条关健词分析N0.1 事件演化涉及地点：安丘县渡城区定文区胃州市寿光市54% 咨询25% 本月排名措施建议声•走势分析2500 Z0012000 420.22 本月早均声■1000 9-2610-1 10-710-15 10-2110-25 10-31地域分布然点事件地域热力网热点事件地域撑行情 3套文区青州市 15441540 530430 寿光市230 关值字分析4学教育拥堵事件演化 9月10日•'； 9月10日 •10R20B•10A31B 措施建议热点 [:诉]天气太冷了 ,怎么还不供♦. 空气环境拥堵热点相关民■ ： 2330*【咨询】天气太泠了，怎么还不供11怎么还不佻■天气太冷了，怎么还不供♦. 天气太冷了，怎么还不供♦.天气太冷了，怎么还不保■. 相关民• : 2330条做: 2330> 本月，有2332殊出线民意是关于冬季快豪,其中皆旬熟线民意最多占54%.政府应采取提前供暖,监督减少燃料造成的污染、保证各家暖气取全使用的 5.质检产品分析（1）应用场景解决的核心问题通过对舆情数据的采集、清洗等，分析产品相关的舆情数量和舆情关键字，辅助企业尽早的发现舆情规律，控制舆论导向、话题演化的规律，指导企业及时公关，辅助企业调整自身商业决策，帮助企业规避市场风险。（2）应用场景需要整合的内部外数据源通过对电商用户反响信息，新闻网站、微博、微信、博客等媒体报道情况进行抓取。质量问题产品排行榜（3）应用场景可视化界面 TQP •上，儿奶购0叁 I wWWw 丫口口■奈eJUWH荷兰 2 TDP **佳儿奶粉荷兰 3 MHMI 15? ■■MUI奶IB 有兰 Tnp II*佳儿钟阈・竺 S TDP MW丰胃兰 TDP ..的 7 TOP •■匐荷三日 MWI* EP佳儿WHO 0竺 3 •WWTW I top 主 1 □ MiM 6.品牌/产品营销策略（1）应用场景解决的核心问题通过平台可了解行业趋势和品牌趋势、各品牌份额，进行品牌认知和竞争对手的判断，还可通过品牌开展指数洞察不同地区的开展情况，为企业找到更有机会的蓝海地域，助其制定出行之有效的营销策略。通过对消费者“兴趣爱好”、“需求诉求点”、“搜索行为”、“搜索路径”、“人口属性“和”地域分布”的研究，帮助企业制定出行之有效的营销沟通策略。（2）应用场景需要整合的内部外数据源通过对各大电商（京东、淘宝、苏宁、亚马逊、一号店等）平台数据抓取。从数据中提炼消费者评论、地域、消费商品信息、商品金额、消费者属性等。（3）应用场景可视化界面 42001400 •田七牙・•怪自士牙音・工人牙・品牌趋势 •安利牙修• !■王牙■ ;品牌份额 HKSW14* A 1 II ■an 讦,17% -1 \ I«!A±^W 1.7% -. \,\ 111 11品牌认知 615?膂 41，一(■盅・9号91% L WASH 104%• »B±tW • MW儿• ■■ E 、收？■• • • • ♦叫 hxl?w云育9头牙■ • wItWEH?W ■w?W 0 •.■人汨I• AKX7V和曰，—地域分析 61行• • • *14?W ■A?Wtf&kw • 叁《!联&-0.53 人口属性搜索行为 irM^s 1raHIa・法牙膏EH弼铺• ±Tttir®M*S PC • 3牙，ua?« > u.m Ui?W>UffrW»U4I9« ・ Q・99• Ui9A SU9・• QE 目录一、国家针对舆情预警大数据的相关政策3舆情预警大数据应用的必要性和意义5 1 .舆情大数据应用的必要性5 2 .舆情大数据应用的意义5舆情预警大数据应用平台主要功能6 1. 信息搜索6 2. 事件分析6 3. 热点推送7 4. 传播分析7 5. 情感分析8 6. 数据报告8 7. 预警消息8舆情预警大数据应用平台应用场景9 1 .民意云平台9 2 .食品药品监管大数据平台11 3 .明星娱乐大数据13 4 .政务服务应用大数据平台15 5 .质检产品分析17 6 .品牌/产品营销策略18 7 .外交事件分析20 8 .新闻媒体传播监测22平台采用的核心技术24 1 .核心技术：分布式数据采集技术24 2 .核心技术：数据清洗和数据预处理25 3 .核心技术：海量数据存储技术30 4 .核心技术：海量数据全文检索技术30 5 .核心技术：自然语言处理技术31 6 .核心技术：数据挖掘技术34 7 .外交事件分析（1）应用场景解决的核心问题通过分析各国外交及国内外动态信息事件，及时掌握事件热度, 所属媒体阵营、关联人物、社会评价、对华态度等，并对给予参考意见，并建立专用处理系统，完成外交事件信息采集、处理、实时跟踪等。同时，基于突发事件预测、预警，完成突发外交事件综合分析与评估，做出事态走势的判断，做出相应的应对措施。（2）应用场景需要整合的内部外数据源通过对国内各大媒体（新闻、微博、微信等）、港澳台媒、境外媒体（Facebook、Twitter等）进行数据采集。（3）应用场景可视化界面国民党主席洪秀柱访问大陆。工0片。曰" 2016 泳. u,e洪森住您访北京台湾创8 MHV 中BBDPM注3a代1，月3旺干誉次于比取标期9 会 m.如行胁*q圮而示.日《im侑\＜^当"皿1次 ■ &■工出加 «»Aw：nwn 中BMR凭主Jt崇秀株出庭■岸知军发•梃 11R?OT^ 伸BFWKTR总犬追名.尹的0。111点♦.帔行取＜WM歌/伦»Or%M59：tl!USaM£ 蜕ag. w鼻桂林”・上安的*s. ••AW ： &丽一 I —w) 滋Utt。访化京x海•1« 中叩律，TAXRHiiR3Ht 年Z2 于瓦▼RFIB2 «.依种3如松，$ 电泉，' H用N=PL^0IHa乂罗父.人・：匚亘二中HWR兜主3秀fWWIG平加怆坛八月2日下耳.中asam菱席心网争会花以.尹修・・加好.■防弓会•的■况度去弓线 “■・*?天U修. H4促・筌加*・. XBAW |] [ 1RW ] 浜勇柱at次访的两夜关乎有无覆义7 浜勇柱at次访的两夜关乎有无覆义7 投案分布领・作用■ 全■ I "5BB I M 1浜秀林访大即旧即丁之簸-◎当问时此一周栈三＞ R・ari，月2日u 4» 2洪用呈谪大1后优和平2前T。当内财就一声柳尔・a* K田192日H0 3双,外访大Mfh卬甲711r •当只加然一影不成 ■Q，MW取日W 4 JMRninAWiffwravijr n^wnn 声不q *BK« RTMT1,中日 24， 5in/”s大忍阚hfa・2Mr事当*rut-雷柳 MM *5 ・作用■ 全■ I "5BB I M 1浜秀林访大即旧即丁之簸-◎当问时此一周栈三＞ R・ari，月2日u 4» 2洪用呈谪大1后优和平2前T。当内财就一声柳尔・a* K田192日H0 3双,外访大Mfh卬甲711r •当只加然一影不成 ■Q，MW取日W 4 JMRninAWiffwravijr n^wnn 声不q *BK« RTMT1,中日 24， 5in/”s大忍阚hfa・2Mr事当*rut-雷柳 MM *5 AMM “、・5F3. ••修-wx . ae，»E3Ammmws"*. fl^vtim^iti 工”对于WFF*t 汾•翼 XW,g 盒”. 兀”.yr EfuvaERaoi. ,・ma 七夕上但31 用n UH. "F/mBm. «OM*r tMWCCWsa . Mu«Mrky4| MMMBS4IHK ^OlUNMkH^IlOMt =fc«E KNDWSa<=与户=以改奇■fci<xiwaiL 赛Eipier田一,«tjwj3w 出g«gBf：*anm&iTQ. %-：»冬» »<»HE••寸X H,我•—•铁口及■•斯•♦•. 泛黑阵量 E*0子 R«n"5不外S SHir&WlWin秀,豆筋壮一或口«3! 5»«AR45S- m焦・♦■. ♦・*• e*wi4iWnrM»wi3MsMt RMM5tta«!UMw«Mr.弗• mtvxRAMiSBara ul« iammws«a ” ;4“鲁个本&fc- Zhfcmrx; 8 .新闻媒体传播监测（1）应用场景解决的核心问题通过建立相关数据模型，传播指数体系，并自动计算媒体发布信息在互联网上的传播影响力。对媒体的传播影响力、编辑考核、比照分析等提供相应的解决方案。同时，企业根据这些统计数据，能够量化各家网站的传播力，发掘优秀网站，同时通过分析落后指标提升落后网站的传播力。以此作为一种监测手段，对传播信息质量不高、覆盖率及影响效果不好的网站进行整改，为全网用户营造一个健康积极、良好的网络环境。（2）应用场景需要整合的内部外数据源通过各新闻媒体网站（包含一类资质的新闻网站和二类资质的商业网站），微博，微信，六大门户，三大搜索数据进行采集。（3）应用场景可视化界面巴南广播电视台（首发）人民网 2016/03/21♦频疙人民网 2016/03/21华龙网人民网 2016/03/21♦ ♦中国经济网人民网 2016/03/21 ♦新浪网人民网 2016/03/21♦中国新闻网人民网 2016/03/21♦贵阳网人民网 2016/03/21♦中国青年网人民网 2016/03/21♦中国新闻网辽宁人民网 2016/03/21 中国青年网人民网 2016/03/21 群众网人民网 2016/03/21 中国网江苏人民网 2016/03/21 中国网河南人民网 2016/03/21 重庆视界人民网 2016/03/21 中国日报网人民网 2016/03/21 中国江苏网人民网 2016/03/21 东方视野人国网 2016/03/21 武进新闻网人民网 2016/03/21 东方网人民网 2016/03/21 中华网人民网 2016/03/21 中国西藏网人民网 2016/03/21 ♦♦乐i匕网人民网 2016/03/21 Z ♦黝卜网人民网 2016/03/21♦大河网人民网 2016/03/21中国江苏网人民网 2016/03/21 东方视野人民网 2016/03/21 武进新闻人民网 2016/03/21 东方网人民网 2016/03/21 中华网人民网 2016/03/21 中国西藏网人民网 2016/03/21♦环球网人日网 2016/03/21♦新浪网人民网 2016/03/21♦中国网江苏人民网 2016/03/21♦ ♦今日头条人民网 2016/03/21 期趣]L^J ) •示焉用5 建党％周年改革认识论 ) **2***** । 五、平台采用的核心技术.核心技术：分布式数据采集技术采集系统基于分布式架构，统一调度采集任务，充分利用每个下载机的资源，提高采集的整体性能。可通过调整集群的子节点数量来提高集群的负载能力。分布式网络爬虫包含多个爬虫，每个爬虫需要完成的任务和单个的爬行器类似，它们从互联网上下载网页，并把网页保存在本地的磁盘，从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务，可能爬虫会将自己抽取的URL发送给其他爬虫。这些爬虫可能分布在同一个局域网之中，或者分散在不同的地理位置。根据爬虫的分散程度不同，可以把分布式爬行器分成以下两大类: (1)基于局域网分布式网络爬虫：这种分布式爬行器的所有爬虫在同一个局域网里运行，通过高速的网络连接相互通信。这些爬虫通过同一个网络去访问外部互联网，下载网页，所有的网络负载都集中在他们所在的那个局域网的出口上。由于局域网的带宽较高，爬虫之间的通信的效率能够得到保证；但是网络出口的总带宽上限是固定的，爬虫的数量会受到局域网出口带宽的限制。 (2)基于广域网分布式网络爬虫：当并行爬行器的爬虫分别运行在不同地理位置(或网络位置)，我们称这种并行爬行器为分布式爬行器。分布式爬行器的优势在于可以子在一定程度上分散网络流量, 减小网络出口的负载。如果爬虫分布在不同的地理位置(或网络位置), 需要间隔多长时间进行一次相互通信就成为了一个值得考虑的问题。爬虫之间的通讯带宽可能是有限的，通常需要通过互联网进行通信。在实际应用中，基于局域网分布式网络爬虫应用的更广一些，而基于广域网的爬虫由于实现复杂，设计和实现本钱过高，一般只有实力雄厚和采集任务较重的大公司才会使用这种爬虫。 WEB下载方式分为HTTP与FTP两种类型，它们是计算机之间交换数据的方式，也是两种最经典的下载方式，该下载方式原理非常简单，就是用户两种规那么(协议)和提供文件的服务器取得联系并将文件搬到自己的计算机中来，从而实现下载的功能。爬虫程序主要采集该现有jar包HttpClient来实现页面下载功能。布隆过滤器(Bloom Filter)：对于原理来说很简单，位数组+k 个独立hash函数。将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在，很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字，因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改进就是counting Bloom filter,用一个counter数组代替位数组，就可以支持删除了。 1 .核心技术：数据清洗和数据预处理 (1)数据预处理＞构建D0M树从输入网页构建DOM （文档对象模型，Document Object Model ）树是数据抽取算法中的一个必要步骤。大多数HTML标签是成对使用的。每一对由一个开始标签和一个结束标签组成（分别用◊和＜/＞来表示）。在每个对应的标签对间，可以有其他标签对，从而构成嵌套结构。所以可以用一个网页的HTML编码来构建一棵D0M树。构建过程有两个任务需要执行： HTML编码清理：一些标签不要求结束标签（如〈li〉、〈hr〉、＜p＞）, 尽管它们有结束标签。于是，应该插入额外的结束标签以保证所有的标签都是平衡的。系统使用tidy程序来订正格式有问题的标签。树的构建：系统可以根据网页中HTML标签的嵌套块来构建D0M 树。这个方法对大多数网页都是有效的。然而，对一些格式有问题的标签，即使tidy程序也无法订正。除了分析HTML编码以订正错误, 利用Web浏览器的渲染引擎（如Internet Explorer）具有很高的容错性，用这个方法构建树更为健壮。只要浏览器能够正确渲染一张网页，它的标签树就能被正确构建。基于网页分割找正文块网页正确分割后，正文提取工作简化为对正文块的判断；分割是利用HTML标签中的分隔线以及一些视觉信息（如文字颜色、字体大小、文字信息等）。存在问题：不同网站的HTML风格迥异，分割没有统一方法, 通用性难以保证。基于标记窗先取出文章标题；两个标签及其内部包含的文本合在一起称为一个标记窗（比如〈hl〉text〈/hl〉中text就是标记窗内的文本），取出所有标记窗内的文字；对文章标题和每个标记窗内的文本分词；计算标题序列与每个标记窗文本序列的词语距离L,如果L 小于一个阈值，那么将此标记窗内的文本看做是正文文本。存在问题：标记窗的提法很好，但每个标记窗文本都要先分词，再计算词序列距离。基于数据挖掘或机器学习用到了文本分类、聚类、隐马模型、数据挖掘等。存在问题：简单问题复杂化。基于逻辑行和最大接纳距离的网页正文抽取考虑人们编写网页时的一些启发规那么，考虑了正文的物理位置会靠的很近；做出以下推论：HTML每一行都表示一个完整的语义；正文代码在物理位置上会靠的很近；正文代码的一行中大都是文字；正文代码的一行中非HTML标签的文字数量较多；正文代码的一行中超链接长度所占比率不会很大；凡符合上述推论的代码行被认为是一个正文行；存在问题：正文在物理位置上确实会很接近，但标题很长的链接群以及较长的文章评论信息同样满足上述条件。仍要靠html 标签做判断。＞基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关。首次将网页正文抽取问题转化为求页面的行块分布函数，这种方法不用建立Dom树，不被病态HTML所累（事实上与HTML标签完全无关）。通过在线性时间内建立的行块分布函数图，直接准确定位网页正文。同时采用了统计与规那么相结合的方法来处理通用性问题。作者相信简单的事情总应该用最简单的方法来解决这一亘古不变的道理。整个算法实现代码缺乏百行。（2）垃圾数据过滤关联分析，又称关联规那么挖掘，常用于开展大量数据中项集之间的相互联系，是数据挖掘领域中的一个重要问题。垃圾数据关联挖掘的处理流程: （垃圾数据特征词关联挖掘处理流程图）国家针对舆情预警大数据的相关政策在新时期和新环境下，舆情已成为关系到社会健康开展的重要内容，过去的几年里，习近平主席也屡次提及舆情工作的重要性。 2013年8月19日，习近平在全国宣传思想工作会议上发表重要讲话：很多人特别是年轻人基本不看主流媒体，大局部信息都从网上获取。必须正视这个事实，加大力量投入，尽快掌握这个舆论战场上的主动权，不能被边缘化了。 2014年2月27日，习近平主持召开中央网络平安和信息化领导小组第一次会议时指出：做好网上舆论工作是一项长期任务，要创新改进网上宣传，运用网络传播规律，弘扬主旋律，激发正能量，大力培育和践行社会主义核心价值观，把握好网上舆论引导的时、度、效，使网络空间清朗起来。 2016年10月9日，习近平在中共中央政治局就实施网络强国战略进行第三十六次集体学习中强调：要发挥网络传播互动、体验、分享的优势，听民意、惠民生、解民忧，凝聚社会共识。要深刻认识互联网在国家管理和社会治理中的作用，以推行电子政务、建设新型智慧城市等为抓手，以数据集中和共享为途径，建设全国一体化的国家大数据中心，推进技术融合、业务融合、数据融合，实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务。在这一思想的指导下，国家互联网信息办公室发布《国家网络空间平安战略》提出：要加强网上思想文化阵地建设，大力培育和践行 (3)文本预处理为了提高垃圾数据新词(组)挖掘的召回率和准确率，本文先对邮件样本进行样本邮件的聚类分块预处理。文本聚类，就是把一个文档集分成假设干称为集簇的子集,每个集簇的成员之间有较大的相似性, 而集簇之间的文档具有较小的相似性。本文采用时间和文本相似度为尺度来进行文本的聚类。 2 .核心技术：海量数据存储技术存储系统基于Hadoop的分布式存储框架，采用HBase分布式数据库，构建于分布式HDFS之上，使用列存储技术，通过线性方式从下到上增加节点来进行扩展，将大而稀疏的数据表存放到服务器集群上，从而满足高可靠性、高性能、可伸缩的特性。 3 .核心技术：海量数据全文检索技术采用solrCloud全文检索技术每天对千万级别以上的文档进行实时搜索，毫秒级响应。在海量数据检索系统数据库中对外提供统一的数据库接口，海量数据进入检索系统的同时一份持久化数据进入数据库中，在索引过程起到备份数据的作用，并结合相关自然语言处理技术做信息去重、做到实时入库。全文检索系统的海量数据统一存储在分布式文件系统中，做到数据实时快速存储，既可以实现从外部数据库一次性向检索系统数据库迁移，实现一次性数据的采集、入库到检索平台数据库；也可以实现增量动态运行方式，无缝透明支持各细分行业的数据采集入库，将各细分行业数据实时地更新到检索平台服务器。全文数据集群服务器，是架构在多个物理全文数据库服务器之上的分布式管理系统，满足海量数据和高并发环境下的分布式查询、检索性能和可靠性要求。采用分布式数据库系统的集群架构可实现以下目标：（1）数据随需求扩展；（2）大规模用户高并发条件下保证高性能；（3）实现无单点故障的高可靠性应用。 4 .核心技术：自然语言处理技术（1）中文分词技术中文分词，说分词是中文处理的基本技术，是由汉语的特点决定的。中文分词的任务是把一连串的单字按词分开，比方，这是一个原始句子：李明是一名优秀的学生。经过分词处理的结果为：李明是一名优秀的学生。在这里，分词面临的第一个问题是如何定义一个词。比方“自然语言处理”，可以作为一个词，也可以切分为：（1）自然语言处理（2）自然语言处理关于中文词的定义并没有统一的标准，语言学家从不同的角度对词进行定义，而这些定义往往彼此并不完全兼容。分词的主要方法分为：最大匹配法和歧义切分法。其中最大匹配法又分为： > 正向最大匹配法(Forward Maximum Matching, FMM) > 逆向最大匹配法(Reverser Maximum Matching, RMM) > 双向最大匹配法(Bi-directional Maximum Matching, BMM) (2)词性标注词性标注(Part-of-Speech tagging 或 POS tagging),是指为句子中每个单词标注一个词性类别，这里的类别包括名词、动词、形容词、连词、副词、标点符号等。词性标注是语言识别、句法分析、信息抽取技术的基础技术之一, 也可以直接应用在一些系统里，如问答系统等。类似于中文分词技术，词性标注也可以看成是标注问题，因此可以应用最大烯、HMM或CRF等算法进行模型的训练。 (3)句法分析句法分析目的是确定句子的句法结构，例如“主谓宾”、“动宾”、 “定中”、“动补”等关系。句法分析需要依赖某种预定的语法体系，目前比拟常见的是采用依存语法表达，即通过语法树表达各个词之间的依存关系。目前广泛接受的依存语法定义有4条公理： > 一个句子只有一个成分是独立的＞句子中的其它成分直接附属于某一成分＞任何一个成分都不能附属于两个或两个以上的成分＞如果成分A直接附属于成分B,而成分C在句子中位于A和B之间，那么，成分C或者附属于A,或者附属于B,或者附属于A和B 之间的某一成分。句法分析是进行进一步语义分析的基础。 (4)实体识别命名实体识别的目标是定位句子中出现的人名、地名、机构名、专有名词等。命名实体属于信息抽取领域的基本技术，通常用于挖掘文本中的实体并进行分析。命名实体识别是进一步进行实体关系识别的基础。命名实体识别也可以看做是标注问题，因此可以采用HMM、CRF 等进行模型的训练。基于统计的命名实体识别需要基于分词、词性标注等技术。命名实体可以有多种分类方法，ACE08评测计划里定义了五大类实体类型：设施(FAC)、地理政治实体(GPE)、位置(LOC)、组织(ORG)、人物 (PER)o并定义了 31种子类型。 (5)实体关系抽取实体关系抽取的目的是自动识别非结构化文档中两个实体之间的关联关系，属于信息抽取领域的基础技术之一，是进一步进行数据处理和数据挖掘的的前提。实体关系抽取在信息检索、问答系统等领域有重要的意义。例如近年搜索领域流行的知识图谱技术，就是构建在实体关系抽取的基础上。实体关系抽取是建立在命名实体识别的基础之上，基本任务就是寻找实体之间存在的特定关系。实体关系抽取有多种方式，包括规那么匹配、有监督学习、无监督（或半监督）学习。其中有监督学习需要预先定义实体关系类别，并通常将问题建模为分类问题。有监督学习需要预先人工标注语料库，工作量大，因此在一些开放性数据集上, 一些无监督（或半监督）算法也得到广泛应用。一些常见的实体关系如下：附属关系（小明是杜克大学的教授）、组织结构（研发一部是研发中心的下属部门）、人物关系（小明是小红的爸爸）、地理位置关系（鼓浪屿位于厦门的南边）6.核心技术：数据挖掘技术（1）文本分类算法文本分类大致有两种方法：一种是基于训练集的文本分类方法; 另一种是基于分类词表的文本分类方法。＞支持向量机支持向量机(Support Vector Machine, SVM)最初是由 Vapnik 提出的，是一种相对较新的机器学习方法。支持向量机的基本实现思想是：通过某种事先选择的非线性影射把输入向量x映射到一个高维特征空间Z,在这个空间中构造最优分类超平面。也就是SVM采用输入向量的非线性变换，在特征空间中，在现行决策规那么集合上按照正规超平面权值的模构造一个结构，然后选择结构中最好的元素和这个元素中最好的函数，以到达最小化错误率的目标，实现了结构风险最小化原那么。＞朴素贝叶斯算法朴素贝叶斯(Naive Bayes)算法的基本思路是计算文本属于类别的概率，文本属于类别的概率等于文本中每个词属于类别的概率的综合表达式。具体算法步骤如下：朴素贝叶斯分类分为三个阶段：第一阶段一一准备工作阶段，这个阶段的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一局部待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。第二阶段一一分类器训练阶段，这个阶段的任务就是生成分类器, 主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录。其输入是特征属性和训练样本，输出是分类器。这一阶段是机械性阶段，根据前面讨论的公式可以由程序自动计算完成。第三阶段一一应用阶段。这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。这一阶段也是机械性阶段，由程序完成。 >向量空间距离该算法的思路十分简单，根据算术平均为每类文本集生成一个代表该类的中心向量，然后在新文本来到时，确定新文本向量，计算该向量与每类中心向量间的距离（相似度），最后判定文本属于与文本距离最近的类，具体步骤如下：训练阶段：首先定义类别集合这些类别可以是层次式的，也可以是并列式的；然后给出训练文本集合，每个训练文本都被标上所属的类别标识；最后，提取训练文本集合s中所有文本的特征矢量，并采用一定的原测来确定代表c中每个类别的特征矢量。分类阶段：对于测试文本集合中的每一个待分类文本，计算其特征矢量与每一个之间的相似度，可以用前面所提到的余弦法。之后，选取相似度最大的一个类别作为的类别。 > K最邻近分类算法该算法的基本思路是：在给定新文本后，考虑在训练文本集中与该新文本距离最近（最相似）的K篇文本，根据这K篇文本所属的类别判断新文本所属的类别，具体算法步骤如下：根据特征项集合重新描述训练文本向量；将新文本表示为特征向量；在训练文本集中选出与新文本最相似的K个文本，计算方法仍为余弦法：其中，K值确实定目前没有很好的方法，一般采用先定一个初始值，然后根据试验测试的结果调整K值，一般初始值定为几百到数千之间。在新文本的K 个邻居中，依次计算每类的权重；比拟类的权重，将文本分到权重最大的那个类别中。＞决策树决策树是被广泛使用的归纳学习方法之一。决策树是用样本的属性作为根节点，用属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳产生的。决策树的根节点是所有样本中信息量最大的属性。树的中间节点是以该节点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶节点是样本的类别值。决策树用于对新样本的分类，即通过决策树对新样本属性值的测试，从树的根节点开始，按照样本属性的取值，逐渐沿着决策树向下，直到树的叶节点，该叶节点表示的类别就是新样本的类别。决策树方法是数据挖掘中非常有效的分类方法，它排除噪音的强壮性以及学习反义表达的能力使其更适合于文本分类。比拟著名的决策树算法是ID3 算法以及它的后继C4. 5、C5等。基本的ID3算法是通过自顶向下构造决策树的。 >神经网络神经网络是采用感知算法进行分类，在此种模型中，分类知识被隐式地存储在连接的权值上，使用迭代算法来确定权值向量，当网络输出判别正确时。权值向量保持不变，否那么进行增加或降低的调整, 因此也称奖惩法。一般在神经网络分类法中包括两个局部训练局部和测试局部，以样本的特征项构造输入神经元，特征的数量即为输入神经元的数量，至于隐含层数量和该层神经元的数目要视实际而定。在训练局部通过对相当数量的训练样本的训练得到训练样本输入与输出之间的关系即在不断的迭代调整过程中得到连接权值矩阵。测试部分那么是针对用户输入的待测样本的特征得到输出值

展开阅读全文