资源描述
舆情预警大数据应用平台
建设方案
下偌天交通制 -关■词 < 古田第济宁交管部S3就 >时间SUB:。全部 • 2&hw o-llOf 月自定义: 2016 12 12 V £ 2016-12 12 y
钊《体国总走势
•金・ •・• •馋培 •«« • «m •©・ •视・ • m
・仪・亿元
IM178 I M170O X X 1700 I M 17001 X1Z001 M U00 t X 17001 M U001 孤 IRQ 1 X IRQ I M 17«01 M PC0RJBAMTOP10
三京
• •••♦♦
RMxanopio
•a浪畏M
•幡浪网• as
•・ am • v
K•东湖区域分布
甲沟炎的病发原因及如何治疗(ftB1而I 经I女
侪浪网 2016 08-02 12 00-
甲沟炎的■发原ia及飨何出"7 ・山。*专**警甲内加M发原因”如何;方?■山青华电旅遇示:甲内炎案发生在一■甲沟由下,费咫为■制砌ci肿 感病,TS多无金.0WT伏.KfHLM* .枇内《W . *5内有底动",巾侬点.但不易破3W解S 甲沟炎的翕发原因及如何治疗[正.)而I 宣I玄
筋浪用 2016 03 02 12 00
申海炎的内蛇朦因及《)何沿”?・山・华专3W申国炎的■发鼻因及MMH6f7?・山,件专事»示:甲海炎常发生在一・甲沟皮下,表现为霸部明庆皿 M . TK仍无金,*«皿状.假设糠受发屈.翕灶内成版,HJM8内胃般动■,也限日点.如SHE出腿.
甲沟炎的病发原因及如何治疗[正at]© 1 A 1 *戴温网 201G-08-02 12 00
事海炎的KftBtiaRg何用疗? ■山・年专京IWf中再烫的病发原㈤及如例&47・山・明,««示:甲内炎1Mt生在 倒甲海及下.表现为或肤皿M . -TR多无全身g病症.假设■变发收.■»内成脓,红肿区内H波动•.出配自品,但不US1出脓_
6liCP«OOOOOOOOOOW flMRMW XXXfflf
CopyHght 2016 by Jusfouacom. Al Right Rese«v«d
2 .食品药品监管大数据平台
(1)应用场景解决的核心问题
对互联网上的“四品一械”舆情信息进行更深入的监管,实现了 每天24小时实时监测,不定期编制舆情简报,将重点舆情及时通报 给办公室及相关处室、市局领导,供领导参考。通过开展舆情监测和 分析研判,做到早报告、早预警、早处置。
(2)应用场景需要整合的内部外数据源
食药监贴吧,各大门户网站的食药监频道、地市食药监官网意见 栏,各大新闻媒体,微博,微信等媒体平台。
(3)应用场景可视化界面
-SV2 z二:二
e-
(生号)©
【£*6】「
R
a
3 .明星娱乐大数据
(1)应用场景解决的核心问题
通过采集互联网明星相关数据,对明星网络热度、相关话题、粉 丝画像进行全方位的分析,从而了解该明星的媒体关注度、公众影响 力、个人形象评估、社会形象评估、作品的产量、市场等多项指标, 对明星的商业价值进行评估。
(2)应用场景需要整合的内部外数据源
通过对新闻网站、微博、微信、论坛、博客、贴吧等平台进行数 据抓取。
(3)应用场景可视化界面
201阵明星网络热度排行201阵明星网络热度上升排行
201降明显商业价值排行
岩欣一蟆明・商业价值仍坚挺
假设干部鳗体休伪,小筑肉全面・榜
工IT 冰冰不N . S一上榜大花旦
O 2016«F WURiaiWtTOP 10。2016年明・网助MLL升TOP1。
O XH6年吩“阳ftffHlTOPIO明星
电视剧音乐
■王"般后|需泮¥・iMrmtt et 疥数
142,122,42797,170,943
10Dm
9S,129.311
71.779,93170.4S6,034
Do之.❷大物 ❸关*
上升的数M 上升!WHt上“热敛12.005,4449,612.579
建行 明.
王子文王・尔
株允聚者均
8 917.61110
«-tlJ刘■然
版业像图3般 &80
厢业(numna8,28
限魔上”桁敏 8,00Mi
an9elAbaby廊业馀®MR
7.9317.81
17.75
事件趋势0・•・原创・••转发・•・媒体
300k
@新浪微舆情
较为突出,加上原创和媒体的关注,将事态开展推向高点.
从上图可以看出,整个事件的爆发点是201阵11月18日,转发类型的热点词
,多偶像 r出帧为
g- S作揖超级藏件士
@新浪微舆情
男女比例②
血 72.94%II妞
M 27.06%H男性
72.94%用户认证②
E) •普通 88.34%
• 橙 V 2.37%
• 达人 8.28%
• 蓝V 1.01%
4.政务服务应用大数据平台
(1)应用场景解决的核心问题
通过采集网络上相关民意,运用大数据运算理念,对民意数据进 行深度分析,使管理者及时了解事件热度、事件发生地点、百姓需求 和事件的整体演化情况。
(2)应用场景需要整合的内部外数据源
民意数据通过采集新闻媒体网站、微博、微信、政府网站、各市 服务平台等渠道。
(3)应用场景可视化界面
潍坊市政务服务热线大数据平台民意总览
部门民意民意预测
民意同比Admin
^分析冬季供暧
地域分析发生时间:
2016年10月1日一2016年10月31日i 23239条
关健词分析N0.1
事件演化涉及地点:
安丘县渡城区定文区胃州市寿光市54%
咨询25%
本月排名措施建议
声•走势分析2500
Z0012000
420.22 本月早均声■1000
9-2610-1
10-710-15
10-2110-25
10-31地域分布
然点事件地域热力网热点事件地域撑行情
3套文区青州市
15441540
530430
寿光市230
关值字分析4学
教育
拥堵事件演化
9月10日•'; 9月10日
•10R20B•10A31B
措施建议热点
[:诉]天气太冷了 ,怎么还不供♦.
空气
环境
拥堵热点
相关民■ : 2330*【咨询】天气太泠了,怎么还不供11怎么还不佻■天气太冷了,怎么还不供♦.
天气太冷了,怎么还不供♦.天气太冷了,怎么还不保■.
相关民• : 2330条做: 2330>
本月,有2332殊出线民意是关于冬季快豪,其中皆旬熟线民意最多占54%.政府应采取提前供暖,监督减少燃料造成的污染、保证各家暖气取全使用的
5.质检产品分析
(1)应用场景解决的核心问题通过对舆情数据的采集、清洗等,分析产品相关的舆情数量和舆
情关键字,辅助企业尽早的发现舆情规律,控制舆论导向、话题演化 的规律,指导企业及时公关,辅助企业调整自身商业决策,帮助企业 规避市场风险。
(2)应用场景需要整合的内部外数据源通过对电商用户反响信息,新闻网站、微博、微信、博客等媒体
报道情况进行抓取。
质量问题产品排行榜
(3)应用场景可视化界面
TQP •上,儿奶购0叁
I wWWw
丫口口■奈eJUWH荷兰 2
TDP **佳儿奶粉荷兰
3 MHMI
15? ■■MUI奶IB 有兰
Tnp II*佳儿钟阈・竺 S
TDP MW丰胃兰
TDP ..的
7
TOP •■匐荷三 日 MWI*
EP佳儿WHO 0竺
3 •WWTW I top 主
1 □ MiM
6.品牌/产品营销策略
(1)应用场景解决的核心问题
通过平台可了解行业趋势和品牌趋势、各品牌份额,进行品牌认 知和竞争对手的判断,还可通过品牌开展指数洞察不同地区的开展情 况,为企业找到更有机会的蓝海地域,助其制定出行之有效的营销策 略。
通过对消费者“兴趣爱好”、“需求诉求点”、“搜索行为”、“搜索 路径”、“人口属性“和”地域分布”的研究,帮助企业制定出行之有 效的营销沟通策略。
(2)应用场景需要整合的内部外数据源
通过对各大电商(京东、淘宝、苏宁、亚马逊、一号店等)平台 数据抓取。从数据中提炼消费者评论、地域、消费商品信息、商品金 额、消费者属性等。
(3)应用场景可视化界面
42001400
•田七牙・•怪自士牙音
・ 工人牙・品牌趋势
•安利牙修• !■王牙■
;品牌份额
HKSW14* A 1 II
■an 讦,17% -1 \ I«!A±^W 1.7% -. \,\ 111
11品牌认知
615?膂 41,一(■盅・9号91%
L WASH 104%• »B±tW
• MW儿• ■■ E
、收?■• • •
• ♦叫 hxl?w云育9头牙■
• wItWEH?W
■w?W
0 •.■人汨I• AKX7V和曰
,—地域分析
61行• • • *14?W
■A?Wtf&kw •
叁《!联&-0.53
人口属性搜索行为
irM^s 1raHIa・法牙膏EH弼铺•
±Tttir®M*S PC •
3牙,ua?« > u.m
Ui?W>UffrW»U4I9« ・ Q・99• Ui9A
SU9・• QE
目录
一、 国家针对舆情预警大数据的相关政策3舆情预警大数据应用的必要性和意义5
1 .舆情大数据应用的必要性5
2 .舆情大数据应用的意义5舆情预警大数据应用平台主要功能6
1. 信息搜索6
2. 事件分析6
3. 热点推送7
4. 传播分析7
5. 情感分析8
6. 数据报告8
7. 预警消息8舆情预警大数据应用平台应用场景9
1 .民意云平台9
2 .食品药品监管大数据平台11
3 .明星娱乐大数据13
4 .政务服务应用大数据平台15
5 .质检产品分析17
6 .品牌/产品营销策略18
7 .外交事件分析20
8 .新闻媒体传播监测22平台采用的核心技术24
1 .核心技术:分布式数据采集技术24
2 .核心技术:数据清洗和数据预处理25
3 .核心技术:海量数据存储技术30
4 .核心技术:海量数据全文检索技术30
5 .核心技术:自然语言处理技术31
6 .核心技术:数据挖掘技术34
7 .外交事件分析
(1)应用场景解决的核心问题
通过分析各国外交及国内外动态信息事件,及时掌握事件热度, 所属媒体阵营、关联人物、社会评价、对华态度等,并对给予参考意 见,并建立专用处理系统,完成外交事件信息采集、处理、实时跟踪 等。同时,基于突发事件预测、预警,完成突发外交事件综合分析与 评估,做出事态走势的判断,做出相应的应对措施。
(2)应用场景需要整合的内部外数据源
通过对国内各大媒体(新闻、微博、微信等)、港澳台媒、境外 媒体(Facebook、Twitter等)进行数据采集。
(3)应用场景可视化界面
国民党主席洪秀柱访问大陆
。工0片 。曰"
2016 泳.
u,e洪森住您访北京台湾创8
MHV
中BBDPM注3a代1,月3旺干誉次于比取标期9 会 m.如行胁*q圮而示.日《im侑\<^当"皿1次 ■ &■工出加
«»Aw:nwn
中BMR凭主Jt崇秀株出庭■岸知军发•梃
11R?OT^ 伸BFWKTR总犬追名.尹 的0。111点♦.帔行取<WM歌/伦»Or%M59:tl!USaM£ 蜕ag. w鼻桂林”・上安的*s.
••AW : &丽一 I —w)
滋Utt。访化京x海•1«
中叩律,TAXRHiiR3Ht 年Z2 于瓦▼RFIB2
«.依种3如松,$ 电泉,' H用N=PL^0IHa乂罗
父.人・:匚亘二
中HWR兜主3秀fWWIG平加怆坛
八月2日下耳.中asam菱席心网争 会花以.尹 修・・加好.■防弓会•的■况度去弓线
“■・*?天U修. H4促・筌加*・.
XBAW |] [ 1RW ]
浜勇柱at次访的两夜关乎有无覆义7
浜勇柱at次访的两夜关乎有无覆义7
投案分布领
・作用■
全■ I "5BB I M
1浜秀林访大即旧即丁之簸-◎当问时此一周栈
三> R・ari,月2日u 4»
2洪用呈谪大1后优和平2前T。当内财就一声柳
尔・a* K田192日H0
3双,外访大Mfh卬甲711r •当只加然一影不成
■Q,MW取日W
4 JMRninAWiffwravijr n^wnn 声不q
*BK« RTMT1,中日 24,
5in/”s大忍阚hfa・2Mr事当*rut-雷柳
MM *5
・作用■
全■ I "5BB I M
1浜秀林访大即旧即丁之簸-◎当问时此一周栈
三> R・ari,月2日u 4»
2洪用呈谪大1后优和平2前T。当内财就一声柳
尔・a* K田192日H0
3双,外访大Mfh卬甲711r •当只加然一影不成
■Q,MW取日W
4 JMRninAWiffwravijr n^wnn 声不q
*BK« RTMT1,中日 24,
5in/”s大忍阚hfa・2Mr事当*rut-雷柳
MM *5
AMM
“、・5F3. ••修-wx . ae,»E3Ammmws"*. fl^vtim^iti 工”对于WFF*t 汾•翼 XW,g 盒”.
兀”.yr EfuvaERaoi. ,・ma 七夕上但31 用n UH. "F/mBm.
«OM*r tMWCCWsa . Mu«Mrky4| MMMBS4IHK ^OlUNMkH^IlOMt =fc«E KNDWSa<=与户=以改奇■fci<xiwaiL
赛Eipier田一,«tjwj3w 出g«gBf:*anm&iTQ. %-:»冬» »<»HE••寸X H,我•—•铁口及■•斯•♦•.
泛黑阵量
E*0子 R«n"5不外S SHir&WlWin秀,豆筋壮一或口«3! 5»«AR45S- m焦・♦■. ♦・*• e*wi4iWnrM»wi3MsMt
RMM5tta«!UMw«Mr.弗• mtvxRAMiSBara ul« iammws«a
” ;4“鲁个本&fc- Zhfcmrx;
8 .新闻媒体传播监测
(1)应用场景解决的核心问题
通过建立相关数据模型,传播指数体系,并自动计算媒体发布信 息在互联网上的传播影响力。对媒体的传播影响力、编辑考核、比照 分析等提供相应的解决方案。
同时,企业根据这些统计数据,能够量化各家网站的传播力,发 掘优秀网站,同时通过分析落后指标提升落后网站的传播力。以此作 为一种监测手段,对传播信息质量不高、覆盖率及影响效果不好的网 站进行整改,为全网用户营造一个健康积极、良好的网络环境。
(2)应用场景需要整合的内部外数据源
通过各新闻媒体网站(包含一类资质的新闻网站和二类资质的商 业网站),微博,微信,六大门户,三大搜索数据进行采集。
(3)应用场景可视化界面
巴南广播电视台(首发) 人民网 2016/03/21♦频疙
人民网 2016/03/21华龙网
人民网 2016/03/21♦ ♦中国经济网
人民网 2016/03/21
♦新浪网
人民网 2016/03/21♦中国新闻网
人民网 2016/03/21♦贵阳网
人民网 2016/03/21♦中国青年网
人民网 2016/03/21♦中国新闻网辽宁
人民网 2016/03/21
中国青年网
人民网 2016/03/21
群众网
人民网 2016/03/21
中国网江苏
人民网 2016/03/21
中国网河南
人民网 2016/03/21
重庆视界
人民网 2016/03/21
中国日报网
人民网 2016/03/21
中国江苏网
人民网 2016/03/21
东方视野
人国网 2016/03/21
武进新闻网
人民网 2016/03/21
东方网
人民网 2016/03/21
中华网
人民网 2016/03/21
中国西藏网
人民网 2016/03/21
♦♦乐i匕网
人民网 2016/03/21
Z
♦黝卜网
人民网 2016/03/21♦大河网
人民网 2016/03/21中国江苏网
人民网 2016/03/21 东方视野人民网 2016/03/21
武进新闻人民网 2016/03/21
东方网人民网 2016/03/21
中华网人民网 2016/03/21 中国西藏网
人民网 2016/03/21♦环球网
人日网 2016/03/21♦新浪网
人民网 2016/03/21♦中国网江苏
人民网 2016/03/21♦ ♦今日头条
人民网 2016/03/21
期趣]L^J ) •示焉用5
建党%周年改革认识论 )
**2***** ।
五、平台采用的核心技术.核心技术:分布式数据采集技术
采集系统基于分布式架构,统一调度采集任务,充分利用每个下 载机的资源,提高采集的整体性能。可通过调整集群的子节点数量来 提高集群的负载能力。
分布式网络爬虫包含多个爬虫,每个爬虫需要完成的任务和单个 的爬行器类似,它们从互联网上下载网页,并把网页保存在本地的磁 盘,从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器 需要分割下载任务,可能爬虫会将自己抽取的URL发送给其他爬虫。 这些爬虫可能分布在同一个局域网之中,或者分散在不同的地理位置。
根据爬虫的分散程度不同,可以把分布式爬行器分成以下两大类:
(1)基于局域网分布式网络爬虫:这种分布式爬行器的所有爬 虫在同一个局域网里运行,通过高速的网络连接相互通信。这些爬虫 通过同一个网络去访问外部互联网,下载网页,所有的网络负载都集 中在他们所在的那个局域网的出口上。由于局域网的带宽较高,爬虫 之间的通信的效率能够得到保证;但是网络出口的总带宽上限是固定 的,爬虫的数量会受到局域网出口带宽的限制。
(2)基于广域网分布式网络爬虫:当并行爬行器的爬虫分别运 行在不同地理位置(或网络位置),我们称这种并行爬行器为分布式 爬行器。分布式爬行器的优势在于可以子在一定程度上分散网络流量, 减小网络出口的负载。如果爬虫分布在不同的地理位置(或网络位置), 需要间隔多长时间进行一次相互通信就成为了一个值得考虑的问题。 爬虫之间的通讯带宽可能是有限的,通常需要通过互联网进行通信。
在实际应用中,基于局域网分布式网络爬虫应用的更广一些,而 基于广域网的爬虫由于实现复杂,设计和实现本钱过高,一般只有实 力雄厚和采集任务较重的大公司才会使用这种爬虫。
WEB下载方式分为HTTP与FTP两种类型,它们是计算机之间交 换数据的方式,也是两种最经典的下载方式,该下载方式原理非常简 单,就是用户两种规那么(协议)和提供文件的服务器取得联系并将文 件搬到自己的计算机中来,从而实现下载的功能。爬虫程序主要采集 该现有jar包HttpClient来实现页面下载功能。
布隆过滤器(Bloom Filter):对于原理来说很简单,位数组+k 个独立hash函数。将hash函数对应的值的位数组置1,查找时如果 发现所有hash函数对应位都是1说明存在,很明显这个过程并不保 证查找的结果是100%正确的。同时也不支持删除一个已经插入的关 键字,因为该关键字对应的位会牵动到其他的关键字。所以一个简单 的改进就是counting Bloom filter,用一个counter数组代替位数 组,就可以支持删除了。
1 .核心技术:数据清洗和数据预处理
(1)数据预处理>构建D0M树
从输入网页构建DOM (文档对象模型,Document Object Model ) 树是数据抽取算法中的一个必要步骤。大多数HTML标签是成对使用 的。每一对由一个开始标签和一个结束标签组成(分别用◊和</>来 表示)。在每个对应的标签对间,可以有其他标签对,从而构成嵌套 结构。所以可以用一个网页的HTML编码来构建一棵D0M树。构建过 程有两个任务需要执行:
HTML编码清理:一些标签不要求结束标签(如〈li〉、〈hr〉、<p>), 尽管它们有结束标签。于是,应该插入额外的结束标签以保证所有的 标签都是平衡的。系统使用tidy程序来订正格式有问题的标签。
树的构建:系统可以根据网页中HTML标签的嵌套块来构建D0M 树。这个方法对大多数网页都是有效的。然而,对一些格式有问题的 标签,即使tidy程序也无法订正。除了分析HTML编码以订正错误, 利用Web浏览器的渲染引擎(如Internet Explorer)具有很高的容 错性,用这个方法构建树更为健壮。只要浏览器能够正确渲染一张网 页,它的标签树就能被正确构建。
基于网页分割找正文块网页正确分割后,正文提取工作简化为对正文块的判断;
分割是利用HTML标签中的分隔线以及一些视觉信息(如文字 颜色、字体大小、文字信息等)。
存在问题:不同网站的HTML风格迥异,分割没有统一方法, 通用性难以保证。
基于标记窗先取出文章标题; 两个标签及其内部包含的文本合在一起称为一个标记窗(比
如〈hl〉text〈/hl〉中text就是标记窗内的文本),取出所有标记窗
内的文字;对文章标题和每个标记窗内的文本分词;
计算标题序列与每个标记窗文本序列的词语距离L,如果L 小于一个阈值,那么将此标记窗内的文本看做是正文文本。
存在问题:标记窗的提法很好,但每个标记窗文本都要先分 词,再计算词序列距离。
基于数据挖掘或机器学习
用到了文本分类、聚类、隐马模型、数据挖掘等。存在问题: 简单问题复杂化。
基于逻辑行和最大接纳距离的网页正文抽取
考虑人们编写网页时的一些启发规那么,考虑了正文的物理位 置会靠的很近;
做出以下推论:HTML每一行都表示一个完整的语义;正文代 码在物理位置上会靠的很近;正文代码的一行中大都是文字;正 文代码的一行中非HTML标签的文字数量较多;正文代码的一行中 超链接长度所占比率不会很大;凡符合上述推论的代码行被认为是一个正文行;
存在问题:正文在物理位置上确实会很接近,但标题很长的 链接群以及较长的文章评论信息同样满足上述条件。仍要靠html
标签做判断。
>基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、 与HTML标签无关。
首次将网页正文抽取问题转化为求页面的行块分布函数,这 种方法不用建立Dom树,不被病态HTML所累(事实上与HTML标 签完全无关)。通过在线性时间内建立的行块分布函数图,直接准 确定位网页正文。同时采用了统计与规那么相结合的方法来处理通 用性问题。作者相信简单的事情总应该用最简单的方法来解决这 一亘古不变的道理。整个算法实现代码缺乏百行。
(2)垃圾数据过滤
关联分析,又称关联规那么挖掘,常用于开展大量数据中项集之间 的相互联系,是数据挖掘领域中的一个重要问题。
垃圾数据关联挖掘的处理流程:
(垃圾数据特征词关联挖掘处理流程图)国家针对舆情预警大数据的相关政策
在新时期和新环境下,舆情已成为关系到社会健康开展的重要内 容,过去的几年里,习近平主席也屡次提及舆情工作的重要性。
2013年8月19日,习近平在全国宣传思想工作会议上发表重要 讲话:很多人特别是年轻人基本不看主流媒体,大局部信息都从网上 获取。必须正视这个事实,加大力量投入,尽快掌握这个舆论战场上 的主动权,不能被边缘化了。
2014年2月27日,习近平主持召开中央网络平安和信息化领导 小组第一次会议时指出:做好网上舆论工作是一项长期任务,要创新 改进网上宣传,运用网络传播规律,弘扬主旋律,激发正能量,大力 培育和践行社会主义核心价值观,把握好网上舆论引导的时、度、效, 使网络空间清朗起来。
2016年10月9日,习近平在中共中央政治局就实施网络强国战 略进行第三十六次集体学习中强调:要发挥网络传播互动、体验、分 享的优势,听民意、惠民生、解民忧,凝聚社会共识。要深刻认识互 联网在国家管理和社会治理中的作用,以推行电子政务、建设新型智 慧城市等为抓手,以数据集中和共享为途径,建设全国一体化的国家 大数据中心,推进技术融合、业务融合、数据融合,实现跨层级、跨 地域、跨系统、跨部门、跨业务的协同管理和服务。
在这一思想的指导下,国家互联网信息办公室发布《国家网络空 间平安战略》提出:要加强网上思想文化阵地建设,大力培育和践行
(3)文本预处理
为了提高垃圾数据新词(组)挖掘的召回率和准确率,本文先对 邮件样本进行样本邮件的聚类分块预处理。文本聚类,就是把一个文 档集分成假设干称为集簇的子集,每个集簇的成员之间有较大的相似性, 而集簇之间的文档具有较小的相似性。本文采用时间和文本相似度为 尺度来进行文本的聚类。
2 .核心技术:海量数据存储技术
存储系统基于Hadoop的分布式存储框架,采用HBase分布式数 据库,构建于分布式HDFS之上,使用列存储技术,通过线性方式从 下到上增加节点来进行扩展,将大而稀疏的数据表存放到服务器集群 上,从而满足高可靠性、高性能、可伸缩的特性。
3 .核心技术:海量数据全文检索技术
采用solrCloud全文检索技术每天对千万级别以上的文档进行 实时搜索,毫秒级响应。在海量数据检索系统数据库中对外提供统一 的数据库接口,海量数据进入检索系统的同时一份持久化数据进入数 据库中,在索引过程起到备份数据的作用,并结合相关自然语言处理 技术做信息去重、做到实时入库。
全文检索系统的海量数据统一存储在分布式文件系统中,做到数 据实时快速存储,既可以实现从外部数据库一次性向检索系统数据库 迁移,实现一次性数据的采集、入库到检索平台数据库;也可以实现增量动态运行方式,无缝透明支持各细分行业的数据采集入库,将各 细分行业数据实时地更新到检索平台服务器。
全文数据集群服务器,是架构在多个物理全文数据库服务器之上 的分布式管理系统,满足海量数据和高并发环境下的分布式查询、检 索性能和可靠性要求。
采用分布式数据库系统的集群架构可实现以下目标:
(1)数据随需求扩展;
(2)大规模用户高并发条件下保证高性能;
(3)实现无单点故障的高可靠性应用。
4 .核心技术:自然语言处理技术
(1)中文分词技术
中文分词,说分词是中文处理的基本技术,是由汉语的特点决定 的。中文分词的任务是把一连串的单字按词分开,比方,这是一个原 始句子:李明是一名优秀的学生。经过分词处理的结果为:李明是一 名优秀的学生。在这里,分词面临的第一个问题是如何定义一个词。 比方“自然语言处理”,可以作为一个词,也可以切分为:(1)自然 语言处理(2)自然语言处理
关于中文词的定义并没有统一的标准,语言学家从不同的角度对 词进行定义,而这些定义往往彼此并不完全兼容。分词的主要方
法分为:最大匹配法和歧义切分法。其中最大匹配法又分为:
> 正向最大匹配法(Forward Maximum Matching, FMM)
> 逆向最大匹配法(Reverser Maximum Matching, RMM)
> 双向最大匹配法(Bi-directional Maximum Matching, BMM)
(2)词性标注
词性标注(Part-of-Speech tagging 或 POS tagging),是指为 句子中每个单词标注一个词性类别,这里的类别包括名词、动词、形 容词、连词、副词、标点符号等。
词性标注是语言识别、句法分析、信息抽取技术的基础技术之一, 也可以直接应用在一些系统里,如问答系统等。
类似于中文分词技术,词性标注也可以看成是标注问题,因此可 以应用最大烯、HMM或CRF等算法进行模型的训练。
(3)句法分析
句法分析目的是确定句子的句法结构,例如“主谓宾”、“动宾”、 “定中”、“动补”等关系。
句法分析需要依赖某种预定的语法体系,目前比拟常见的是采用 依存语法表达,即通过语法树表达各个词之间的依存关系。目前广泛 接受的依存语法定义有4条公理: > 一个句子只有一个成分是独立的>句子中的其它成分直接附属于某一成分
>任何一个成分都不能附属于两个或两个以上的成分>如果成分A直接附属于成分B,而成分C在句子中位于A和B之 间,那么,成分C或者附属于A,或者附属于B,或者附属于A和B 之间的某一成分。
句法分析是进行进一步语义分析的基础。
(4)实体识别
命名实体识别的目标是定位句子中出现的人名、地名、机构名、 专有名词等。命名实体属于信息抽取领域的基本技术,通常用于挖掘 文本中的实体并进行分析。命名实体识别是进一步进行实体关系识别 的基础。
命名实体识别也可以看做是标注问题,因此可以采用HMM、CRF 等进行模型的训练。
基于统计的命名实体识别需要基于分词、词性标注等技术。
命名实体可以有多种分类方法,ACE08评测计划里定义了五大类 实体类型:
设施(FAC)、地理政治实体(GPE)、位置(LOC)、组织(ORG)、人物 (PER)o并定义了 31种子类型。
(5)实体关系抽取
实体关系抽取的目的是自动识别非结构化文档中两个实体之间 的关联关系,属于信息抽取领域的基础技术之一,是进一步进行数据 处理和数据挖掘的的前提。
实体关系抽取在信息检索、问答系统等领域有重要的意义。例如 近年搜索领域流行的知识图谱技术,就是构建在实体关系抽取的基础 上。
实体关系抽取是建立在命名实体识别的基础之上,基本任务就是 寻找实体之间存在的特定关系。实体关系抽取有多种方式,包括规那么 匹配、有监督学习、无监督(或半监督)学习。其中有监督学习需要 预先定义实体关系类别,并通常将问题建模为分类问题。有监督学习 需要预先人工标注语料库,工作量大,因此在一些开放性数据集上, 一些无监督(或半监督)算法也得到广泛应用。
一些常见的实体关系如下:附属关系(小明是杜克大学的教授)、 组织结构(研发一部是研发中心的下属部门)、人物关系(小明是小 红的爸爸)、地理位置关系(鼓浪屿位于厦门的南边)6.核心技术:数据挖掘技术
(1)文本分类算法文本分类大致有两种方法:一种是基于训练集的文本分类方法;
另一种是基于分类词表的文本分类方法。
>支持向量机
支持向量机(Support Vector Machine, SVM)最初是由 Vapnik 提出的,是一种相对较新的机器学习方法。支持向量机的基本实现思 想是:通过某种事先选择的非线性影射把输入向量x映射到一个高维 特征空间Z,在这个空间中构造最优分类超平面。也就是SVM采用输 入向量的非线性变换,在特征空间中,在现行决策规那么集合上按照正 规超平面权值的模构造一个结构,然后选择结构中最好的元素和这个 元素中最好的函数,以到达最小化错误率的目标,实现了结构风险最 小化原那么。
>朴素贝叶斯算法
朴素贝叶斯(Naive Bayes)算法的基本思路是计算文本属于类 别的概率,文本属于类别的概率等于文本中每个词属于类别的概率的 综合表达式。具体算法步骤如下: 朴素贝叶斯分类分为三个阶段:
第一阶段一一准备工作阶段,这个阶段的任务是为朴素贝叶斯分 类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个 特征属性进行适当划分,然后由人工对一局部待分类项进行分类,形 成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属 性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成 的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上 由特征属性、特征属性划分及训练样本质量决定。
第二阶段一一分类器训练阶段,这个阶段的任务就是生成分类器, 主要工作是计算每个类别在训练样本中的出现频率及每个特征属性 划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性 和训练样本,输出是分类器。这一阶段是机械性阶段,根据前面讨论 的公式可以由程序自动计算完成。
第三阶段一一应用阶段。这个阶段的任务是使用分类器对待分类 项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的 映射关系。这一阶段也是机械性阶段,由程序完成。
>向量空间距离
该算法的思路十分简单,根据算术平均为每类文本集生成一个代 表该类的中心向量,然后在新文本来到时,确定新文本向量,计算该 向量与每类中心向量间的距离(相似度),最后判定文本属于与文本 距离最近的类,具体步骤如下:
训练阶段:首先定义类别集合这些类别可以是层次式的,也可以 是并列式的;然后给出训练文本集合,每个训练文本都被标上所属的 类别标识;最后,提取训练文本集合s中所有文本的特征矢量,并采 用一定的原测来确定代表c中每个类别的特征矢量。
分类阶段:对于测试文本集合中的每一个待分类文本,计算其特 征矢量与每一个之间的相似度,可以用前面所提到的余弦法。之后, 选取相似度最大的一个类别作为的类别。
> K最邻近分类算法
该算法的基本思路是:在给定新文本后,考虑在训练文本集中与 该新文本距离最近(最相似)的K篇文本,根据这K篇文本所属的类 别判断新文本所属的类别,具体算法步骤如下:根据特征项集合重新 描述训练文本向量;将新文本表示为特征向量;在训练文本集中选出 与新文本最相似的K个文本,计算方法仍为余弦法:其中,K值确实 定目前没有很好的方法,一般采用先定一个初始值,然后根据试验测 试的结果调整K值,一般初始值定为几百到数千之间。在新文本的K 个邻居中,依次计算每类的权重;比拟类的权重,将文本分到权重最 大的那个类别中。
>决策树
决策树是被广泛使用的归纳学习方法之一。决策树是用样本的属 性作为根节点,用属性的取值作为分支的树结构。它是利用信息论原 理对大量样本的属性进行分析和归纳产生的。决策树的根节点是所有 样本中信息量最大的属性。树的中间节点是以该节点为根的子树所包 含的样本子集中信息量最大的属性。决策树的叶节点是样本的类别值。 决策树用于对新样本的分类,即通过决策树对新样本属性值的测试, 从树的根节点开始,按照样本属性的取值,逐渐沿着决策树向下,直 到树的叶节点,该叶节点表示的类别就是新样本的类别。决策树方法 是数据挖掘中非常有效的分类方法,它排除噪音的强壮性以及学习反 义表达的能力使其更适合于文本分类。比拟著名的决策树算法是ID3 算法以及它的后继C4. 5、C5等。基本的ID3算法是通过自顶向下构 造决策树的。
>神经网络
神经网络是采用感知算法进行分类,在此种模型中,分类知识被 隐式地存储在连接的权值上,使用迭代算法来确定权值向量,当网络 输出判别正确时。权值向量保持不变,否那么进行增加或降低的调整, 因此也称奖惩法。一般在神经网络分类法中包括两个局部训练局部和 测试局部,以样本的特征项构造输入神经元,特征的数量即为输入神 经元的数量,至于隐含层数量和该层神经元的数目要视实际而定。在 训练局部通过对相当数量的训练样本的训练得到训练样本输入与输 出之间的关系即在不断的迭代调整过程中得到连接权值矩阵。测试部 分那么是针对用户输入的待测样本的特征得到输出值
展开阅读全文