1、舆情卫士监测系统技术方案中国移动通信集团安徽省有限公司安庆分公司2017年5月目录1总体需求3矚慫润厲钐瘗睞枥庑赖。1.1建设目标3聞創沟燴鐺險爱氇谴净。1.2功能需求3残骛楼諍锩瀨濟溆塹籟。1.2.1互联网海量信息采集子系统4酽锕极額閉镇桧猪訣锥。1.2.2海量信息存储子系统4彈贸摄尔霁毙攬砖卤庑。1.2.3海量信息检索子系统5謀荞抟箧飆鐸怼类蒋薔。1.2.4互联网云数据分析处理子系统5厦礴恳蹒骈時盡继價骚。1.3性能需求6茕桢广鳓鯡选块网羈泪。1.4其他需求6鹅娅尽損鹌惨歷茏鴛賴。2技术方案7籟丛妈羥为贍偾蛏练淨。2.1翼腾云计算概述7預頌圣鉉儐歲龈讶骅籴。2.2总体设计概述9渗釤呛俨匀谔
2、鱉调硯錦。2.3系统架构图11铙誅卧泻噦圣骋贶頂廡。2.4业务流程图13擁締凤袜备訊顎轮烂蔷。2.5数据中心简介14贓熱俣阃歲匱阊邺镓騷。2.6.1海量互联网信息采集子系统16坛摶乡囂忏蒌鍥铃氈淚。2.6.1.1通用采集技术16蜡變黲癟報伥铉锚鈰赘。2.6.1.2互联网信息采集18買鲷鴯譖昙膚遙闫撷凄。2.6.2海量信息检索子系统19綾镝鯛駕櫬鹕踪韦辚糴。2.6.3大数据分析处理子系统21驅踬髏彦浃绥譎饴憂锦。2.6.3.1信息及数据处理22猫虿驢绘燈鮒诛髅貺庑。2.6.3.2舆情及敏感信息分析24锹籁饗迳琐筆襖鸥娅薔。2.6.4用户权限管理26構氽頑黉碩饨荠龈话骛。2.6.5安全子系统27輒
3、峄陽檉簖疖網儂號泶。2.6.6 手机舆情28尧侧閆繭絳闕绚勵蜆贅。1 总体需求1.1 建设目标建设*舆情监测系统,其实质在于利用信息化技术,建立专业的网络信息监测与管理平台,及时、全面、准确收集、分析互联网上一切与教育领域所相关的信息,进而做好研判和处置工作,健全制度、完善机制,及时了解把握情况,准确判断舆情发展趋势,掌握工作的主动权。 识饒鎂錕缢灩筧嚌俨淒。建设*舆网络舆情监测系统,以达到舆情监测与分析应对工作全面覆盖、有序管理、多方联动的效果。提高师范大学网络舆情突发事件的应急处置水平,明确网络舆情突发事件预防、预警、应对的程序,使得可及时、准确发布有关信息,澄清事实,引导舆论,妥善处理。
4、凍鈹鋨劳臘锴痫婦胫籴。1.2 功能需求大数据时代,面对海量的互联网数据,要充分挖掘并分析出有用的舆情信息,单纯靠小规模的舆情系统软件已不足以满足要求。必须要能够利用大数据技术,建立起海量数据中心级别的舆情数据中心,才可以支撑越来越庞大的舆情管理与应用。数据中心建设应广泛采用集群应用、分布式数据存储、分布式计算等云技术。可提供PB级的海量数据存储能力,能够利用云数据分析技术进行深度比对、关联、分析和挖掘,实现网上信息的快速发现 。 恥諤銪灭萦欢煬鞏鹜錦。1.2.1 互联网海量信息采集子系统网络媒体形式全,可以对各类网络媒体进行监测:1)门户网站:系统可采集以媒体发布为主的新闻网站的信息;2)论坛
5、:各种形式的BBS、贴吧、论坛、社区;3)博客:各博客网站的博客信息;4)微博:各微博网站信息监测;5)电子报:各类报纸的电子报的信息监测;6)问答:对问答类网站的采集;7)视频:对视频网站文字信息的采集;8)WAP:对WAP网站信息的采集;9)搜索引擎:对搜索引擎信息的聚合;10)微信公众账号采集。1.2.2 海量信息存储子系统实现海量采集文章数据(高并发)存储和相关的查询统计业务(如历史文章查询),并解决存储服务的长期运营的高可用性问题 。鯊腎鑰诎褳鉀沩懼統庫。1) 可存贮至少三个月的历史数据;2) 可通过统一的系统界面监测所有服务器的运行状况,及时发现并处理出现的任何状况;3) 具有完整
6、的容灾备份方案。1.2.3 海量信息检索子系统采用分布式并行计算搜索框架,能对T级以上索引提供7*24小时搜索服务。采用群集服务多服务器同时搜索数据,有效提高检索速度,可以达到每秒处理100万次的搜索速度。硕癘鄴颃诌攆檸攜驤蔹。1.2.4 互联网云数据分析处理子系统信息及数据处理主要是针对采集入库后的数据进行整理、处理。主要技术和功能包括:(1)漏斗式过滤技术:采用漏斗式多重过滤技术,逐层过滤掉无关干扰信息,呈现给用户精准的舆情信息和热点资讯。(2)中文分词:采用基于自然语言处理技术的中文分词技术,对全文做文本处理,为舆情分类、专题聚类、自动摘要、语义分析、检索等提供基础。阌擻輳嬪諫迁择楨秘騖
7、。(3)要素分析对所有采集信息,在抽取标题、来源网站、来源频道、发布人、发布时间、链接、正文、图片等元素后,形成结构化数据存储于舆情库中。氬嚕躑竄贸恳彈瀘颔澩。(4)数据挖掘:关键词是本系统筛选舆情信息的主要规则,此外还采用数据挖掘措施分析出重要舆情信息和有价值的敏感信息,例如:釷鹆資贏車贖孙滅獅赘。1)分析出舆情高发网站及频道;2)分析出舆情高发人群;3)推荐网民关注度高的舆情;4)筛选新词、热门话题;5)关联性分析:采用智能关联技术将与一条新闻相关的新闻、论坛评论、博客评论等信息关联到一起,帮助用户多方位地了解新闻事件的进展和其他报道情况,以及相关的网民评论等信息,全面地掌握各种相关信息。
8、 怂阐譜鯪迳導嘯畫長凉。1.3 性能需求1) 常规监测信息源数量3万个以上;2) 日均采集信息量300万条以上;3) 信息采集效率在30分钟以内;4) 数据中心数据可提供PC端、移动端等不同方式的信息检索,检索效率在5秒钟以内;1.4 其他需求1) 可针对客户要求给出详细的硬件配置方案;2) 基于数据中心的监测平台系统架构图;并详细描述所采用的技术及方法等。3) 系统部署的拓扑图;4) 可以统一管理各服务器的运行并监测其运行状况;2 技术方案2.1 翼腾云计算概述“云计算”是一个很时尚的概念,它既不是一种技术,也不是一种理论,而是一种商业模式的体现方式。“计算与数据”跷跷板的平衡已发生变化,即
9、已经到“移动计算要比移动数据要便宜的多(Moving computation is cheaper than moving data)”,透过这项技术,网络服务提供者可以在数秒之内,达成处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大效能的网络服务,云计算的关键技术:谚辞調担鈧谄动禪泻類。1. 虚拟化技术虚拟化技术是指计算元件在虚拟的基础上而不是真实的基础上运行,它可以扩大硬件的容量,简化软件的重新配置过程,减少软件虚拟机相关开销和支持更广泛的操作系统方面。虚拟化技术主要应用在CPU、操作系统、服务器等多个方面,是提高服务效率的最佳解决方案, 以PaaS为核心来构建和运营新一代的Sa
10、aS应用,通过与移动运营商合作共建SaaS舆情应用系统,解决众多中小企业舆情需求,OpenStack提供了比较成熟的PaaS解决方案。嘰觐詿缧铴嗫偽純铪锩。2. 分布式海量数据存储云计算系统由大量服务器组成,同时为大量用户服务,因此云计算系统采用分布式存储的方式存储数据,用冗余存储的方式(集群计算、数据冗余和分布式存储)保证数据的可靠性。冗余的方式通过任务分解和集群,用低配机器替代超级计算机的性能来保证低成本,这种方式保证分布式数据的高可用、高可靠和经济性,即为同一份数据存储多个副本。使用的数据存储系统是Hadoop团队开发的GFS的开源实现HDFS。熒绐譏钲鏌觶鷹緇機库。3. 海量数据管理技
11、术云计算需要对分布的、海量的数据进行处理、分析,因此,数据管理技术必需能够高效的管理大量的数据。使用开源NoSql数据库Mongodb和Cassandra解决海量文章的存储、检索。鶼渍螻偉阅劍鲰腎邏蘞。4. 编程方式云计算提供了分布式的计算模式,采用了一种思想简洁的分布式并行编程模型MapReduce。Map Reduce是一种编程模型和任务调度模型。主要用于数据集的并行运算和并行任务的调度处理,基于Hadoop集群,使用Map-Reduce解决离线数据的挖掘。另外针对流式实时运算采用并行编程模型Spout-Bolt,基于开源的JStorm集群实现实时文本挖掘。纣忧蔣氳頑莶驅藥悯骛。5. 云计
12、算平台管理技术云计算资源规模庞大,服务器数量众多并分布在不同的地点,同时运行着数百种应用,如何有效的管理这些服务器,保证整个系统提供不间断的服务是巨大的挑战。采用Nagios对众多集群进行监控,使用SALT解决大规模服务器的自动化管理。颖刍莖蛺饽亿顿裊赔泷。翼腾数据中心借助于上述5个方面的云计算技术,解决了互联网海量信息的实时检索、海量分析、推荐挖掘等问题,依托于全国众多数据中心,为多个行业、多个地域的SaaS舆情监测平台提供数据支撑,为众多企事业单位提供优质的中文信息监测服务。濫驂膽閉驟羥闈詔寢賻。翼腾已建成的数据中心使用依托阿里云云平台,每天采集互联网500W以上的海量文章信息,每个数据中
13、心的出口带宽达到10G,每天新增10T以上数据文件,使用分布式文件系统、分布式数据库存储索引、文章等相关信息,使用软件方式解决了数据可靠性问题,翼腾搜索引擎实时的返回各个SaaS平台的检索需求,能够支持上万并发请求。另外通过实时推送技术,每天推送到客户端的信息量能够达到上百万。銚銻縵哜鳗鸿锓謎諏涼。2.2 总体设计概述舆情卫士监测平台是基于大数据平台行业解决方案面向服务的整体解决方案,海量数据大都为非结构化的文本数据,使用NoSql技术和Hadoop架构进行有效结合集成,实现在采集、存储、分析、挖掘、检索、展示等方面的具体要求,并针对某个行业做深入开发,以服务的方式提供数据产品。大数据平台是在
14、大数据环境下,为满足数据处理要求而倾力打造的一款具有革命性架构设计的平台级产品。大数据管理系统由服务器集群、大数据处理软件、情报产品三部分组成,系统支持PB级海量数据管理,采用高可靠架构设计,兼容Hadoop标准,自有海量全文检索引擎系统,支持水平扩展。大数处理软件是一款完全分布式、多副本机制、数据分片的集群系统,不存在单点故障或性能瓶颈。挤貼綬电麥结鈺贖哓类。“舆情卫士监测平台”可以分为两个部分来建设。一是互联网信息数据中心平台。平台完成各类海量信息的采集、存储、检索等功能,建设完成后可以供不同用户进行舆情信息巡查。二是基于数据中心平台的舆情应用平台的建设,包括PC端及移动终端的各种舆情管理
15、与应用。赔荊紳谘侖驟辽輩袜錈。互联网信息数据中心负责从互联网各类网站进行信息采集,同时还支持其他各种信息的收集和存储,比如微信公众账号所发布信息等信息。数据中心大量进行数据采集、处理和存储,为满足不同用户及业务应用,采用分布式技术进行规划信息检索服务,提高数据检索效率。塤礙籟馐决穩賽釙冊庫。不同用户应用平台的信息都来源于数据中心,基于这些数据建立自己的应用平台,本建设实现了中心数据向多用户开放,为将来不同用户根据实际需求定制本用户的信息平台提供数据支撑和平台基础。裊樣祕廬廂颤谚鍘羋蔺。舆情卫士监测平台同样是采用大数据、移动互联网等新技术进行建设,一可以保证整体舆情工作效率,同时还为未来应用留下
16、了发展空间。舆情卫士监测平台是一个整体平台,在平台使用的基础上,基于大数据技术进行了更深一步的数据分析和挖掘。仓嫗盤紲嘱珑詁鍬齊驁。舆情卫士平台可提供PB级的海量数据存储能力,能够利用云数据分析技术进行深度比对、关联、分析和挖掘,实现网上信息的快速发现、态势研判和舆论引导,重点栏目信息1-5分钟发现报警。绽萬璉轆娛閬蛏鬮绾瀧。2.3 系统架构图特点及优势: 采用分层架构设计,每个功能都有多份系统,不存在单点故障,且可进行水平扩展; 系统采用嵌入式、多引擎技术,并满足用户定制自己的数据处理逻辑的要求; 基于索引分区机制,实现内存中高速的索引创建,海量索引数据放入磁盘,解决了快速索引的应用需求,同
17、时有效减少索引匹配范围,缩短检索响应时间;骁顾燁鶚巯瀆蕪領鲡赙。 采用多副本机制,实现了容灾备份,避免单点故障,同时也实现了负载均衡,提高并发检索能力,每份数据都至少有三块同样的数据做备份;瑣钋濺暧惲锟缟馭篩凉。 支持离线检索模式,适应大量数据检索的应用场景要求,避免了同步检索模式时消耗太多线程资源的问题; 自有缓存集群,千亿数据提取10毫秒; 大数据底层基于Hadoop,充分利用HDFS的可靠性,数据挖掘采用MapReduce分布式运算模型,解决了海量数据挖掘的数量瓶颈问题。鎦诗涇艳损楼紲鯗餳類。2.4 业务流程图数据中心系统是一个集互联网舆情采集、检索于一体的综合系统,系统通过采集互联网数
18、据,对数据进行过滤分析,向其它舆情产品推送热点数据信息。数据中心的部署实施需要建立一个舆情信息处理分布式平台和云服务器集群,内容包括服务器、存储等硬件设备,核心业务系统分别使用网络负载均衡技术及服务器群集技术实现高性能与高可用性。数据存储使用区域存储网络,并使用磁带库进行数据备份,充分保障业务数据的可靠。基础应用系统分布部署在应用服务器组中,基础服务系统服务器组部署Hadoop、Mongodb、Tomcat、HornetQ、Tomcat等软件系统,信息门户服务器组部署舆情指挥系统等平台软件,统一信息交换服务器部署数据中心程序,数据中心部署文章索引服务、文章采集服务集群,建立应用软件的数据仓库及
19、数据库系统,将关键数据集中存储在SAN存储网络之中,确保实现整个系统应用和数据的可靠性和安全性,以满足数据存储、信息处理等方面的需要。栉缏歐锄棗鈕种鵑瑶锬。2.5 数据中心简介数据中心主要包括以下子系统:互联网海量信息采集子系统、海量信息存储子系统、海量信息检索子系统、展示子系统、信息分析分发子系统、网评子系统、数据存储与容灾备份等。还包括多对微信、二维码、和视频的采集和分析处理等。辔烨棟剛殓攬瑤丽阄应。数据中心广泛采用集群应用、分布式数据存储、分布式计算等云技术。可提供PB级的海量数据存储能力,能够利用云数据分析技术进行深度比对、关联、分析和挖掘,实现网上信息的快速发现,确保重点栏目信息1-
20、5分钟发现报警;数据检索通过对分布式存储和分布式计算的采用,有效确保了在海量数据的情况下,系统的检索响应速度控制在秒级范围。峴扬斕滾澗辐滠兴渙藺。2.6.1海量互联网信息采集子系统海量数据采集子系统实现对互联网信息的采集功能,包括了前端采集信息、搜索引擎信息和人工浏览信息。采集设备可分布式部署。詩叁撻訥烬忧毀厉鋨骜。支持互联网全网信息采集,云平台可实时监测3万余个网站、超过 50万个栏目或频道的实时信息,同时还采用元搜索技术,对上百个搜索引擎的信息通过关键词搜索及采集,日均信息处理量达700万以上。则鯤愜韋瘓賈晖园栋泷。2.6.1.1通用采集技术()采用定点采集和全网搜索相结合的采集机制。定点
21、采集可确保第一时间采集到重点网站的信息,全网搜索可进行传播全面性的补充采集;1)定点采集:系统内置的50万栏目,采用定点采集方式;2)全网搜索:通过关键词对新闻类搜索引擎、论坛类搜索引擎、博客类搜索引擎、微博类搜索引擎及大型网站的站内搜索工具的信息聚合搜索;胀鏝彈奥秘孫戶孪钇賻。3)内嵌脚本执行引擎:随着Web2.0相关技术的发展,脚本语言越来越多地应用于论坛、新闻评论、博客等类型网站的建设。内嵌脚本引擎对脚本语言的自动解析和执行,实现对采用脚本语言的论坛、博客以及新闻评论网站的采集;鳃躋峽祷紉诵帮废掃減。4)7*24小时不间断采集,5分钟采集频率,信息更新扫描最小间隔为1分钟;5)对各微博网
22、站实现访问搜索。6)支持验证码采集;支持多页合并采集。(2)全媒体采集网络媒体形式全,可以对各类网络媒体进行监测:1)门户网站:系统可采集以媒体发布为主的新闻网站的信息;2)论坛:各种形式的BBS、贴吧、论坛、社区;博客:各博客网站的博客信息;4)微博:国内外微博网站信息监测;5)电子报:各类报纸的电子报的信息监测;6)问答:对问答类网站的采集;7)视频:对视频网站文字信息的采集;8)WAP:对WAP网站信息的采集;9)搜索引擎:对搜索引擎信息的聚合。10)微信公众账号采集实现对微信公众账号信息的监控和数据采集。系统可自动添加对微信公共账号的关注,形成微信公众账号库,实现对公共帐号信息的实时采
23、集。稟虛嬪赈维哜妝扩踴粜。2.6.1.2互联网信息采集通过自动识别技术识别并抽取网页的要素,包括:标题、来源网站、来源频道、发布人、发布时间、链接(URL)、正文、图片、快照、表格,自动剔除广告(图片或flash)等垃圾部分,存储为统一的结构化信息,供后续分析、检索、查询、统计和展示。陽簍埡鲑罷規呜旧岿錟。海量子系统实现海量采集文章数据(高并发)存储和相关的查询统计业务(如历史文章查询),并解决存储服务的长期运营的高可用性问题。沩氣嘮戇苌鑿鑿槠谔應。利用MongoDB来一体化解决采集文章数据(高并发)存储和相关的查询统计业务(如历史文章查询),并解决存储服务的长期运营的高可用性问题。具体包括:
24、钡嵐縣緱虜荣产涛團蔺。(1)解决海量文章信息存储问题(高并发写、高速查询、高速统计分析);(2)解决海量文章检索问题(高并发写、高速查询、统计分析);(3)解决存储服务高可用性问题(如负载均衡、线性扩容、故障转移、灾备恢复、服务监测等);最终目标:简化现有平台业务流程,减少故障节点,提高存储服务的高可用性。2.6.2海量信息检索子系统采用Lucene+Hadoop分布式并行计算搜索框架,能对T级以上索引提供7*24小时搜索服务。采用群集服务多服务器同时搜索数据,有效提高检索速度,可以达到每秒处理100万次的搜索速度。懨俠劑鈍触乐鹇烬觶騮。文章经由采集服务器采集,发送到消息队列中,搜索客户端获取
25、文章内容,实时建立索引,并对外提供实时数据检索服务。对于海量数据建立索引,使用基于Hadoop Mapper/Reducer分布式运算建立索引。然后把建立的索引从HDFS分发到各个索引服务器。謾饱兗争詣繚鮐癞别瀘。因为采集系统采集的网页比较多,每天采集的数量至少在100万篇,所以在索引设计时需要考虑到不同资源的需求,这里面至少有两个因素需要考虑,一个是时效性,另一个是数据量。呙铉們欤谦鸪饺竞荡赚。时效性指的是一个资源的数据从修改到生效需要的时间,时效性高表示生效时间短,有的资源甚至需要立即生效;而生效时间长的资源也会分成很多档次,有小时级的,有天级的,甚至有更长时间的静态资源。数据量指的是一个
26、资源的数据规模,从最小的数千条到千万级甚至亿级,不同数据量级别的资源会用不同的方式进行索引构建以及索引检索。以下简单列举了不同时效性和数据量条件下的索引方式:莹谐龌蕲賞组靄绉嚴减。实时索引需要实时支持索引的增加以及删除操作,更新操作可以看作是删除操作和增加操作的组合。对于数据量小的资源,可以将索引完全放入内存,在内存中建立倒排索引,增加操作可以直接在索引拉链的末端添加新的doc_id,注意这里的doc_id是全局分配的,保证索引拉链按照doc_id的升序排序;对于数据量比较大的资源,由于索引无法完全放入内存,需要建立文件索引,但由于文件索引的紧致压缩的特点,无法实时地在倒排拉链中添加doc_i
27、d,在这种情况下,解决时效性问题可以有两种办法,一种是尽量缩短建索引时间,例如基于map-reduce的分布式建库技术可以将千万级别的建库时间缩短到10分钟以内,这种索引我们称为伪实时索引;另一种比较复杂的方式是混合索引,即索引的增量部分存于内存中,在检索时需要将内存索引和文件索引合并,这种方式在做检索时处理较复杂,数据中心搜索主要采用的是伪实时索引方式处理大数据量、高时效性资源数据。麸肃鹏镟轿騍镣缚縟糶。对时效性低的数据也有不同的处理方式,对于数据量比较小的资源,单机索引能完全涵盖,此时只需要周期性的构建索引然后进行索引切换就可以了;对于大数据量的资源,单机索引无法涵盖,索引必须分布到多台机
28、器上,数据中心搜索现在是按照doc_id进行切分,一个doc对应的所有term都会分布到同一台机器上。納畴鳗吶鄖禎銣腻鰲锬。数据中心搜索的索引构建流程。对实时内存索引,增加、删除索引都是实时流,但是频繁索引修改会导致索引拉链碎片增多,需要有专门的任务定时整理索引拉链,一方面是清理碎片,紧致排列索引拉链;另一方面也需要对过长的拉链进行截断。对文件索引,使用分布式建库是个非常高效的方法,数据中心搜索的文件索引建库主要是采用这种方式。風撵鲔貓铁频钙蓟纠庙。2.6.3大数据分析处理子系统互联网云数据分析处理子系统包含信息及数据处理和舆情分析。大数据时代,对数据的解释是关键。目前,数据的可获得度已经空前
29、提高,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,实现真正的大数据挖掘和分析。数据的海量、及时、动态、开放,有利于我们完善分析的效度和深度。同时,大数据也有价值密度低、传播速度快等特点,数据分析的模式是否科学,这将直接影响数据分析的质量。大数据的异构和多样性,需要舆情分析人员对一些危机事件进行高质量的数据解释。基于数据分析,能否提炼出独到、高质量的观点,在凌乱纷繁的数据背后找到更符合客户要求的舆情产品和服务,并进行针对性的调整和优化,这是大数据时代舆情最大的变量。灭嗳骇諗鋅猎輛觏馊藹。大数据时代,对趋势的研判是目标。大数据的核心和目标就是预测,具体到舆情服务,舆情工
30、作人员从互联网浩如烟海的数据中挖掘信息、判断趋势、提高效益,虽然获得广泛且实际的应用,但还远远不够。舆情分析人员要不断增强关联舆情信息的分析和预测,把服务的重点从单纯的收集有效数据向对舆情的深入研判拓展,跟踪关联舆情,不再局限于危机解决,还要辅之以决策参考,从注重“静态收集”向注重“动态跟踪”拓展,从致力“反映问题”向致力“解决问题”拓展,使舆情产品和服务“更高、更快、更强”(视点高、预警快、处置强)。铹鸝饷飾镡閌赀诨癱骝。2.6.3.1信息及数据处理信息及数据处理主要是针对采集入库后的数据进行整理、处理。主要技术和功能包括:(1)漏斗式过滤技术:采用漏斗式多重过滤技术,逐层过滤掉无关干扰信息
31、,呈现给用户精准的舆情信息和热点资讯。(2)中文分词:采用基于自然语言处理技术的中文分词技术,对全文做文本处理,为舆情分类、专题聚类、自动摘要、语义分析、检索等提供基础。攙閿频嵘陣澇諗谴隴泸。(3)要素分析对所有采集信息,在抽取标题、来源网站、来源频道、发布人、发布时间、链接、正文、图片等元素后,形成结构化数据存储于舆情库中。趕輾雏纨颗锊讨跃满賺。(4)数据挖掘:关键词是本系统筛选舆情信息的主要规则,此外还采用数据挖掘措施分析出重要舆情信息和有价值的敏感信息,例如:夹覡闾辁駁档驀迁锬減。1)分析出舆情高发网站及频道;2)挖掘文本中的重要信息,如联系电话、QQ号码、邮件地址等信息;3)分析出舆情
32、高发人群;4)推荐网民关注度高的舆情;5)筛选新词、热门话题;(5)关联性分析:采用智能关联技术将与一条新闻相关的新闻、论坛评论、博客评论等信息关联到一起,帮助用户多方位地了解新闻事件的进展和其他报道情况,以及相关的网民评论等信息,全面地掌握各种相关信息。视絀镘鸸鲚鐘脑钧欖粝。2.6.3.2舆情及敏感信息分析舆情分析技术是用于舆情信息分类和判断,按照关注的人物、地域、单位、事件、主题等要素进行舆情分类,并对敏感舆情的传播情况包括传播源头、发布人、传播媒体、传播内容、传播路径进行抽取和分析,提供各类统计数据和图表,掌握舆情事件在网络中传播的全貌。偽澀锟攢鴛擋緬铹鈞錠。(1)分类技术:系统内置一套
33、较为科学和完整的舆情分类体系,通过自动分类技术,对用户关注的敏感信息和国计民生的各个重点领域进行实时监控,及时发现负面、有害信息。系统还提供灵活的多维度信息分类自定义设置,展示给客户丰富的舆情分类浏览:緦徑铫膾龋轿级镗挢廟。1) 按主题分类:按关注主题自定义分类,如政法、医疗卫生、教育等,进行常规的监测过滤分析;2) 按照特定的人物分类:设置关注人名,包括党政机关领导人、政治人物或敏感人,对人的网络活动进行分析;3) 按网站性质分类:按照网站性质如新闻、论坛等方式分类信息;4) 按特定的机构:设置各级国家党政机构,以及特定地区的机构;5) 按照地域分类:按照地域提取各地舆情;6) 按关注网站分
34、类:设置关注的网站分析相关信息;7) 按有害信息:如法轮功、色情、民运等反动信息;8) 按定制搜索分类:设置关注网站和关键词规则进行过滤分析。敏感信息分析技术:负面敏感信息分析是本系统最重要的功能之一,通过预警功能在第一时间将负面或敏感信息告知用户。(1)热点发现与跟踪热点自动发现:自动识别热点新闻事件,发现网民的关注焦点和热点,提供1天、3天、7天等时间序列的符合用户精确度要求的分类热点排序。騅憑钶銘侥张礫阵轸蔼。热点自动追踪:对热点信息的持续追踪,并通过趋势分析图和传播链分析图等技术帮助用户了解热点事件的报道趋势。疠骐錾农剎貯狱颢幗騮。网络热词自动挖掘:从互联网寻找热度较高的短语,如人名、
35、地名、机构名和其他常见短语,并收录入词库。(2)专题分析技术:专题分析技术用于分析舆情事件或热点事件在网络中的传播情况。根据用户设定的专题条件,自动聚合该专题的相关信息,并对传播媒体、每日传播情况,分析指标包括:镞锊过润启婭澗骆讕瀘。1) 总传播量及每日、每时段传播量、设定时间内的传播量及发展趋势;2) 来源报道分布:新闻报道篇数、主贴数、回贴报道数、博客报道数;阶段性传播媒体类型分布;3) 汇总发布网站、媒体及个人网络ID;4) 分析专题设计的热点人名、地名机构名;()趋势分析及预警:根据结构化信息分析热点话题、敏感主题在不同的时间段内,网友和媒体的关注程度,对舆情事件进行跨时间、跨空间综合
36、分析,以图表方式展现主题事件信息量趋势,获知事件发生的全貌并预测事件发展的趋势。榿贰轲誊壟该槛鲻垲赛。提供实时信息预警机制,可将短时间内发生的突发热点事件以及敏感新闻通过邮件或者APP预警通知用户。()舆情事件语义分析中心可对主要舆情事件网民观点进行语意分析处理,自动分析主要舆情事件网民观点类型、归纳总结相同观点、统计各观点网民数量、分析网民观点发展走势等。邁茑赚陉宾呗擷鹪讼凑。2.6.4用户权限管理(1)身份认证:基于数字证书,采用高强度的加密和数字签名技术。身份认证系统分为客户端和服务器端两部分,服务器端配置有用于标明平台系统服务器身份的数字证书;客户端则需要登录用户使用本人的数字证书,并
37、能够与浏览器实现无缝的结合。嵝硖贪塒廩袞悯倉華糲。(2)Web 环境的单点登录。 用户必须登录而且只需登录一次,系统可与 Web 应用集成,将一个用户的登录信息传送给各个应用系统,访问授权访问的基于 Web 的资源和应用。该栎谖碼戆沖巋鳧薩锭。(3)集中的安全策略管理。建立一个整体的安全管理策略。所有安全策略的定制、修改和删除等操作都通过统一的平台来完成,从而达到统一管理内部安全策略的目标。劇妆诨貰攖苹埘呂仑庙。(4)访问的记录和审计。系统使用标准格式记录所有的访问尝试并生成易读的报告,并可以安全地被传输到数据库系统之中,通过这些数据可以实现审计、跟踪和取证。臠龍讹驄桠业變墊罗蘄。2.6.5安
38、全子系统实现数据的安全流转和系统安全。(1)客户端安全:结合用户实际需求采取加密机制组合:唯一的用户名和加密密码、用户名。采用帐号(用户名)唯一登陆机制鰻順褛悦漚縫冁屜鸭骞。(2)应用系统的访问采用HTTPS加密传输协议。HTTPS在用户客户端和服务器间建立了一个信息安全通道,保证数据传输的安全,防止数据在中途被窃取,维护数据的完整性,确保数据在传输过程中不被改变。穑釓虚绺滟鳗絲懷紓泺。2.6.6 手机舆情 ( APP )舆情卫士手机客户端是翼腾信息联合安徽省移动推出的一款方便手机用户随时随地查阅关键词舆情订阅服务的应用,目前公司已建云计算运营中心,并以此为依托,利用云技术队海量信息库进行高效搜索并对各种新闻博客等网站进行垂直抓取,为政府、企业及个人提供精准有效的互联网信息服务。隶誆荧鉴獫纲鴣攣駘賽。舆情卫士手机客户端实现了PC用户端和手机端的无缝链接,7*24小时全天候监测,互联网信息全网搜索,每日为您实时的提供舆情信息并舆情预警信息。浹繢腻叢着駕骠構砀湊。2.6.7 成功案例宣传部:望江县宣传部、大观区宣传部、怀宁宣传部、南陵宣传部、庐江宣传部.消防:芜湖消防支队、蚌埠市消防支队、五河县消防、怀远县消防、宣城消防支队.烟草:池州烟草局.财政局:裕安区财政局.教育局:宁国教体局.风景区:九华山风景区.企业:宣酒集团,迎驾集团.