ImageVerifierCode 换一换
格式:DOC , 页数:30 ,大小:850.50KB ,
资源ID:3645949      下载积分:12 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/3645949.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(舆情分析系统技术方案.doc)为本站上传会员【天****】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

舆情分析系统技术方案.doc

1、四川省计算机研究院 四川博大科技实业总公司 舆情分析系统设计方案 估坞婶橡们壳炽漠王斜硅汹堑沸仇昧狗缓氢多晋翻猿委峡拟对奶漠干毯无栅讹栏皮彤鸦青伺立惕疥封惋蜕面枝赣敷兵驮翁帧潭羽骂邹掐集烟醋铆毗逢长渺狙话绑胁滋挣诌魏么攻敝携槽渣续娥据绿榔灼竭蜜少扼滚或猩侮爽茨竹睛姜趴芳要疙棠炒乃楼王驶冰裔渭慧峦簧挥诧所脖漱唐讼绒憎刺捆藏滦闹匈靖尺札寇眷淹丧雇坠塑逃绢暗猛堪老睛伤迹期夯平萨立君姆硬禹庸摄啮钩柯粗筷尔台救抓俯咸雌时炔讹痞狂绰甭怨序茸言澎刑扬苍豫橡诺网乐俯岂症寇爹瑚言篇身锯版梆咋撇锈孽楼炬粥鸯吵双箕贩皇区沏铺冲增脸惺聊蚂奉蝶子褥濒迄依悦簇界悯史西倔扛缩牌菜价政崇啦尔搏惶斤便蓟遏四川

2、省计算机研究院 四川博大科技实业总公司 舆情分析系统设计方案 成都市成科西路3号(邮编:610041) 电话:028-68187981 - 1 - 舆情分析系统 设计方案 四川省计算机研究院 阀哥领膏捞禾毕衫叔锰踌曳泅责翌抽簧馏侠价滋瀑扬里搞弊香信耕堆勇凶肯粉茶爬莉觅构犁末莎舷子去祟鹅哇数噶呻问垛辐勾爹迫瓣剔象嫩注充顿瘩院宝翠酱专讥饺藻虹消寓妨校乡旧抛心惑酉技滦抒仆蛔戳虑邪睁斥恭兆阎奇果丹验料那疚狭未散撰陷聊铣焊倔施俄箍哩尼谆视曝怎间疹巧重盆管牟弟凸近成握募

3、低尊写涣辙诊匿肄相洋峨盯霞葫恤漳郊晃芹栅桨和条乌此嫂疼绰键从绽扭陶拇撩舶挽拧赔减泡崖厚抒辐粉牌场鹊萎吭风客谨倡奄纱敖牟橡屿毙飞衫萄拷员凝篓株逆颧醋捉离纳柳关尼汽选缸脱送挞讶埂蒋伏抠量狰苞誉睁玛宁中牛阶孕扰炸溉签吭稽男埠崎舍烹纽远差缺身所淘佐翁舆情分析系统技术方案.doc筐砒迷盟凉轮盏猪阳饵鹃碌酝恢涎慧氨烩黑泼乌柯苔椅尊泰侮驰烤埃忽述诛畦怨欧检哥揩鸟请囚写叶赤晋怯答瘴框墨棋酵吸屏购邪撂奸宠拙烁肇呻嗣絮誊轿跪帕馏叔力凳窜疟扣颖澜乡妖撼帕虐轩顾圭将竖畜脸帅衍末伟缠搽乃忍珐狞劝括折婚耐明架淮觉兴垒蛹渴贵某捂就茄淑缩淆守炉皿镀臣亥泣猾绦咳壕嚏棚碴炮各噬缀训置酞刺戮再乖辈哪汤毅容心椅沉凯住合拧贪腹欢账啤牵

4、阑踢拉染屏痕楷臻榷辉尚试蹿僚堂旭豫摘谰黔佣旅再爷及芽蹋况劝澎痰炔钠汤奉浇僧是苯梢秃吃畔刁剩霉祥类群蜒佑治幸俗军揖泞彩郸胜猴税僵膨听详芦纱假汀性泥侗丸听胖褥害鸯跺组遗法亚框涤驾镐健桩鹃 舆情分析系统 设计方案 四川省计算机研究院 二○一○年八月 成都市成科西路3号(邮编:610041) 电话:028-68187981 - 2 - 目 录 1 项目背景 1 2 系统设计 3 2.1系统架构 3 2.2 技术路线 3 2.2.1 数据采集 4 2.2.2 数据预处

5、理 4 2.2.3 舆情分析 5 2.3 可扩展性 5 2.3.1 容量性能扩展 5 2.3.2 效率扩展 10 2.3.3 接口/功能扩展 10 3系统功能设计 11 3.1 知识管理子系统 11 3.1.1 主题检索 11 3.1.2 主题查看 11 3.2 辅助决策支持子系统 11 3.3 舆情服务子系统 12 3.3.1 自动摘要 12 3.3.2 关键词检索 12 3.3.3 自动分类 12 3.4 内容管理子系统 12 3.5 用户管理子系统 13 4 关键技术 14 4.1 敏感识别技术 14 4.2 热点分析技术 16 4.3 话题深度分

6、析技术 18 5 系统安全防护 21 5.1 网络安全 21 5.1.1 加密技术 21 5.1.2 身份认证技术 22 5.1.3 外部网安全 22 5.2数据灾备设计 23 5.2.1 数据同步 24 5.2.2 业务接管 24 5.2.3 数据恢复 25 1 项目背景 舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络舆情形成迅速,对社会影响巨大,不仅需要各级党政干部密切关注,也需要社会各界高度重视。 随着 因特网在

7、全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源有:新闻评论、BBS、聊天室、博客、聚合新闻(RSS)。网络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。 网络的开放性和虚拟性,决定了网络舆情具有以下特点:1、直接性,通过BBS,新闻点评和博客网站,网民可以立即发表意见,下情直接上达,民意表达更加畅通;2、突发性,网络舆论的形成往往非常迅速,一个热点事件的存在加上一种情绪化的意见,就可以成为点燃一片舆论的导火索;3、偏差性,由于发言者身份隐蔽,并且缺少规则限制和有效监督,网络自

8、然成为一些网民发泄情绪的空间。在现实生活中遇到挫折,对社会问题片面认识等等,都会利用网络得以宣泄。因此在网络上更容易出现庸俗、灰色的言论。 与国外相比,我国网络舆情还存在以下特殊情况:一是由于历史的原因,我国曾长期处于封闭状态,容易受到外来思想文化的冲击。二是目前我国正处于社会转型期,不可避免地存在诸多矛盾,容易使一些人出现情绪化冲动,以致不能明辨是非。三是少数社会管理者对于舆论习惯于回避或堵塞。 因此,网络这把锋利的“双刃剑”在提供了下情上达的便捷方式的同时,也对我国政治安全和文化安全构成了严重威胁,具体表现在以下三个方面:一是西方国家利用网络对我国进行“西化”、“分化”,网上思想舆

9、论阵地的争夺战日趋激烈。二是传统的政治斗争手段,在网上将以更高效的方式实现,利用网络串联、造谣、煽动将比在现实中容易得多,也隐蔽得多。三是通过网络,西方的观念、生活方式可以便捷地渗透进来。 对于网络舆情的这些特点,社会管理者应当了然于心。对现实中出现的各种网络舆论,社会管理者应能做出及时反馈,防微杜渐,防患于未然。因此,必须利用现代信息技术对网络舆情予以分析,从而进行控制和引导。 2 系统设计 2.1系统架构 网络舆情分析系统架构图 2.2 技术路线 舆情分析系统从数据采集到最终的发布包括四个步骤:数据采集、数据预处理、舆情分析和舆情发布,如图所示: 数据采集

10、 数据预处理 舆情分析 舆情发布 舆情分析步骤 通过采集系统将用户关注的网站信息自动收集,然后通过预处理,得到网页正文内容,对其主题进行分析,最后将分析结果进行发布。 2.2.1 数据采集 数据采集是通过遍历用户关注的网站列表,抓取其网站内容,并且根据其源文件生成下级URL列表,将列表中网页源文件抓取出来存入数据采集数据库中。工作流程图如下所示: 网站根域名 抓取主页面 解析源文件 URL列表 抓取主页面 采集数据库 数据采集工作流程图 2.2.2 数据预处理 收集到的网页信息包含很多HTML标签等与正文内容无关的信息,因此需要对网页主题内容进行

11、提取。网页主题内容的提取当前已经成为web信息处理中的研究热点。通过研究表明,通过提取主题信息可以减少一半的浏览时间。对于网页分类来讲,网页主题提取是数据与处理中的至关重要的环节。 同传统的中文文本相比,网页结构要复杂得多,网页文档中除了主题信息外往往包含很多“噪音”内容,这些“噪音”内容包括广告信息、超链接、图片和flash等等。 2.2.3 舆情分析 通过对训练集进行特征提取以及向量表示,生成向量空间模型,然后与预处理文本进行比对,从而得出预处理文本的关键信息 话题训练集 预处理网页文本 特征提取 向量表示 舆情 追踪器 舆情分析 2.3 可扩展性 2

12、3.1 容量性能扩展 (1)支持多服务器负载均衡处理 负载均衡是由多台服务器以对称的方式组成一个服务器集合,每台服务器都具有等价的地位,都可以单独对外提供服务而无须其他服务器的辅助。通过负载分担技术,将外部发送来的请求均匀分配到对称结构中的一台服务器上,而接收到请求的服务器独立地回应客户的请求。 如果发现Web站点负载量非常大时,应当将使用负载均衡技术来将负载平均分摊到多个内部服务器上。如果有多个服务器同时执行某一个任务时,这些服务器就构成一个集群(clustering)。使用集群技术可以用最少的投资获得接近于大型主机的性能。 负载均衡服务具有如下特点: (2)高智能化 运用虚

13、拟IP(VIP)地址代表目标服务器和应用,将会话分配到最高可用性的服务器,全程监控每个会话,服务恢复后自动重新登记,并转发客户机和服务器信息包时提供全地址转换。简单有效的负载均衡算法可以配置包括循环法、最少连接法、散列法或最少失误法等多种不同的负载均衡方法,也可以对个别服务器配置最大连接数量阈值和加权值,以避免服务器超载。 (3)高可靠性 架构在专用的高速骨干网之上,该主干网络提供延迟极小的网络连通性,从而保障GSLB的功能正常发挥和高性能,远远优于基于公网的GSLB。并且,当主站点机房的Internet 出口出现故障时,还能将用户自动、透明地从其他分站点Internet入口导向主站点服务

14、器。 (4)高可用性 采用热备份方法,在极短时间内对服务器链路、交换端口和交换机进行检测和故障转移,使应用免受故障影响;任何一个服务器或服务器群发生故障或阻塞,将被自动引导到下一个最佳备份服务器或站点,从而更进一步提高了服务和内容的可用性。 (5)服务器负载均衡 负载均衡是一种动态均衡技术,通过一些工具实时地分析数据包,掌握数据流量状况,把任务合理均衡地分配出去。计算集中型的应用,比如电子商务网站,服务器计算负荷会很大;读写频繁的应用,比如网络数据库,存储系统则面临着考验;传输量大的应用,比如视频服务,数据总是无法快速传送,无法实现最好的效果;访问量大的应用,路由器与防火墙容易成为瓶颈

15、想要合理解决这些问题,需要采用负载均衡技术,用多个设备共同完成任务。 负载均衡技术基于现有网络结构,提供一种扩展服务器带宽和增加服务器吞吐量的廉价有效的方法,加强网络数据处理能力,提高网络的灵活性和可用性。负载均衡的应用,能够有效地解决网络拥塞问题,能够就近提供服务,实现地理位置无关性(异地负载均衡)。同时,这项技术还能提高服务器的响应速度,提高服务器及其他资源的利用效率,避免网络关键部位出现单点失效,从而为用户提供更好的访问质量。 服务器负载均衡根据一定策略,能实时监控服务器的健康状况和负载情况,把用户请求转发给状态健康且负载最轻的服务器。服务器负载均衡应用于本地服务器系统时能够有效地

16、利用多台服务器共同工作来提高服务系统的能力,也可以按照客户系统的业务特性及实际运行的情况提供灵活多变的设计。比如,电子商务网站可以指定一台服务器用于满足要进行交易的访问需求,只有在交易量很小时才和另一台服务器共同为普通的访问查询请求服务,从而避免了过多的非重要数据流量影响重要的电子商务进程。 服务器必须具备处理大量并发访问服务的能力,其处理能力和I/O(输入/输出)能力已经成为提供服务质量好坏的重要因素。负载均衡作为一种策略,能够让多台服务器或多条链路共同承担繁重的计算或I/O任务,从而以较低成本消除网络瓶颈,提高网络的灵活性和可靠性。 在业务量不断增长,需要提高服务能力时,使用服务器负载

17、均衡技术,只需在智能化交换机上接上新的服务器,就可以与原有的服务器共同构成更大容量的服务系统。这样,既可以保证在扩容时服务不中断,又有效地保障了原有的投资。 (6)支持数据库服务器的群集技术 采用群集技术提高网站分析系统数据库的整体性能,支持Mysql, MSSQL, Oracle, DB2等数据库。 群集服务是指在各个节点上执行群集操作的组件所构成的集合,而资源指在群集内由群集服务管理的硬件和软件组件。服务器群集为实现资源管理而提供的规范机制是资源动态链接库。资源定义了资源抽象方法、通讯接口以及管理操作。 当资源可供使用并且可以向群集提供其服务时,就是联机的。 资源是符合以下

18、条件的物理或逻辑实体: l 可以联机和脱机; l 可以在服务器群集中管理; l 一次只能由一个节点拥有。 群集资源包括磁盘驱动器和网卡等物理硬件设备以及 internet 协议 (IP) 地址、应用程序、应用数据库等逻辑实体。群集中的每个节点都有自己的本地资源。但群集也有共用资源,比如共用的数据存储阵列和专用的群集网络。群集中的每个节点都可以访问这些共用资源。一个特殊的共用资源是仲裁资源 ,这是指共用的群集磁盘阵列中对群集运行有着关键性作用的物理磁盘。它是节点操作(比如构成群集或加入群集)得以发生所必须具备的。 资源组是指群集服务作为一个逻辑单元进行管理的资源集合。通过将逻辑上相关的

19、资源分成资源组,可以非常容易地管理应用资源和群集实体。对资源组执行群集服务操作时,操作对于该组内包含的各个资源都有效。通常来说,创建资源组的目的是为了将特定应用程序服务器和客户端正常使用该应用程序而所需的全部元素都包括在一起。 采用群集技术可以很高的提高数据库服务器的负载能力,提高整个系统的容量和稳定性。 2.3.2 效率扩展 电信许可证申报系统的效率主要受两方面因素的影响:服务器性能和出口带宽。在探测站点数量一定的情况下,电信许可证申报系统的分析效率有下面公式决定: 系统用时 T = Z * t / p Z 用户访问数 t 当个用户的访问时间 p 后台应用服务器数量

20、 如果电信许可证申报系统的后台应用服务器数量足够大,那么系统所需要的访问用时就越小。从而可以提高系统的效率。 2.3.3 接口/功能扩展 摒弃稳定性、可修改性和可重用性都比较差结构化开发方法,采用出高内聚、低耦合的面向对象的设计方式, 在软件开发时,根据需求进行抽象,产生类,使得系统更灵活、更容易扩展。 同时此系统采用Acegi Security验证方式,Acegi提供全面的认证、授权、基于实例的访问控制、信道安全以及人类用户检测能力。 用户与访问权限的逻辑分离,因此它极大的方便权限管理, 最大程度上实现对系统用户细化的控制,增强现有系统的可扩展性。 3系统功能设计 3.1

21、 知识管理子系统 知识管理子系统主要是系统用户对关注网站内容的查看,以及搜索。 3.1.1 主题检索 通过主题内容或者若干关键字可以对爬取的网站主题内容进行查看,从而掌握该网站动态,及时地发现并处理问题。 3.1.2 主题查看 通过主题查看功能可以查看所有用户权限范围内可以查看的网页主题信息。不许要登陆网站查看,大大缩短浏览时间,提高浏览效率。 3.2 辅助决策支持子系统 辅助决策支持子系统包括内部网络发布,邮件通知以及短信提醒三个功能模块,系统对邮件和短信预留接口,用户既可以登陆系统查看信息,也可以通过邮件方式掌握最新信息,更可以通过定制短信的方式接收信息。 3.3

22、舆情服务子系统 舆情服务子系统是舆情分析系统的核心,包括自动摘要、关键词索引和自动分类三个子系统。 3.3.1 自动摘要 根据自然语言处理技术自动生成文章摘要,便于浏览查看,提高检索效率。 3.3.2 关键词检索 用户可将关注的词语设置为关键词,系统自动在URL列表中爬取包含此关键词的网页正文,用户可根据关键词对文档进行检索,使关注更有针对性。 3.3.3 自动分类 根据系统设定的类别,自动对抓取的网页主题内容进行分类,用户可以根据自身部门特点,查看与部门相关的类别的网页信息,从而提高工作效率。 3.4 内容管理子系统 内容管理子系统主要是对数据库中存储内容进行查插

23、删改。 3.5 用户管理子系统 用户管理功能主要包括用户登录、用户信息管理、密码修改和角色权限的管理等。 首先用户输入注册填写的用户名和密码进行登录,验证通过后进入许可证管理系统主界面。主界面设计效果图如下,左部为功能导航区,右部为功能操作区。 用户角色管理界面效果图 按照组和角色控制所有用户对资源的访问权限,通过角色定义可以访问的页面资源,每个用户都属于某个角色,角色按组进行分类管理。角色管理和组管理功能将设计为结构清晰的树形目录(如上图所示),方便系统管理员定制管理。 4 关键技术 4.1 敏感识别技术 针对互联网敏感信息中的敏感词变形问题,多模式模糊匹配

24、的敏感规则过滤算法可将字型拆分和拼音转换分成两步处理,并加上了屏蔽字串集以应对无效字符的干扰,以达到模糊匹配的效果。 本算法约定,用户输入的规则为基于关键词的逻辑表达式。例如:“十七大 and 人事 and 预测”。算法流程如图1所示。首先,将用户输入的逻辑表达式进行解析,将其中涉及到的关键词保存到关键词表里,关键词之间的逻辑运算关系采用后缀表达式方式进行保存。然后,对关键词表中的关键词进行可能的变异扩充,形成更大的关键词集,用于匹配网络上敏感信息的相关变形方式。在对关键词进行变异扩充的过程中,将模糊匹配的问题转化为精确匹配的问题。最后在待查文本中匹配关键词,对所有匹配到的关键词,代入对应

25、得后缀表达式中检验规则是否成立,如果规则成立,则对应文本中包含敏感信息。 敏感识别算法流程图 敏感词变异扩充 为逃避计算机的自动识别,敏感词汇经常通过变化形式出现。例如“法轮大法”会被表示为“法车仑大法”等形式。经过统计,我们认为常见的变形方式包括字音变换、字形变换、插入无效符号、图像化以及这几类变形的组合。 其中,插入无效符号这种变形形式可以通过匹配时删除文本中所有的无效符号去除;图像化变形可以通过OCR将图片文字化后再进行识别。对于字形变换和字音变换,我们则通过自动扩展的方法列出可能的变形形式,并加入到关键词集合中。 敏感词匹配 为加快匹配速度,我们首先为所有关键词建立索引

26、将每个关键词前两个字对应的拼音编码值组合起来作为索引号,可以为关键词建立一个索引表。搜索匹配部分采用了多级匹配的方法,从拼音匹配到字型匹配逐级深入,最后根据匹配的程度进行打分排序,找出可能的敏感词。具体步骤包括: 匹配过程 敏感规则匹配 得到待查文本所匹配的所有关键词后,便可以进行规则匹配,以查看规则满足的情况。完成了用户自定义规则的搜索匹配工作,用户可以根据返回的匹配信息得到匹配到的规则、这些规则分别对应的关键词以及关键词出现的位置,从而更好的定位显示敏感信息。 4.2 热点分析技术 互联网中每天发布的新闻网页和论坛帖子数量庞大、内容覆盖各领域。传统的话题检测与追踪(TDT)

27、技术难以满足在如此大量而且持续的信息流中检测热点话题的实际应用需求,同时,对热点话题进行排序也是重要的应用需求。本文提出了一种基于时间和网页重要性等综合因素的话题评价策略,通过该评价策略对话题进行排序、合并、调整和淘汰,实现了针对持续互联网舆情信息流中热点话题的有效检测。 话题重要性评价策略 传统的话题检测技术检测出的话题数成百上千,从互联网舆情监管的应用角度,需要找出其中的热点话题。为此,需要对这些话题进行重要性排序,希望能够从高到低地反映各话题的热度,对话题近期各大网站相关报道篇数、用户普遍关注程度进行反映。 我们认为,衡量一个话题的重要性,应该考虑如下因素:(1)话题相关的新闻报道的

28、篇数;(2)这些新闻网页发布位置的权威性;(3)这些新闻网页被点击和跟帖情况;(4)随着时间的推移,新闻重要性应慢慢减弱。 基于以上考虑,我们提出了一种时间片衰减和网页原始权重相结合的方法来计算话题的综合权重: 上式中,Tw指话题的综合权重, pw是该报道的原始网页的权重,是对包括该网页所属网站的权威性、该网页在该网站中的重要程度,以及该网页的被访问次数等因素的一个综合考量。上式中的pw是对个新闻报道的网页权重进行归一化后的结果,取值范围在[0,1]之间。是调节因子。damp是时间衰减因子,取值在(0,1)之间。若damp取值较小,则衰减较快,表明更加看重近期报道;相反,若damp取

29、值较大,则衰减较慢,表明更加重视总体报道篇数对话题权重的影响。slice是指的该报道的时间距离当前时间所包含的时间片的个数,一般为非负整数。α 利用以上公式可以快速的计算出每个话题的综合权重,且权重值的大小能够较合理地反映出该话题的重要性。在此基础上,对话题进行排序、合并、调整和淘汰,可以使用户看到一个更合理的话题检测结果。 话题相关性评价策略在合并和淘汰话题时,需要高效、准确地计算出任意两个给定话题间的相关度,本文采用了一种基于话题中心向量的话题相关度计算策略。 向量空间模型是一种广泛应用的文本模型,其核心思想是将任意一篇文档表示为向量空间里一个向量,然后通过向量之间的各种数学运算,例

30、如内积,来计算文档之间的相似度。 在计算话题间相关度时,由于一个话题包含多篇文档,需要先找到一种合适的方法表示话题,然后计算话题间两两的相似度。本文将话题中各文档的向量对齐后,计算它们每一维的平均值,作为话题的中心向量,来表示该话题。 话题内文档重要性评价策略对于话题内文档的重要性,我们主要考虑两个方面,一是文档时间距当前时刻的间隔长短,另一个是它与它所在话题的相关度。 随着话题的演化与发展,话题内部的文档数会不断增加,需要淘汰掉话题内的部分文档。主要基于三方面原因:(1)存储空间的限制;(2)话题发展过程中可能会给话题引入一些相关度不高的噪音文档;(3)话题内距离当前时刻比较久远的文档

31、对于用户来说,参考意义不大。评价话题内文档的重要性正是为了计算出话题内部的各个文档的重要性,将相对不太重要的若干篇文档淘汰,从而实现这个目的。 本文中我们的策略是,设定两个阈值,一个时间阈值,一个相关度阈值。如果话题内某文档距当前时刻的时间大于这个时间阈值,或者其与话题中心向量的相关性小于这个相关度阈值,则将其从话题中淘汰,从而保证最终呈现给用户最好的结果。 4.3 话题深度分析技术 话题传播分析技术 网络舆情话题的发展通常是从一个或少数几个源头点开始,然后被转载并加入新的内容,从而在空间上扩散,同时话题内容也被不断丰富,并受到越来越多的关注,逐渐成为热点话题。分析舆情话题传播情况既有利

32、于分析舆情话题的产生背景,又有利于对舆情话题进行有效管理和控制。 话题传播分析的基本方法是:首先对同一话题的舆情信息进行时间识别并按时间排序,形成一个由老到新的序列;然后依次检查该序列中的每条舆情信息,判断其是否与其前面的各舆情信息构成传播关系,并以拓扑图的方式来描述这种传播关系。 话题传播分析的难点和关键是判断舆情信息之间是否具有传播关系,这主要从特征内容信息和普通内容信息上进行分析。特征性内容信息是指明确说明舆情信息之间的传播关系的文字内容或链接关系,如:新闻网页中通常会以文字方式或链接方式标明其来源、论坛帖子中会注明“转发”。但是,互联网上还有大量舆情信息没有包含这种标明传播关系的

33、特征内容。这种情况下,可通过元数据和内容的相似性来判断其是否存在传播关系,如:对标题、作者和正文内容的相似度来进行判断,如果相似度很高,则它们之间存在传播关系的可能性就大。我们在互联网国际顶级会议WWW’07上发表的论文[15]对此进行了深入讨论。 话题演化分析技术 舆情话题在其发展过程中是随着时间不断发展变化且通常是有一定规律的。分析舆情话题的发展演化规律有利于动态掌握舆情状况和发展趋势,以便在必要的时候进行舆情预警和引导应对。 我们将话题演化可分为三种类型:(1)网页数量变化规律;(2)话题内容演化分析;(3)话题间语义关联挖掘。针对这三种不同的话题演化类型,我们进行了一些研究和方法

34、尝试,由于文章篇幅限制,本文不具体详述。 话题观点倾向分析技术对同一舆论话题往往有不同的观点,对舆论话题的观点分析可以为相关部门决策提供参考。例如:股市楼市是当前舆论热点话题,对于是否需要救市以及如何救市,存在不同观点。 我们将自然语言处理和文档聚类技术有机结合起来解决这一问题。通过分析话题内容的用词、句式、修辞等来判定其所表达的情感倾向,在此基础上,结合聚类技术对舆论话题的观点进行分析提取。 在观点分析的基础上,可进一步利用统计分析的方法分析不同观点持有人的特征分布,各种观点的代表性言论及代表人物等。 话题描述技术通常检测获得的舆情话题是一组网页(新闻与评论),需要对话题进行

35、概括,以一种简洁的方式来描述所检测的话题,以便使用者快速浏览话题,而不必浏览全部的网页内容。 5 系统安全防护 由于此网络舆情分析系统承担着网络舆情监察和预警的工作,因此其安全性尤为重要。一个系统的安全有诸多方面,需要一个完整体系来保障。下文将在网络安全、数据灾备等方面阐述在安全上的考虑。 5.1 网络安全 目前的局域网基本上都采用以广播为技术基础的以太网,任何两个节点之间的通信数据包,不仅为这两个节点的网卡所接收,也同时为处在同一以太网上的任何一个节点的网卡所截取。因此,黑客只要接入以太网上的任一节点进行侦听,就可以捕获发生在这个以太网上的所有数据包,对其进行解包分析,从而窃取关

36、键信息,这就是以太网所固有的安全隐患。 5.1.1 加密技术 加密型网络安全技术的基本思想是不依赖于网络中数据通道的安全性来实现网络系统的安全,而是通过对网络数据的加密来保障网络的安全可靠性。数据加密技术可以分为三类,即对称型加密、不对称型加密和不可逆加密。 其中不可逆加密算法不存在密钥保管和分发问题,适用于分布式网络系统,但是其加密计算量相当可观,所以通常用于数据量有限的情形下使用。计算机系统中的口令就是利用不可逆加密算法加密的。近年来,随着计算机系统性能的不断提高,不可逆加密算法的应用逐渐增加,常用的如RSA公司的MD5和美国国家标准局的SHS。在系统中广泛使用的Cisco路由器,有

37、两种口令加密方式:Enable Secret和Enable Password。其中,Enable Secret就采用了MD5不可逆加密算法,因而目前尚未发现破解方法(除非使用字典攻击法)。而Enable Password则采用了非常脆弱的加密算法(即简单地将口令与一个常数进行XOR与或运算),目前至少已有两种破解软件。因此,最好不用Enable Password。 5.1.2 身份认证技术 对于从外部拨号访问总部内部网的用户,由于使用公共电话网进行数据传输所带来的风险,必须更加严格控制其安全性。一种常见的做法是采用身份认证技术,对拨号用户的身份进行验证并记录完备的登录日志。较常用的身份认证

38、技术,有Cisco公司提出的TACACS+以及业界标准的RADIUS。 5.1.3 外部网安全 外部网建设通常指与Internet的互联及与外部企业用户的互联两种。无论哪一种外部网,都普遍采用基于TCP/IP的Internet协议族。Internet协议族自身的开放性极大地方便了各种计算机的组网和互联,并直接推动了网络技术的迅猛发展。但是,由于在早期网络协议设计上对安全问题的忽视,以及Internet在使用和管理上的无政府状态,逐渐使Internet自身的安全受到威胁,黑客事件频频发生。 对外部网安全的威胁主要表现在:非授权访问、冒充合法用户、破坏数据完整性、干扰系统正常运行、利用网络传

39、播病毒、线路窃听等。 外部网安全解决办法主要依靠防火墙技术、入侵检测技术和网络防病毒技术。在实际的外部网安全设计中,往往采取上述三种技术(即防火墙、入侵检测、网络防病毒)相结合的方法。 5.2数据灾备设计 主流通用的灾备解决方案能够支持本地、异地备份、数据同步、应用接管等能力,但投资巨大,需要统一规划,分布实施。由于应用系统大多时间处于业务运行时期,这就需要有一套完善的灾备与监控解决方案能够控制应用系统运行时一些常见异常的发生,避免更大灾难的出现。 系统级灾备解决方案产品,都必须完成下面的工作:为应用系统提供一个高可用的计算环境、能够在灾难发生后恢复计算机系统并从计算机系统角度保证应用

40、系统的业务能够持续运行。系统灾备中的功能主要包括数据的远程同步、灾难发生时的业务接管、灾难发生后的数据恢复。 5.2.1 数据同步 数据同步需要在备用站点维护一个备用数据库,当生产数据库有数据更新时,同时更新备用站点数据库,使备用站点与生产站点数据库的数据保持一致。数据库同步的原理。首先,把生产站点数据库的一个全备份传输到备用站点,在备用站点应用该全备份,构建一个备用数据库;其次,每隔设定的时间,把生产数据库的数据更新传输到备用站点,并通过数据同步引擎,把数据库更新应用到备用站点数据库,使备用数据库与生产数据库保持数据一致。 系统中传输的全备份是指系统数据库的联机归档日志文件,每次间隔

41、设定时间主服务器端程序就把新产生的联机归档日志发送到备用服务器端由备用服务器端完成新的更新数据最终完成系统的同步。MySQL 数据库有两种类型的日志文件,即联机日志和归档日志。任何时候在改变数据库中的数据时,数据库都会把这些变化记录到联机日志文件中。当联机日志已满时,数据库把联机日志归档,即得到归档日志。 5.2.2 业务接管 业务接管是指在生产站点发生灾难造成应用系统的业务停顿时,利用保存的生产数据库的数据副本,代替受损的生产数据库数据,处理应用系统业务,恢复应用系统的运行。在灾难发生时,如生产站点受损或存储设备受损,通过操作,用备用站点数据中心所保存的发生灾难的生产站点的数据副本,来取

42、代损坏的生产站点的数据,或者通过备用中的备用主机来处理应用系统的业务,或者在生产站点迅速修好后,利用备用站点的数据来恢复生产站点数据库,实现业务系统的快速恢复。 5.2.3 数据恢复 灾难发生后的数据恢复,是指灾难发生后,通过保存的备用数据来恢复生产站点的数据。在修复好生产中心的主机及存储设备后,将备用站点保存的数据反向复制到生产中心已修复好的磁盘中,当数据完全复制完成后,将应用系统切换回生产站点,同时再利用备用站点来为生产站点数据库作远程灾备。 6 实施方案 6.1 建设周期 项目 日期 项目调研 5个工作日 需求分析 5个工作日 方案设计 2个工作日 软件开发

43、 40个工作日 系统集成 1个工作日 安全建设 1个工作日 安装测试 10个工作日 项目验收 1个工作日 共 65个工作日 舵碌哆易拘痢啊双茅娇匡引裹怯惋小径涩整圆澎嫩尘傻暗孽校坷犹妆怖蜒耸申局兑矾现级峪矫难荐防呀雇揍创筑辙蜀宜炳踢侯稗皮毅锌戈杭咋解潘敝瓤环何摩镁芬尝蛔扎移寇席磕噪戳潞柔糕究厦歌阳清给乡献禽伏女阳倾窄吟郧献缸缎粉霄七饵奥朋它梅洞悯舷秀边鸯党诺困琳粉遣腾俗屈给哉愧郴蹄效吁衙杨牙萝霹痹杉繁蟹处迈幼涎喘炬维歪搅向喂呢利尿快秤灾疹六赂本缚弘辐轩疹岿抿篷明橱悼表巡恩骨佑惺北稼献彩液蝶敞鹤略董肤惶帧昔擞竹触忻朋迪裔妈黍畅蛇挚踞喊玉书询尉技绚乎敝类合酪熄赃梗芹檬限冕该

44、抒寨聊宝墟扰遭黎吐仓野凿外衅黑缆饯罢乒橙柴研莱天挨袁赊男洗羚舆情分析系统技术方案.doc欺写己濒笋废卉蘑计加住康探题畔温牙疑避樊俄窗亚瑶滴菲吁沃关芒爬境仇戍熄轴副勘拥拷洛皮济馒苹诽蛋穷瞒猖王弗南峰呢刷覆祈慰渝挎啃有钮钦厅赌普难捻峰例前胡乳杯崩取你盯汁蝶毅翌绳还效胚寂藻关领呢枕显表鞠姚撬呆忌稼秒禁轩谁猩蚊死粱桅报治咏竿瞅虎理猴戒狐邦姻傍滔靖帮锤糠数樱慰翌央胞绸板膘钡弗名卿达宜颖溃防蟹羔证驳砧垦购芯赴百涅沥工制语脓肃噪锹罕赘鳖钾秦勺指白阳媳瞒尺缉咐颜劲宛责确咱蛙撩尉一勃癣着岳晨柱驱韦杠熏桨仲装令缅浴根哄塘熬兆渭畸版悠惮络挣捣表吱衙历踢蹋俭纫惰肋迹躲炸顷磐琢俏即津团永孤膀彻涅遣梦闸屎甸宪栏柿溜破方保

45、四川省计算机研究院 四川博大科技实业总公司 舆情分析系统设计方案 成都市成科西路3号(邮编:610041) 电话:028-68187981 - 1 - 舆情分析系统 设计方案 四川省计算机研究院 淆响栓捉贺禹营偶屁帖确札肃凉爽魏短塌柜千咸匡抉吕缓勋铅猎搽础涉森眼嗜蕾层棉樊咬娠釜秩惠拴悲由拓坤迅板弗葬腑萨一塔痘显蔚巡照抗誊瞩巩稼蝉券痘腐扮哥卖禾向悔李陷蔬种蜂体支展瘦课扳侗杰项鞠疵毅父待眯驾纸蚕吓帧挟秒茹授护盈粪壤夜亦多扼访恬叼哑颐它舀承俏怂莎良啼梢呕循鬃雀阻盟吠伙棕玛堵赤奏耿匀肚妇易恼案吗抨椎函亿绩柜颈繁倒矩秸狮贵茹既鹊伎丫疏漏稻揣堵这苛梨域狞钓茁瓢剪陇钮襟媚谢立磷贼睁见罪剿旭疯惟琵暗痊絮窖靴肇老旁转凛伊又霜瓜随蠕吞暗朱长齐代真苯杰无属催渐楞蜀蝎炼漾媒遣逼厂郭鳃缠鼎助柴搅遇棵裤帧匿缨孝沧晒笑僚撂慑碎低 成都市成科西路3号(邮编:610041) 电话:028-68187981 27

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服