1、332022/112022/1133探索与争鸣网络舆情大数据监测与传播方法研究 尚 莹 张 峰【摘 要】针对舆情监测过程中管理系统综合集成性差的问题,本研究采用更为开阔的新型人工智能理论与方法,在融合机制、智能涌现机理和智慧运用模式等更高层次分析舆情领域大数据融合问题,构建舆情监测原型系统。首先根据舆情监测实际业务需求,以系统工程建模技术构建舆情监测平台,分析舆情监测系统的物理部署,并对数据的采集流程进行详细分析;其次采用OOP和UML技术架构本地化分析处理系统,对舆情监测内部门户网站需求进行分析,构建系统整体功能用例图和时序图;最后通过开发系统门户,结合舆情监测实例详细验证数据采集与预处理、
2、舆情实体信息抽取与存储和舆情实例传播方法。【关键词】舆情监测;大数据;关联性分析;舆情传播;网络舆情【作者简介】尚 莹,榆林学院,宣传部,主任编辑。张 峰,榆林学院,信息工程学院。【基金项目】本文系榆林市科技局项目“乡村振兴背景下的榆林乡村文化和乡土经济发展研究”(项目编号:CXY-2021-93-07)的成果。引 语实现对舆情信息的全面监测与分析,是目前新闻传播领域亟待解决的关键技术问题。海量、多源、多类的新媒体的出现,给舆情管理带来巨大的挑战,而想要从海量的媒体信息中找到某一机构的相关信息,需要借助大数据关联分析与处理的信息采用与处理机制,以实现对互联网舆情全面监控、捡选、分析、反馈的目标
3、1-2。本研究围绕网络舆情监测与分析这一主线,采用OOP(Object Oriented Programming)和UML(Unified Modeling Languag)技术,探索更高效的互联网舆情信息监控方法,为机构监测与其相关的互联网信息提供有力依据。一、舆情监测系统架构设计(一)舆情监测平台架构本研究采用网络爬虫技术对互联网的自媒342022/112022/1134探索与争鸣体、新闻、论坛、博客、微博的数据进行即时采集、存储,然后通过本体语义技术进行RDF转化,形成便于处理的结构化舆情信息库,再借助舆情信息库实现更为合理的信息传播,通过多种媒体形式提供给机构互联网信息监测的工作人员使
4、用。在系统实时搜索方面,可以实现对4500家互联网新闻网站的定向监测,每5分钟完成一次监测数据采集,每日数据采集量40万。通过实时监测论坛和博客信息源获取数据,监测主体包含百度、新浪、网易、天涯、强国论坛、西祠胡同和地方性华商论坛、榆林论坛、榆林市民论坛等媒体,每日可获得数据量20万。同时对1000家电子报网站实现定向监测。还可实现对新浪微博、腾讯微博、搜狐微博、网易微博等主流微博平台的智能监测采集,日均数据量为100万。本研究设计的舆情监测平台架构如图1所示,监测系统采用分布式处理、并行处理和网格计算的互联网舆情采集处理方式,解决了原有模式中互联网舆情采集、存储、大数据处理过程中的延时问题。
5、相比独立的互联网采集服务系统,基于云计算技术开发的互联网实时搜索云具有采集速度快、监测范围更广、分析计算处理性能强的优势,可以实现对互联网的全面监测,解决应用互联网监测数据的机构在互联网信息采集过程中硬件成本投入、技术更新、系统人工维护成本高的难题,有效保障相应机构互联网舆情监测系统的稳定性、可靠性、时效性、准确性,降低系统维护难度,提升系统性能3。(二)系统物理平台架构的设计舆情监测系统物理平台架构主要包括三个方面:其一,采集舆情信息。通过网络爬虫与本体语义技术,从URL列表中获得与关键词有关的信息,进而实现迭代式的数据搜索4。其二,构建舆情信息库。根据关键词对搜索图1 舆情监测系统体系框架
6、云计算 云存储 主题检测数据智能索引WEB浏览服务海量信息检索内容智能提取请求相应服务器邮件推送负面自动识别文本分类聚类跨IDC数据管理短信预警管理RSS、OA嵌套传播路径计算云存储服务器内容管理一站式简报转播本体语文分析、推理多源、异构数据转换为RDF信息分发管理服务器本地分析处理服务器互联网舆情本地化分析处理系统舆情监测内部门户网站趋势分析客服应用IM软件信息分类中英智能分词中英智能分词报告推送聚焦热点资讯智能排重统计云存储控制节点APP手机端推送OPI交互管理负面自动识别云存储数据节点访问权限管理本地数据管理352022/112022/1135探索与争鸣到的网页信息进行内容解析,通过对内
7、容、标题和Head等关键信息的对比分析,过滤出相关性比较强的网页地址,将其添加到信息库中。其三,数据分析与应用。根据库中的网页地址解析相关信息,借助本体语义技术进行页面内容过滤,形成本体知识库。在本体知识库的基础上,通过中文分词技术实现对敏感词的自动分析与处理,形成可视化推理页面,以供舆情分析人员进行分析与决策。二、舆情监测系统的分析与设计(一)本地化分析处理系统需求分析舆情信息的本体化知识库的构建,是机构互联网舆情的信息分析核心。该知识库负责对搜索到的舆情信息进行RDF和本体自动转化与处理,管理舆情监测内部门户网站的内容数据。相关业务需求根据榆林学院宣传部对关键词的过滤、监测进行自动处理与分
8、析,以支持该机构的互联网舆情监测管理人员的工作。5(二)系统整体功能用例图舆情监测系统是对舆情监测实体的概念化和结构化描述与定义,实现的功能包括系统平台管理、在线采集管理、本地化管理、RDF数据管理、舆情本体数据管理、舆情分析、指标分析、传播分析、热点事件管理、预警管理和报告生成管理等。为达到这些设计要求,研究者采用UML中的用例图对舆情监测系统的需求进行分析,具体如图2所示。(三)系统功能业务控制时序图在舆情监测系统中,数据的采集、任务分配图2 系统整体功能用例图管理员系统平台管理舆情管理预警管理报告管理数据采集管理权限管理在线采集管理本地化管理RDF数据管理舆情本体数据管理数据采集员舆情分
9、析指标分析传播分析热点事件数据分析员362022/112022/1136探索与争鸣和数据分析与管理都有相关业务人员进行处理,系统管理员可以对系统管理平台进行管理,系统平台管理模块主要实现系统用户的管理、组织结构的注册、系统登录控制、各功能模块的注册与授权管理等功能。数据采集人员要与舆情分析人员协同工作,才能完成整个数据的处理与分析。系统整体业务流程时序图的使用,具体如图3所示。图4 舆情分析与处理页面图3 系统整体业务流程时序图舆情分析报告系统管理预警管理接受任务数据处理处理结果创建数据采集任务顶层包:数据采集员顶层包:舆情分析数据采集数据处理舆情管理舆情分析舆情分析指标分析分析结果热点事件分
10、析顶层包:管理员372022/112022/1137探索与争鸣三、网络舆情大数据表示与存储方法构建网络舆情大数据表示与关联原型系统,主要目的是利用项目中的部分大数据对所要研究内容中的模型进行应用验证。6 这一目的可在Hadoop与Spark技术体系的基础上实现。(一)实证案例数据采集与预处理网络舆情信息类型众多、数量庞大,本研究选择“陕西一务工人员感染汉坦病毒死亡事件”案例进行验证。通过标题和关键词对相关舆情信息数据进行采集和分析,分析页面如图4所示,采集的数据如表1所示。通过舆情分析,该事件在微博传播过程中,共发布微博信息1264条,微博传播受众达276861425人。其中未认证个人微博的受
11、众为1939797人、认证个人微博的受众为80212956人、认证政府微博的受众为6568519人、认证企业微博的受众为1068012人、认证媒体微博的受众为187067765人、认证校园微博的受众为0人、认证社团微博的受众为0人、微女郎微博的受众为0人、达人微博的受众为4376人。该事件的舆情传播中,认证媒体微博的影响力最大、辐射人群最多。采集到相关信息后,需要对内容进行处理,其中包括多源、异构的数据内容,可采用数据处理和分词方法进行预处理。该事件形成面向主题的舆情关键词如表2所示,生成的主题词云图如图5所示。图5 舆情主题词云图表1 舆情实证案例采集的数据量表2 舆情中涉及的关键词表3 舆
12、情监测的实体实例舆情名称发生时间新闻跟帖数微博发文微博评论陕西一务工人员感染汉坦病毒死亡2020年3月23日00时65932123612641265321舆情名称关键词陕 西 一 务工 人 员 感染 汉 坦 病毒死亡陕西、务工人员、汉坦病毒、死亡、医务人员、司机、山东威海市、核酸、阳性、新冠肺炎、发热、采集、云南、宁陕县、呼吸道、出血热、疫苗、患者、田某某、排泄物、疾控中心、同车、医务人员、服务区等206个实体名称涉及对象个人Person田某某、2名司机、1名医务人员、30名务工人员共33个实例社会组织Sorganization山东荣成鲁阳水产食品有限公司、山东威海市龙威客运有限公司、120急
13、救中心、高速路服务区、县医院、安康市疾控中心等六个实例政府Gorganization云南省临沧市孟定镇、安康市、宁陕县、山东等4个实例媒体Medias今日头条、新浪网、新浪微博、华商网、央视网、人民网、QQ新闻、网易网、搜狐网、京华时报、中国新闻网等200多个实例新闻报道News659个实例主题Topic病毒、疫情、传染382022/112022/1138探索与争鸣(二)舆情实体信息抽取与存储为了与本研究所构建的各类数据实体表相对应,需要通过中文分词、命名实体识别、去停用词、情感提取等网络舆情信息实例,转化成相应的RDF和本体数据模型。通过语义特征抽取,获取“陕西一务工人员感染汉坦病毒死亡事件
14、”案例对应数据模型各概念的具体实例,如表3所示。(三)舆情实例传播分析对舆情数据处理和分析后,结合政府行业舆情监测和媒体传播的特点,从网民情感属性、提及地区、媒体类型传播角度、媒体报道重要性角度、媒体正负面声音角度、媒体间的转载关系角度、媒体区域分布角度等进行全面分析,采用趋势分析、环比分析等多种直观的图表分析方法,生成简报及个性化报表等。对用户舆情进行情感分析,主要是分析具有情感成分的词汇的情感极性(即情感的正性、中性、负性)和情感强烈程度,然后计算出每个语句的总值,判定其情感类别。本研究综合全文本中所有语句,判定总舆情数据样本的整体态度和情感倾向,用户情感属性与传播地区如图6所示,用户情绪
15、走势与情绪类别分布如图7所示。通过文章转载量、阅读量、评论数以及事图6 用户情感属性与传播地区图7 用户情绪走势与情绪类别分布392022/112022/1139探索与争鸣图9 媒体报道占比件的热度趋势,统计出活跃账号的媒体如图8所示,媒体报道占比如图9所示,事件热度趋势如图10所示。从事件的热度趋势可以看出,该事件的舆情从2020年3月23日开始,24日达到高峰,28日趋于结束。结 语本研究对舆情大数据进行监测与分析,从图8 活跃账号的媒体图10 事件热度趋势全部报刊网页视频微信头条号微博搜狐号App问答论坛其他平台402022/112022/1140探索与争鸣舆情监测系统架构、舆情监测系统
16、的分析与设计和舆情监测系统数据库建模与设计等信息技术入手,详细分析舆情监测系统的实现方法。系统测试结果表明,本研究所设计的舆情分析系统可以有效地实现本文提出的各类计算方法。首先,根据舆情监测实际业务需求,应用系统工程建模技术,构建了舆情监测平台架构,设计了舆情监测系统的物理部署架构,并对数据的采集流程进行详细分析。其次,采用OOP和UML技术7,提出了本地化分析处理系统架构并对舆情监测内部门户网站需求进行了分析,通过深入分析舆情数据挖掘方法,构建了系统整体功能用例图和时序图。最后,通过开发系统门户,并结合舆情监测实例,详细验证了数据采集与预处理、舆情实体信息抽取与存储和舆情实例传播方法。参考文
17、献:1 Aigi Zhang,Wanli Zuo,Ying Wang,Wenyan Ji.“An Ontology-based Schema Matching on Deep Web.”Journal of Computational Information Systems 6.4(2010):1077-1084.2 Lin L F,Zhang W Y,Lou Y C,Chu C Y.“Developing Manufacturing Ontologies for Knowledge Reuse in Distributed Manufacturing Environment.”Interna
18、tional Journal of Production Research 49.2(2011):343-359.3 Park Jinsoo,Cho Wonchin,Rho S.“Evaluating Ontology Extraction Tools using a Comprehensive Evaluation Framework.”Data and Knowledge Engineering 69.10(2010):1043-1061.4 Kayed Ahmad,E Q Eyas.“Ranking Web Sites using Domain Ontology Concepts.”In
19、formation and Management 47.7-8(2010):350-355.5 Jyhjong Lin,Jenperng Yu,Changling Hsu.“An Ontology-based Architecture for Consumer Support Systems.”WSEAS Transactions on Information Science and Applications 7.2(2010):153-165.6 Lonsdale Deryle,E David,Ding Yihong,Xu Li,Hepp Martin.“Reusing Ontologies and Language Components for Ontology Generation.”Data and Knowledge Engineering 69.4(2010):318-330.7 许卓明,顾华建,倪玉燕.UML类图向OWL本体转换工具的设计与实现J.河海大学学报,2007(4):478-481.