大数据技术在舆情监测领域的应用风险与风险规避.pdf

资源描述

1、新媒体与社会(第三十辑)大数据技术在舆情监测领域的应用风险与风险规避李丹珉谢耘耕摘要大数据技术的广泛应用给舆情监测带来了新的发展机遇。但是,大数据技术在实现舆情状态的实时监测、舆情信息的全面感知,发现舆情研究的潜藏指标、舆情要素的隐藏关联的同时,也给人类带来了一系列社会问题。本文尝试从技术风险的理论视角出发,从自然属性和社会属性两个维度,分析大数据技术在舆情监测中的应用风险,并为舆情监测中大数据技术应用的风险规避提供策略。关键词大数据技术技术风险风险规避Application Risk and Risk Aversion of Big DataTechnology in Publi

2、c Opinion MonitoringLi Danmin Xie Yungeng Abstract Big data technology has been widely used in the field of publicopinion monitoring and analysis,which has caused major changes in the informa-tion processing architecture of public opinion monitoring.While big data technolo-gy realizes the real-time

3、monitoring and comprehensive perception of public opin-ion information,discovers the hidden indicators of public opinion research andthe hidden associations of public opinion elements,it also has many risks.Thisarticle attempts to analyze the application risk of big data technology in public o-pinio

4、n monitoring from technology risk theory,according to the two dimensions ofnatural attributes and social attributes,and to provide strategies for risk avoid-472大数据技术在舆情监测领域的应用风险与风险规避ance in the application of big data technology in public opinion monitoring.Keywords Big Data Technology;Technology Ri

5、sk;Risk Aversion一大数据技术在舆情监测中的应用现状从 20 世纪 90 年代开始,伴随着网络技术突飞猛进地发展,论坛、贴吧、博客等不同形态的网络信息分享平台纷纷出现,从根本上改变了舆论的生成模式。网络言论逐渐成为社会舆论的重要表现方式之一时,与其有关的舆情监测行为也逐渐成为决策者了解公众反馈意见、把握公众思想动向的重要手段。1进入21 世纪,随着推特、脸书、微博、微信等社交媒体的兴起,网络舆情数据越来越呈现出大数据特征。网络舆情信息和大数据在本质上的相似性,令舆情监测中大数据技术的引入顺理成章。从工具手段的角度看,大数据技术就是在大数据“收集、储存、挖掘、应用”中发挥作用的工

6、具。2在我国,政府部门、科研院所等积极推进舆情监测工作。2004 年 6月,中宣部整合相关部门率先成立舆情信息局,主要承担舆情的搜集、整理和报送任务;2008 年人民日报社正式组建人民网舆情监测室;2011 年 5月,国家互联网信息办公室成立,专门负责互联网信息内容管理。3此外,包括文化部、新闻出版广电总局、公安部在内的各个部门,都对网络舆情监测颇为重视,多采用招标的方式搭建舆情监测平台。科研机构中,中国人民大学、南京大学等高校也积极与第三方开展合作,成立了舆情监测研究基地或实验室。从应用的角度看,大数据技术的引入使舆情监测的资讯处理架构发生了重大变化。美国学者罗素艾可夫曾在从数据到智慧中

7、构建出了关于数据发展演化的理论体系 DIKW 体系。4DIKW 体系根据原始资料被加工处理的程度,将之分为数据(data)、信息(Information)、知识(knowledge)和智慧(wisdom)四个层次,其中每一层都是下一层的升级。对舆情监测而言,大数据技术的引入提升了每一层次舆情相关资料处理与加工的水平。572新媒体与社会(第三十辑)就数据层而言,数据是舆情监测的基础。针对舆情信息数据量大、实时性高、交互频繁、跨平台的特点,在实际应用中,研究者采取了不同策略提升网络爬虫的数据采集效率。例如,通过将爬虫系统部署在Hadoop 平台上,实现数据的多节点抓取5;利用一致性 hash 算法

8、,在C/S 架构的基础上建立了分布式数据采集平台6;采用 Servlet 后台调度技术,对不同媒介平台的多元数据进行分布采集。7由于与舆情有关的信息可能出现在网页的标题、关键词、评论等各种内容中,为了从判断文本相似度的角度出发,更有效的提取代表性信息,基于向量空间的模型、基于语义理解的模型都被应用于舆情信息采集中。此外,大数据技术采集到的舆情原始资料中可能包含“脏数据”,为了对垃圾用户、垃圾评论进行识别与过滤,出现了利用信息传播模型、双层堆叠分类模型、代价敏感学习等对垃圾用户进行检测的方法8910,还出现了利用图模型、SVM(Support Vector Machine,支持向量机)分类算法、

9、贝叶斯分类器、逻辑回归分类器等对垃圾评论进行过滤的方法。1112就信息层而言,在 DIKW 的理论体系下,信息是对数据进行的逻辑化整理。与舆情监测有关的数据不仅类型多样,而且内容维度丰富,具有多源异构、跨领域、跨平台、跨语言、动态变化的突出特点。为了更好地将各类型数据整合到一起,数据融合的思想应运而生。从技术层面看,数据融合的实现涉及实体对齐、实体消歧、属性对齐等诸多内容。其中,实体对齐重点在于判断来自不同信息渠道的实体是否指向同一个对象,实体消歧需要通过上下文信息消除一词多义情况,属性对齐旨在判断多个属性是否反映对象的同一特征。目前,TF-IDF(Term Frequency Inverse

10、 DocumentFrequency,词频-逆文本频率指数)算法、Fast Newman 聚类算法、HAC(Hierarchical Agglomerative Clustering,层次凝聚聚类算法)算法都是在对实体进行消歧和链接中出现的策略。1314此外,将网络舆情数据按照一定标准、有组织的长期存储下来,同样是对舆情数据进行整理的关键步骤。针对舆情数据规模庞大和非结构化特点,人们倾向于使用 HBase、Redis 等开源数据库进行信息存储。1516由于区块链技术在大数据存储方面具有更高的安全性和容错功能,该技术未来也有可能被应用于舆情数据存储中。1718就知识层而言,知识是对信息之间关联的

11、提炼与抽象,是在信息理解672大数据技术在舆情监测领域的应用风险与风险规避过程中抽象出的新内容。在舆情监测中,大数据技术在知识挖掘中的应用主要体现在主题发现、情感分析、用户行为分析和社会网络分析四大方面。在主题发现方面,统计与计算机方向的专家 Blei 提出的隐狄利克雷分布(Latent Dirichlet Allocation,简称 LDA)模型被广泛应用于舆情监测中19,并出现了诸如 IDLDA(Latent Dirichlet Allocation Model to predict po-tential lncRNA-disease associations,即预测潜在 lncRNA 疾

12、病关联的 LDA 模型)、IOLDA(Improved Online Latent Dirichlet Allocation Model,即改进的在线 LDA 模型)、CA-LDA(Latent Dirichlet Allocation Model with Co-word A-nalysis,即基于共同体感知的 LDA 模型)在内的多种衍生模型。202122在情感分析方面,研究者一方面对中文情感词典的完善颇为重视。例如,昝红英等将网络用语的来源总结为谐音、缩略、象形、转义等,在此基础上对网络用语进行了收集、标注和校对,构建网络用语词典23;阳爱民等在筛选情感种子词的基础上,利用搜索引擎返回的

13、共现数,通过改进 PMI(Pointwise Mutural Information,点互信息算法)算法,构建情感词典。24另一方面,也有人尝试利用基于意群划分的文本情感倾向分析方法、基于概念层次网络的情感分析方法等多种研究方案2526,提升对舆情信息情感倾向判断的准确性。在用户行为分析方面,网站服务器记录下的网民访问时间、IP 地址、搜索关键词等日志内容都是舆情监测中的重要信息27,利用 HAC 等技术28,可以及时发现某个公共事件关键词在一段时间内的搜索量是否 HAC 异常增高,进而实现突发舆情事件检测。29在社会网络分析方面,舆情事件爆发后,相关信息的快速流动主要得益于网民之间复杂的社会

14、关系网络。在舆情监测中,参与舆情事件讨论的网民被视为结点,各结点的交流互动形成连线。社会网络分析主要被用来测量不同结点之间的关系,以及通过这种关系流动的信息资源。由于意见领袖是“网络舆情中起到关键作用的节点性人物”30,贝叶斯-PageRank 算法、神经网络、仿真分析等都被用于寻找信息传播中的重要用户节点。3132与此同时,社会网络分析还可以实现对舆情事件信息扩散过程的追踪,传染病模型、独立级联模型、演化博弈模型333435等也被广泛应用于社会网络中舆情信息的流动特征分析中。就智慧层而言,智慧居于 DIKW 体系的最高层次,是人们基于对知识的理解而做出的判断。舆情预警和舆情预测都属于对舆情未

15、来发展态势的772新媒体与社会(第三十辑)研判,是大数据技术被引入后,利用评估算法模型对舆情态势进行估计的方法。例如,利用 LSTM(Long Short Term Memory,长短时记忆网络)模型、SoftSign 函数、粒子群算法等测算用户聚类收敛速度,实现舆情预警3637;利用神经网络、决策树模型、模糊算法等大数据技术进行舆情预测。3839总体来看,目前舆情监测在底层支持、基础设施和前端应用三个层面形成了较为完整的体系。在大数据技术的助力下,社会科学领域将出现大量“信息化数据”,这将使社会科学具备自然科学的特征,社会科学研究将出现继实验、理论和仿真三种范式之后的第四种研究范式。40具体

16、来说,大数据技术给舆情监测带来的机遇主要体现在以下几个方面。第一,实现舆情状态的实时监测。大数据技术将实现舆情信息的全天候不间断采集,这使得舆情热点发现的窗口期将大大缩短。第二,实现舆情信息的全面感知。大数据技术可以将用户的生活轨迹和行为活动数据化41,进而捕捉到舆情事件中用户态度倾向变化的各个细节。第三,发现舆情研究的潜藏指标。一方面,大数据技术可以将诸如工资收入、疾病情况、宗教信仰等被用户隐瞒的“主观潜藏指标”挖掘出来;另一方面,大数据技术可以将舆情传播的信息轨迹、核心节点、空间变化等“客观潜藏指标”记录下来。第四,发现舆情要素的隐藏关联。大数据技术既可以实现不同舆情要素参数组合的反复调整

17、,又可以实现舆情要素建模过程中的多样化模型选择42,这就为深入挖掘舆情要素之间可能存在的隐藏关联规则提供了帮助。总体来看,大数据技术给舆情监测带来了巨大变化,也为舆情研究提供了全新视角。不过,“伴随技术选择能力增长的,是它们的后果的不可计算性”43,大数据技术进步可能在有意或无意之间给人类带来危害。作为新技术集成的应用,舆情监测同样有可能给社会发展带来不可计量、难以预测的风险。因此,从技术风险的视角对舆情监测进行重新审视颇为重要,舆情监测可能带来的社会风险也是风险治理中需要面对的新课题。二大数据技术在舆情监测中的应用风险现代技术的发展在给人类带来实际利益的同时,也给人类带来了一系列872大数

18、据技术在舆情监测领域的应用风险与风险规避生态问题和社会问题,技术的解放力量正在转变为解放的桎梏。44对技术风险的分析与批判是人文学者重点关注的议题,包括科尔施、葛兰西、马尔库塞、哈贝马斯在内的思想家、哲学家都曾针对技术风险问题展开讨论,这让反思现代技术现象成为当代社会思潮的基本特征之一。45经过几十年的发展,学者们对技术风险的关注内容,逐渐从现实风险(如核污染、化学药物滥用、毒气泄漏)扩展到潜在风险(如纳米技术、基因工程、人工智能的伦理问题)和被建构的风险(如媒体对社会风险的放大)。4647随着学者们对技术风险研究的日益深入,相关研究内容不断细化。目前,人们主要从自然属性和社会属性两个维度对技

19、术异化现象进行解释。从自然属性的角度看,技术在操作和使用的过程中会成为外在于人的独立系统,其本身的局限会给人类社会带来潜在风险48;从社会属性的角度来看,人类是技术的创造者、操纵者或作用对象,人类与技术的交互可能带来不可预知的结果,人类制造和使用技术时的功利性会带来技术异化的风险。49从本质上看,和早期舆情监测的方法一样,大数据挖掘技术也是网络舆情监测中运用的工具与手段之一。任何工具和手段在使用中都可能出现偏差,技术的研究、开发和利用都可能给人类及其社会发展带来利益损失。50在舆情监测中,如果完全使用大数据来研究舆情推论,会陷入大数据“可以揭示一切问题”的误区。51(一)数据样本和数据分析存在

20、的自然属性问题1.数据样本的全面性、代表性和可靠性不足在大数据诞生之初,全体数据代替随机样本的呼声不断。在舆情监测领域,不乏有人从“样本=整体”的角度,提出全样本数据采集分析的构想。实际上,全数据的舆情监测模式仅仅是一种美好的愿景。一方面,在信息传播渠道数量不断增长的背景下,舆情信息会分散呈现在各种媒介平台中,要同时搜集所有的媒介平台中的舆情信息相当困难。另一方面,以微信为代表的即时通信软件构造了圈群化的传播环境52,导致舆情的外部研究者很难深入到封闭的网络社群中采集原始的舆情数据。再者,许多社交媒体平台会事先设置反爬虫机制。当网络舆情监测的 IP 或 userAgent 访问超过阈值时,就可

21、能会被封锁。此外,深网和暗网中的数据量是表层网972新媒体与社会(第三十辑)络数据量的几百倍,但当前的舆情监测技术却只能监测到表层网络中的舆情信息。舆情监测结果的准确与否和数据体量的大小并不完全挂钩。如果不能全面地从各个渠道采集舆情数据,数据的样本偏差就不会缩小。1936年,美国文学周刊在预测美国大选结果时遭遇滑铁卢,就是因为文学周刊发放的问卷数量虽多,但其发放对象仅仅集中于社会中上阶层人群。如果网络舆情监测的数据采集范围有限,那么“大数据”中的“小数据”问题就依然存在,其监测结果的准确性就难以得到保障。在政治代表理论研究中,“代表性”一词通常意味着党派或议会代表在多大程度上与公民或其

22、选民相似。53参考政治学研究的相关成果,对网络舆情数据代表性的评价同样可以从两个维度出发:一是对参与者代表性的评估,即在网络中发表意见的网民是否能代表全体社会成员;二是对参与者观点代表性的评估,即网络言论是否能反映大众的普遍观点。54截至 2020 年 12 月,我国网民规模为 9.89 亿,互联网普及率为70.4%。但是,互联网的高普及率并不能完全弥合数字鸿沟。55在中国,网民并不能代表全体公民。与此同时,网络民意和真实民意之间同样存在结构性偏差。在具备复杂性与混杂性特征的大数据中,充斥着各种干扰性信息,其中的噪声数据会严重影响网络舆情数据的质量。56具体来说,网民有关舆情事件的意见、态度、

23、情绪会分散在不同的网页中,包含舆情信息的网页里混杂着广告、系统推荐信息、相关链接等内容,这些内容都属于舆情数据挖掘中的噪声数据,其存在会干扰舆情数据的提取。除此以外,网络水军的大量存在同样影响了舆情数据的可信度。例如,在 2016 年美国大选中,机器人水军就制造了网络中约 1/5 与选举相关的对话内容。57活跃于各大平台的机器人水军和人工水军,持续高频发布诱导性信息,制造虚假民意,严重影响了网络舆情监测效果。582.数据融合难度大,数据分析的准确性不足在大数据时代中,维克托迈尔-舍恩伯格提出的一个重要观点,即大数据的应用让“世界由探求因果关系变成挖掘相关关系”,其中,多源数据融合是将结构化

24、、半结构化、非结构化的复杂数据联系到一起的关键。数据的有效融合可以拓展舆情分析的维度,不仅有利于不同渠道数据的相互印证,还有利于人们更清晰地观察到舆情及其影响因素的共变趋082大数据技术在舆情监测领域的应用风险与风险规避势。舆情监测中,数据融合的理想是将来源于不同渠道的有助于舆情分析的信息,通过自动检测与关联,融合为一个完整的数据集。但是,舆情研判中使用的大数据呈现多维多态、时空关联的复杂特征。文本、图片、音频、视频等非结构化数据具有不同的格式,分别对应不同的信息处理方式,要将具备不同特征和结构的数据整合到一起难度颇大。此外,网民意见的表达方式多种多样,隐喻、讽刺、双重否定等修辞方法的运用增加

25、了自动化情绪识别的难度。综合来看,现有技术还无法对含有各种情绪的舆情信息进行充分挖掘。(二)人才队伍和数据安全存在社会层面的问题1.从事舆情监测的人员存在专业壁垒舆情数据价值的挖掘离不开人才队伍的支撑。目前,从事网络舆情监测平台开发的人员以计算机专业、数理统计专业的理工科人员为主,而使用相关软件进行网络舆情监测的人员以新闻传播专业、管理学专业的人文社科人员为主,学科藩篱和专业壁垒的存在造成了技术研发者和使用者之间存在鸿沟。开发舆情监测系统的技术人员一般不是研究舆论学理论的专家,他们往往对舆情特点不甚了解,其设计的模型算法有时无法精确捕捉关键的舆情信息;使用舆情监测平台的人员普遍不是技术研发者,

26、他们对大数据技术没有深入了解,对大数据的采集分析方法不甚了解。由于舆情监测分析技术的研发者和使用者之间存在鸿沟,两方人员认识的有限性可能导致技术功能的不确定性,进而引发技术风险。2.大数据技术在使用中可能侵犯公民数据安全马克思和恩格斯认为,机器技术异化的根源在于人类私欲的膨胀。59韦伯曾将技术理性分为工具理性与价值理性,其中工具理性重点突出功能性,也就是针对既定目标寻找成本最低、收益最大的手段;价值理性强调价值判断,即衡量技术应用和人类价值是否相符,技术应用应该追求工具理性和价值理性的统一。60舆论是社会的皮肤,网络舆情监测结果对政府和企业决策有重要意义。为了提升舆情监测结果的准确性,各种各样

27、的大数据技术被引入网络舆情监测领域。但是,盲目追求技术的工具理性而忽视价值理性并不可取,大数据技术的无差别使用很可能给公众的数据安全和隐私安全造成威胁。182新媒体与社会(第三十辑)三舆情监测中大数据技术应用的风险规避策略包括乌尔里希贝克、安东尼吉登斯在内的社会学者普遍认为,虽然技术风险的出现存在不可抗性,但通过采取各种措施,可将技术风险发生的概率控制在一定范围内。对大数据技术的反思不是提倡人们从“数据万能论”的一个极端走向“数据无用论”的另一个极端,而是要让人们在理性看待技术缺陷的同时,努力克服困难,积极挖掘舆情数据价值,在坚守与创新中,让网络舆情监测的准确度不断提升。(一)引入新的研究方

28、法,开发新的工具平台1.采用混合方法研究,实现大数据和小数据的优势互补传统舆论研究方法和大数据技术不是相互替代的关系,而是互补关系。在采集数据的过程中,大数据技术具备整体性和即时性的优势,这些优势也决定了大数据技术所搜集的数据,其精确性、可靠性相对较低。问卷调查法、访谈法、实验法等传统舆论研究方法收集到的数据体量较小,但是数据质量高、变量定义清晰。在网络舆情监测中,以小数据补充大数据,可以大大提高数据分析的准确性和数据挖掘的深度。例如,桂勇等人就同时利用个案研究法和大数据文本分析法对网络思潮进行了研究,其中的个案研究法为后期的大数据文本分析提供了经验引导,大数据分析则在更大范围内对个案研究的发

29、现进行了检验与验证,两种方法相互支撑,共同为公共事件与社会思潮的深描提供帮助。61在进行网络舆情监测时,相关人员要尝试将社会科学研究和自然科学研究结合起来,结合不同研究方法的优势,实现舆情监测的创新。2.加强信息融合,打破单一舆情数据局限综合利用多源数据描述舆情走势、揭示舆情规律、解决决策难题,已成为网络舆情监测的一大发展趋势。这一趋势是由舆情问题的复杂性决定的。因为任何舆情事件都发生在特定的时空范围内,特定舆情事件的出现既具有深刻的历史背景,也关联着多个复杂的原因。不同来源的数据可以从不同角度反映网络舆情产生的背景。因此,舆情监测要善于利用多样化的数据,尽量将网络舆情大数据和社会调查数据、心

30、理实验282大数据技术在舆情监测领域的应用风险与风险规避数据、地理位置数据、传感器数据、政府开放数据等结合起来。例如,将地理位置数据和舆情大数据结合起来,可以推断出网民的信息分享行为是否服从某种区域分布规律。从决策层融合的角度来说,网络舆情监测的最终目的是辅助相关人员进行决策,故利用数据图表等方式,决策主体更容易理解舆情监测结果。3.引入其他学科方法,加强与其他学科的交流互动在以“智能时代传播学受众与效果研究”为主题的对谈中,国际传播学会会士祝建华和斯坦福大学传播系教授杰佛瑞汉考克都谈到了跨学科方法对传播学发展的重要性。其中,祝建华重点强调了心理学和经济学对传播学的帮助,杰佛瑞汉考克更重视计算

31、机科学在传播学发展中的作用。62从宏观角度来看,网络舆情监测的相关研究涉及多学科知识,因此,网络舆情监测水平的提升建立在对其他学科技术方法的灵活运用之上。一方面,要吸纳社会学、政治学、经济学、心理学等其他社会科学领域中成熟的研究方法;另一方面,要引入计算机科学、情报科学、电子信息工程等自然科学领域中新研发的工具。在与其他学科交流互动的过程中,实现网络舆情监测自身方法体系的完善。4.融合最新技术,开发满足共性需求的工具平台目前,大数据技术正处在蓬勃发展的阶段,其作为最新技术工具的引入可以有效提高舆情监测结果的准确性。例如,针对网络舆情监测中舆情信息的“贫信息、不确性、小样本”问题,灰色模型、马尔

32、可夫链模型等的引入,就可以在一定程度上提高了舆情监测的精度。相关人员要及时了解大数据技术发展的前沿动态,根据舆情监测目标,积极开发有效的算法模型。与此同时,在网络舆论力量不断彰显的背景下,无论是学校企业,还是政府部门,都对网络舆情非常看重。针对学界业界人士的普遍需要,相关人员可以汇集各种新技术,建立能满足共性需求的网络舆情监测平台。在经过多年发展之后,我国的大数据技术研发水平已经走到了世界前列。现在我们有能力从中国国情出发,自主研发相应的网络舆情监测平台,不断推动舆情监测技术的升级与完善,为舆论学研究的发展贡献力量。382新媒体与社会(第三十辑)(二)拓展舆情监测的广度深度,扩大信息采集范围1

33、.增加舆情监测的渠道随着网络媒体平台数量的不断增长,当前的网络舆情监测已经无法满足需要。为了提高网络舆情监测的准确性,有必要科学地扩大数据采集范围,尽可能将具备不同特征的网民和来源于不同信息渠道的数据都覆盖到。第一,由于大数据采集同样会犯小数据采集的统计偏差,在采集舆情数据时,要根据网民的性别、职业、年龄结构,对数据采集标准进行调整,使得数据样本具有和总体舆论情况相似的特点。第二,要做到国内主要媒介平台的全覆盖,微博、微信、知乎、豆瓣等平台中的数据都要采集到。第三,针对国内外舆情联动的趋势,要将 Twitter、Facebook、Insta-gram 等外国主流社交媒介平台中的舆情数据也纳入采

34、集范围。2.加强对深网和圈群舆情的监测表层网络展示的数据仅占全部网络数据的一小部分,相关研究显示,深网中的数据量是表层网络的数百倍。63深网中包含大量舆情信息,网络舆情监测如果无法深入到深网中,就会造成舆情数据样本的缺失。随着社交媒体的普及,人类社会正在出现“重新部落化”的趋势。以微信群为代表的网络圈群,已经成为很多公众获取信息、发表意见的平台。新媒体时代,当一个公共事件发生并引起网络舆情时,舆情的波及范围会超越时间和空间的限制,在一个又一个相对封闭的网络圈群中被讨论。网民在圈群中的信息交流具有随机性和散漫性,与此同时,这类舆情信息在圈群中的快速传播会让舆情危机发生的非概率特征更加明显。因此,

35、对圈群舆情的监测颇为重要。(三)加强数据清洗,构建舆情案例库1.针对网络水军特点,加强数据清洗网络舆情监测结果的准确程度和舆情数据质量直接相关。在计算机科学和统计学领域中,“Garbage in,garbage out”的说法被反复提及,是指在数据挖掘前,如果不将干扰性数据、不一致性数据删除,就会导致最终错误的数据分析结果。数据清洗就是要对原始舆情数据进行净化和过滤,进而提升数据质量。针对互联网中用户的意见表达,Jindal 和 Liu认为错误或虚假的意见、带有偏见的评论、与主题无关的广告信息等都482大数据技术在舆情监测领域的应用风险与风险规避可以被视为“垃圾评论”,其存在会明显干扰数据挖掘

36、。在网络舆情监测中,网络水军的垃圾评论是干扰舆情数据挖掘的主要因素之一。面对网络水军制造的数据污染,数据清洗可以从以下两个方面着手。一方面,要加强对网络舆情参与者周期性行为和社会结构特征的研究,利用各种自动识别追踪网络水军的踪迹;另一方面,要根据身份识别和信息追踪结果,采用技术手段对网络水军发布的信息进行拦截,从而得到更真实的网络舆情数据。2.引入数据仓库技术,构建网络舆情案例库当前网络舆情的生成演化具有动态性和不确定性的特点,要相对准确地把握舆情变化特征,一方面需要全面采集存储与网络舆情相关的各来源数据,另一方面需要充分借鉴历史上同类型事件的处置经验。也就是说,在舆情监测中,系统收集并存储数

37、据至关重要。但在大数据时代,传统的舆情信息存储方式已经表现出了数据量小、来源单一、完整性差、精度不高、更新滞后等诸多不足。在此情况下,引入数据仓库技术、构建网络舆情案例库具有相当的必要性。具体来说,通过分布式系统建立的数据仓库具备数据获取、数据存储、信息访问等多项功能:可以利用不同的连接器,按照共同的格式标准,将不同来源的数据采集汇总起来;可以进行数据清洗、特征提取和分类汇总,自动生成案例数据索引,形成具备一定功能形态的舆情案例库;可以提供数据检索接口,方便用户分析数据、查询信息。和传统的数据库相比,数据仓库可以存储更大规模的历史数据。从案例推理的角度看,过往舆情事件的变化特点、处理方案等,都

38、可以沉淀下来成为知识,为新问题的求解提供有力支持。(四)建立行业规范,促进舆情监测健康发展1.完善大数据使用的行业标准与法律规范作为工具性存在的技术发展,不能干扰人类生存的正常秩序空间,其应用范围应以人类底线为标准。为了维护公民权益,网络舆情监测中大数据技术的使用要限制在一定范围之内。从行业组织的角度看,目前以网络舆情监测为核心业务的商业机构不断涌现,一个新兴的舆情监测行业正在形成,但各家舆情监测公司普遍存在相似的数据使用问题。因此,舆情监测行业应该针对各个公司普遍存在的问题制定统一的行业标准,防范企业582新媒体与社会(第三十辑)对用户权益的侵犯。2016 年,阿里巴巴、中国移动、中国电信等

39、 54 家大数据企业就共同签署了数据流通行业自律公约。相关企业联合起来,建立行业自律制度,对解决数据安全与隐私泄露问题有积极作用。从法律制度的角度看,网络舆情监测同时具备公共属性和商业属性,明确法律法规是保证相关机构在实现商业盈利的同时尊重公民权益的必要手段。2018年欧盟出台了通用数据保护条例,2021 年11 月我国开始施行中华人民共和国个人信息保护法。总体来看,依据各国大数据技术的实际使用情况,制定符合行业发展情况并具有前瞻性的大数据搜集使用条例,可以有效规范网络舆情监测中大数据技术的使用方法。2.提高大数据技术应用的透明度,避免暗箱操作从“黑箱”理论的视角来看,集合各种大数据技术

40、的舆情监测系统是一个不透明的黑色箱子。人们只能读取最终的舆情监测结果,却难以获悉技术系统内部的组织结构和运行规律。受大数据技术“黑箱”特征的影响,大数据技术使用的数据来源不断变动,运算机制并不清晰,算法演化过程的可重复性较差。与此同时,部分研究机构或商业机构的主观性操作也会影响大数据技术信息处理的最终效果。为了提高舆情监测中大数据技术使用的可靠性,“透明度”的概念有必要引入相关领域中。在数据技术兴起前,国际商会(ICC)和欧洲民意与市场调查协会(ES-OMAR)就颁布了市场研究与社会调查国际准则,其中第四条透明准则明确提出调查人员应允许客户对信息收集的过程进行检查,要向客户提供关键的技术细节

41、,要在透明客观的条件下开展调查活动。网络舆情监测也应该借鉴这种思想,重视对数据来源、算法模型的公开,相关机构也应自觉接受用户监督。3.建立统一的数据平台,打通各领域的舆情数据通道大数据技术采集到的网络舆情数据规模庞大,但是每种数据包含的信息量都十分有限,想要充分挖掘网络舆情数据价值,就要将各种数据资源有机结合到一起。不过,目前各领域都存在数据割据的情况,不同行业部门的数据无法互通互享,由此形成的“信息孤岛”造成了数据重复采集、资源难以整合的问题。为提高舆情相关数据的利用效率,需要建立跨领域的统一的数据接口,加强数据的开放共享,让全社会享受数据红利。政府部门可以出台相关的规章制度,支持掌握数据资

42、源优势的企业开放公共的682大数据技术在舆情监测领域的应用风险与风险规避舆情数据,制定统一的数据共享与交换标准,搭建统一的数据共享平台。大数据企业在保证用户数据安全的前提下,可以利用技术优势,推动建立互利共赢的数据共享机制。(五)加强人才建设,组建跨学科研究团队1.文理工相结合,培养复合型数据人才数据价值的挖掘离不开数据人才的支撑。网络舆情监测涉及多领域专业知识,相关人员应同时具备新闻传播学、统计学、计算机科学等多学科技能。一方面,从事网络舆情监测的人员应了解舆论的生成原因、演化路径、表现形态、基本特点,熟悉舆论引导、舆论危机处理的基本方法;另一方面,从事网络舆情监测的人员应掌握问卷调查、内容

43、分析等传统舆论研究方法,懂得高等数学,如线性代数、概率统计的基本知识,能够自如运用 Python、R 等编程语言。相关部门可以统筹高校、科研机构、媒体、大数据企业等多方力量,根据网络舆情监测特点制定学科发展方案,积极开展相关的职业技能培训,努力培养跨学科融合人才。2.重视人机结合,组建多元化的舆情监测团队在社会复杂程度和不确定性进一步增大的背景下,舆情信息的产量和更新速度已经超过了人力可以处理的范围,这让网络舆情监测中引入大数据技术势在必行。但是,由各种新兴技术构成的舆情监测系统并不能完全取代专家学者和媒体工作者在舆情监测中的地位。一方面,具有丰富生活阅历和舆情处置经验的舆情工作者可以敏锐发现

44、对于机器来说很难捕捉到的舆论现象;另一方面,具有多年舆论引导经验的工作人员可以将社会背景、公民心态、舆情事件特点有机结合在一起,在统筹考虑各种历史文化因素的基础上进行舆情研判。因此,要建立由“人-机”共同组成的舆情监测团队,将人类经验和机器智能统筹到一起,提升舆情监测分析结果的准确性。作者:李丹珉,华东政法大学传播学院师资博士后;谢耘耕,上海交通大学媒体与传播学院教授、博士生导师基金项目:国家社科基金重大项目“中国特色国际传播战略体系构建研究”(项目编号:22ZDA087)782新媒体与社会(第三十辑)注释1 陈忆金,曹树金,陈少驰,陈珏静.网络舆情信息监测研究进展 J.图书情报知识,2011

45、(06):41-49.2 刘丽,郭苏建.大数据技术带来的社会公平困境及变革 J.探索与争鸣,2020(12):114-122+199.3 戴维民,刘轶.我国网络舆情信息工作现状及对策思考 J.图书情报工作,2014,58(01):24-29.4 Ackoff,R.L.From Data to Wisdom J.Journal of Applied Systems Analysis,1989,16(1):3-9.5 于留宝,胡长军,苏林晗.基于 MapReduce 的微博文本采集平台 J.计算机科学,2012,39(S3):143-145.6 李龙,李芝棠,涂浩,史春永.一种分布式微博数据采集平

46、台的设计与实现J.广西大学学报(自然科学版),2011,36(S1):324-328.7 曾健荣,张仰森,郑佳,黄改娟,陈若愚.面向多数据源的网络爬虫实现技术及应用 J.计算机科学,2019,46(05):304-309.8 陈侃,陈亮,朱培栋,熊岳山.基于交互行为的在线社会网络水军检测方法J.通信学报,2015,36(07):120-128.9 廖祥文,徐阳,魏晶晶,杨定达,陈国龙.基于双层堆叠分类模型的水军评论检测 J.山东大学学报(理学版),2019,54(07):57-67.10 王磊,任航,王之怡.基于隐空间代价敏感学习的微博水军识别方法 J.计算机工程,2018,44(09):15

47、9-163+170.11 赵一,何克清,李昭,黄贻望.微博演化网络的负信息分类方法 J.计算机科学与探索,2017,11(01):91-98.12 徐帅帅,戴新宇,黄书剑,陈家骏.基于无指导学习的微博评论分析方法J.中文信息学报,2017,31(02):179-186.13 向宇,郭云龙,徐潇,曾维刚,李莉.多策略中文微博实体词消歧及实体链接 J.计算机应用与软件,2016,33(08):12-17+61.14 王旭阳,姜喜秋.基于上下文信息的中文命名实体消歧方法研究 J.计算机应用研究,2018,35(04):1072-1075.15 罗芳,李春花,周可,黄永峰,廖正霜.基于多属性的海量 W

48、eb 数据关联存储及检索系统 J.计算机工程与科学,2014,36(03):404-410.882大数据技术在舆情监测领域的应用风险与风险规避16 张敬伟,丁志均,杨青,张会兵,张海涛,周娅.异构 Redis 集群大规模评论数据存储负载均衡设计 J.华东师范大学学报(自然科学版),2017(05):20-29.17 张亮,刘百祥,张如意,江斌鑫,刘一江.区块链技术综述 J.计算机工程,2019,45(05):1-12.18 曹傧,林亮,李云,刘永相,熊炜,高峰.区块链研究综述 J.重庆邮电大学学报(自然科学版),2020,32(01):1-14.19 Blei,D.M.,Ng,A.Y.,Jor

49、dan,M.I.Latent Dirichlet Allocation J.TheJournal of Machine Learning Research,2003,3:993-1022.20 周炜翔,张仰森,张良.面向微博热点事件的话题检测及表述方法研究J.计算机应用研究,2019,36(12):3565-3569+3578.21 蔡永明,长青.共词网络 LDA 模型的中文短文本主题分析 J.情报学报,2018,37(03):305-317.22 何建云,陈兴蜀,杜敏,江浩.基于改进的在线 LDA 模型的主题演化分析J.中南大学学报(自然科学版),2015,46(02):547-553.23

50、昝红英,许鸿飞,张坤丽,穗志方.网络用语词典的构建及问题分析 J.中文信息学报,2016,30(06):133-139.24 阳爱民,林江豪,周咏梅.中文文本情感词典构建方法 J.计算机科学与探索,2013,7(11):1033-1039.25 桂斌,杨小平,朱建林,张中夏,肖文韬.基于意群划分的中文微博情感倾向分析研究 J.中文信息学报,2015,29(03):100-105.26 张克亮,黄金柱,曹蓉,李峰.基于 HNC 语境框架和情感词典的文本情感倾向分析 J.山东大学学报(理学版),2016,51(07):51-58+73.27 黄文彬,徐山川,马龙,王军.利用通信数据的移动用户行为

展开阅读全文