DB4401∕T 12-2018 网络舆情分级与判定(广州市).pdf

资源描述

1、 ICS 35.240.01 M 11 备案号： DB4401 广州市地方标准 DB4401/T 122018 网络舆情分级与判定 Classification and judgment for network public opinion 2018 - 10 - 10 发布 2018 -12 - 01 实施广州市质量技术监督局发布 DB4401/T 122018 目次前言 . 1 范围 . 1 2 术语和定义、缩略语 . 1 2.1 术语和定义 . 1 2.2 缩略语 . 1 3 网络舆情评价一般流程 . 2 4 指标体系 . 2 5 指标量化 . 3 5.1 量化要求 . 3 5

2、.2 事件指标 . 3 5.3 网民指标 . 4 5.4 媒体指标 . 5 5.5 舆情态势指标 . 6 6 综合评价 . 7 7 等级划分与风险程度评价 . 7 7.1 等级划分 . 7 7.2 结果评价 . 8 附录 A（资料性附录）文档主题生成模型 . 9 附录 B（资料性附录）基于层次分析法（AHP）的权重计算方法 . 12 I II DB4401/T 122018 前言本标准按照GB/T 1.12009给出的规则起草。本标准由中国共产党广州市委员会宣传部提出并归口。本标准起草单位：广州市网络舆情信息中心、广州市标准化研究院、广州市云润大数据服务有限公司。本标准主要起草人

3、：李伟滨、陈韶航、徐湛、萧玉珊、王贺珍、郑裕钊、曾庆贤、林毅、李永康、陈敏华、陈振兴、裴炜。本标准是首次发布。 III DB4401/T 122018 网络舆情分级与判定 1 范围本标准规定了网络舆情研判评价的一般流程、指标体系、指标量化、综合评价、等级划分与风险程度评价等内容。本标准适用于广州市网络舆情的监测、评估、预警及相关软件开发等。 2 术语和定义、缩略语 2.1 术语和定义下列术语和定义适用于本文件。 2.1.1 网民倾向性 Netizens tendency 网民对舆情的评价和态度取向。 2.1.2 焦度 Focal power 舆情在传播过程中最受关注点所处的状态。 2.

4、1.3 拐度 Flexion 舆情生命周期中拐点所处状态。 2.1.4 网站的PR值 PageRank 全称为PageRank，是google搜索排名算法中的一个组成部分，级别从1到10级，10级为满分，PR值越高说明该网页在搜索排名中的地位越重要。 2.1.5 传播扩散度 Propagation diffusivity 影响网络舆情信息安全的重要指标之一，它用来刻画某一具体的舆情事件或细化主题的相关信息在一定的统计时期内通过互联网呈现的传播扩散状况。 2.2 缩略语下列缩略语适用于本文件。 AHP：层次分析法（The Analytic Hierarchy Process） LDA：文档主

5、题生成模型(Latent Dirichlet Allocation) 1 DB4401/T 122018 3 网络舆情评价一般流程网络舆情评价工作应遵循一定的流程，主要包括以下三个环节，如图1所示： a) 舆情获取与分析：全面收集数据并获取网络舆情源头，对涉穗数据进行分类筛选，对影响因素进行细致辨识； b) 数据分析：构建层次结构的指标体系，选择科学可行的方法，进行定性和定量的数据处理； c) 评价与措施：对舆情的危险程度进行分析，得出评价结果，给出建议的处理方法。图1 网络舆情评价一般流程 4 指标体系网络舆情评价指标体系包括事件指标、网民指标、媒体指标、舆情态势指标等，这些指标又包含

6、各自的子参数，构成了一个层次的指标体系，如图2所示。针对不同的对象可选择不同的指标，包含但不限于这些指标。舆情获取与分类评价与措施舆情数据获取数据信息筛选舆情分类建立指标体系选定评价方法定性、定量分析等级划分结果评价建议处理方法数据分析网络舆情评价一般流程 2 DB4401/T 122018 图2 网络舆情评价指标体系 5 指标量化 5.1 量化要求 5.1.1 对网络舆情评价各指标量化可采用定性或定量的方法，标度范围为0,1。 5.1.2 对指标定性量化以评价小组成员的平均值作为最终量化值。评价小组成员应受过专业培训。 5.2 事件指标 5.2.1 事件性质P11

7、事件指标（P1）媒体指标（P3）事件性质（P11）事件波及度（P12）事件风险度（P13）网民活跃度（P21）网民结构（P22）情感倾向度（P23）媒体权威度（P31）传播扩散度（P32）网民指标（P2）网络舆情评价指标体系舆情态势指标（P4）传播阶段（P33）热度（P41）关注度（P42） 3 DB4401/T 122018 按照社会矛盾产生的原因对涉穗舆情信息主题进行分类，通常包括公共安全、群体事件、重大灾害、官员负面、经济财经、城市治理、意识形态等。事件性质可以通过文档主题生成模型（LDA，参见附录A）进行聚类分析，其它合适的分析方法亦可使

8、用。 5.2.2 事件波及度P12 网络舆情波及度是衡量所有网络媒体中涉及到相关信息网站的比例指标。这一指标的意义在于评判某一话题在网络中传播的广泛程度，或网民在任意登陆一家网站后能够获取到相关信息的概率。波及度为一个在0,1之间的值，可由公式（1）计算。 11,1121NijijNiiwSPw= （1）式中： P12 波及度； N1 表示涉及到相关信息的网站数量； wi 表示网站的权重； Sj 表示网站涉及到与事件相关的信息程度； N 表示网站总数量。 5.2.3 事件风险度P13 网络舆情信息内容风险度是指某一特定的网络舆情信息内容可能造成的危害程度，与评估者的着眼点密切相关，如

9、涉及重大安全事故、重大舆论危机等的负面舆情信息内容，风险度就较高。其评判结果是通过专家问卷调查确定的，可分为高风险、一般风险、无所谓、不敏感四档。网络舆情信息内容风险度经过专家问卷调查确定，构建层次分析法（AHP，参见附录B）的判断矩阵建立。 5.3 网民指标 5.3.1 网民活跃度P21 网民活跃度通过单位时间内发布信息次数、回复次数来衡量，计算方式见公式（2）。 endstart21( )( ( )tt tA tPA tN=+ （2）式中： P21 网民活跃度； A(t) 在t时刻相关事件的网民活跃值，见公式（3）； tend 最近更新时间； tstart 发布时间； N 平滑参数，表

10、示网民活跃值大于N 时具有参考价值。 1( )( ( )(1)aNiiiiA twP tP t= （3） 4 DB4401/T 122018 式中： ( )A t 在t时刻相关事件的网民活跃值； aN 网民行为种类数量； iw 各种行为的权重，权重之和为1； ( )iP t 网民在t时刻对事件发布的信息、回复等各种对信息的关注行为次数。 5.3.2 网民结构 P22 网民结构包括年龄结构、教育程度结构等多个三级指标。通过文本挖掘技术的智能分析，得出一个在0,1之间的值，如：判别式方法、矢量距离法、贝叶斯方法、记分器方法等。经过问卷调查、专家确定，将网民结构档次分为四档，分别是网民结构不好、一

11、般、好、很好。对应的网民结构得分如表1所示。表1 网民结构得分表网民结构档次不好一般好很好得分 0, 0.25) 0.25, 0.5) 0.5, 0.75) 0.75, 1.0 5.3.3 情感倾向度 P23 网民情感倾向度是民众对现实或社会问题等态度、意见、看法、要求等主观性综合反映。情感倾向度指标用以刻画针对某一特定的网络舆情信息，民众所持有的观点态度（即民意）倾向。可以通过对网民回贴关键字、褒贬义词进行分析，统计出网民对该舆情情感倾向的概率分布。 5.4 媒体指标 5.4.1 媒体权威度 P31 媒体权威度衡量了某个媒体的可信度和影响力,是一个网络媒体的最重要指标之一,常以

12、PR值进行表征，见公式（4）。它包括了媒体的性质（政府，综合大站，娱乐大站，其他），网站新闻真实可靠的比例，以及网民大众对该网站的关注人数等。 3110PRP =（4）式中： P31 媒体权威度；网站的PR值，可由站长工具输入网址得到，取值范围为1,10。 5.4.2 传播扩散度 P32 指在一段时间内，网络舆情在不同网络媒体中传播的速度，媒体舆情扩散度越大，网络媒体影响力也大。传播扩散度表征了某网络舆情信息在一定时间内的变化趋势，可以反映舆情信息是在海量的舆情信息中湮没，还是有可能带来舆情泛滥，可以通过公式（5）进行计算。 32endstart12311 100PTTxxx=+ （5

13、） PR5 DB4401/T 122018 式中： P32 传播扩散度； Tend 最近的一次观察时间点； Tstart 之前的一次观察时间点； x1 Tend-Tstart网站新闻条数； x2 Tend-Tstart微博中有关事件条数； x3 Tend-Tstart微信中有关事件条数。 5.4.3 传播阶段 P33 传播阶段包括传播量、传播权威度、传播时间三个指标。传播量为新闻的全网总数，包括新闻网站、微信、微博。传播权威度为新闻传播网站的媒体权威度，可以通过公式（6）进行计算。 1233endstart33211xxxTTPa+=+（6）式中： P33 传播权威度； a 一般情况

14、下，a=1.2； x1 网站新闻条数； x2 微博中有关事件条数； x3 微信中有关事件条数； Tend 最近的一次观察时间点； Tstart 之前的一次观察时间点。当P330,0.2，那么该新闻处于萌芽期；当P330.2,0.45，那么该新闻处于上升期；当P330.45,1，那么该新闻处于爆发期；当P330.2,0.45，那么该新闻处于下降期(经过爆发期之后下降时)；当P330,0.2，那么该新闻处于消退期(经过爆发期之后下降时)。 5.5 舆情态势指标 5.5.1 热度 P41 舆情关注度一般用主题下相关网页的数量来衡量。可通过改写过的逻辑函数Y降低数量级作为参数，赋予每个不同类别的新

15、闻数量一定的权重，得到新闻的热度。热度指数能客观反映事件、人物、品牌、地域等在互联网上的受关注程度。热度指数所呈现的数值为0,1，数值越大，表明其网络受关注度越高。热度计算公式见公式（7）。 4111223344PYbYbYbYb=+（7）式中： P41 热度； Y1 网站新闻的合成结果； b1 Y1的权重系数，权重比率为40%； Y2 微博的合成结果； b2 Y2的权重系数，权重比率为45%； Y3 微信的合成结果； b3 Y3的权重系数，权重比率为10%； 6 DB4401/T 122018 Y4 视频的合成结果； b4 Y4的权重系数，权重比率为5%。 211iixiYa=+ （8）

16、式中： Yi 第i项新闻、事件的合成结果，i=1、2、3、4； ai 第i项标准化公式参数，i=1、2、3、4，a1是网站新闻标准化公式参数1.05，a2是微博标准化公式参数1.001，a3是微信标准化公式参数1.005，a4是视频标准化公式参数1.1； xi 第i项新闻、事件条数，i=1、2、3、4，x1是网站新闻条数，x2是微博中有关事件条数，x3是微信中有关事件条数，x4是视频中有关事件条数。 5.5.2 关注度 P42 关注度会随着时间的变化而变化，新出来的新闻会较为受人们所关注，舆情关注度可根据公式（9）进行计算。 42changescountsageupdate11001PQ

17、QQQ=+（9）式中： P42 关注度； Qcounts 截至目前为止话题的总指数； Qage 距离话题发表的时间(天)； Qchanges 最近一次更新的指数增长量，一段时间内话题的增加数目； Qupdate 最近一次更新时间(天)。 6 综合评价根据第5章得出的各单项评分结果，按公式（10）依照单项结果的加权平均得出综合评价的结果。 niiiRwP=（10）式中： R 综合评价得分； n 指标项的个数； wi 第i项指标的权重，具体指标参见第5章； Pi 第i项指标的得分。 7 等级划分与风险程度评价 7.1 等级划分网络舆情划分为4个等级，分别为蓝色祥和区(良好区)、绿色安全区(

18、正常区)、橙色警戒区(基本安全区)和红色警戒区(不安全区)，具体如下： a) 蓝色祥和区：表示安全，正常网络信息流通，没有引起网民的关注，没有舆情倾向； 7 DB4401/T 122018 b) 绿色安全区：表示相对安全，网民对该网络信息关注度低，传播速度慢，没有转化为舆情的可能； c) 橙色警戒区：表示临界，网民对该网络信息关注度较高，传播速度中等，具有转化为舆情的可能； d) 红色警戒区：表示危险，网民对该网络信息高度关注，传播速度快，已经形成舆情，表现出一定的社会效应。 7.2 结果评价综合评价得分取值区间为0,1，根据大量数据统计、实验发现如下规律： a) 综合得分越高，事件的风险程

19、度越高； b) 综合得分在 0.3 及以下的事件，一般为安全、和谐的事件； c) 综合得分在 0.3 到 0.5 之间的事件，一般为比较安全的事件，这类事件如果不再有更大的因素触发，会慢慢地冷却； d) 综合得分在 0.5 到 0.7 之间的事件，一般为比较热的事件，如果有负面的因素触发，很有可能转为负面、危险事件，一般为临界事件； e) 综合得分在 0.7 及以上的事件，一般为社会影响比较大的事件，该类事件传播速度快，多带有负面影响，可定为高风险事件。根据综合得分及其对应的事件等级、风险程度规律，确定4个等级的评价尺度表，见表2。表2 评价尺度表计算结果评语安全等级警示 0,

20、 0.3) 安全 4 蓝色祥和 0.3, 0.5) 较安全 3 绿色安全 0.5, 0.7) 临界 2 橙色警戒 0.7, 1.0 高风险 1 红色警戒 8 DB4401/T 122018 附录 A （资料性附录）文档主题生成模型 A.1 概述 LDA 文档主题生成模型是一种对离散数据集（如文档集）建模的概率主题模型，其中有两个重要的概率分布：Dirichlet 分布和多项式分布，且 Dirichlet 分布是多项式分布的共轭先验。 A.2 Dirichlet分布和多项式分布 Dirichlet 分布被认为是分布之上的分布。K维 Dirichlet 分布的定义如下（公式（A.1））。

21、1111()Dir( | )=()kKKkkkKkkkpp=（A.1）其中： 11p(,.,)(,.,)kkpp=，且1,.,k是相等的。是伽马函数，当 n 是正数时，有公式（A.2）。 ( )(1)!nn= （A.2）多项式分布的定义如下（公式（A.3））。 11!( | , )=!iKxiKiiinMulti xn ppx=（A.3）其中： xi表示数值 i 在样本中出现的次数。若 p 的先验概率如公式（A.1）所示，由 Dirichlet 分布和多项式分布共轭可知，p 的后验概率为（公式（A.4））： 1111(| , )(|)()()ikKkkxKkkkKkkkP

22、p xDir p xxpx+=+=+ （A.4）即 p 的先验分布和后验分布的形式是一样的，都是 Dirichlet 分布。 A.3 LDA文档主题生成模型 LDA 认为文档是由多个主题按某种比例混合构成，而主题是单词上的多项式分布，见表 A.1。表A.1 LDA 中的参数说明符号说明符号说明文档-主题分布的 Dirichlet 超参数，反映了文档集中主题间的相对强弱 k 主题 k 的词分布 9 DB4401/T 122018 表 A.1 LDA 中的参数说明（续）符号说明符号说明主题-词分布的 Dirichlet 超参数，刻画了主题自身的概率分布 K 主题数 d 文档

23、 d 的主题分布 Nd 文档 d 中的特征单词数 Zd,n 文档 d 中第 n 个词的主题编号 D 文档数 Wd,n 文档 d 中第 n 个词 LDA 概率主题模型生成文本的过程如下： a) 对于主题 Z，根据 Dirichlet 分布（公式（A.1）Dir（）得到该主题上的一个单词多项式分布向量； b) 根据泊松分布 P 和公式（A.4）得到文本的单词数目 N； c) 根据 Dirichlet 分布（公式（A.1）Dir（）得到该文本的一个主题分布概率向量； d) 对于该文本 Nd个单词中的每一个单词 Wd,n： 1) 从 d的多项式分布（公式（A.3）中随机选择一个主题 Zd,n； 2

24、) 从主题 Zd,n的多项式条件概率分布（公式（A.3）选择一个单词作为 Wd,n。 A.4 LDA模型的参数推断采取Gibbs抽样算法计算LDA模型中最重要的两组参数各主题下的词项概率分布、各文本的主题概率分布。在已知文本集（即生成的结果）的情况下，通过参数估计得到参数值。根据图模型，可以得到一篇文本的概率值。通过积分避开了实际待估计的参数，转而对每个单词的主题进行采样，一旦每个单词的主题确定下来，参数就可以在统计频次后计算出来。因此，参数估计问题变为计算单词序列下主题序列的条件概率，其公式如下（公式（A.5）。 ( )( ),( )( ),11(|,)()()kvdikiiiKVkv

25、dikikvccP zkcc=+=+zw （A.5）其中： iz为除去当前词后的所有词的主题分配；w为所有词；( ),kdic为除当前词以外，文档d中主题k产生的词的个数；( ),vkic为除当前词外，主题k词v出现的次数；V为词项数。一旦获得每个单词的主题标号，需要的参数计算公式可由下面公式（公式（A.6）、（A.7））计出。 ( ),( ),1()kdikdKkdikcc=+=+ （A.6） 10 DB4401/T 122018 ( ),( ),1()vkivkVvkivcc=+=+ （A.7）其中： kd为文档 d 中主题 k 所占比例，vk表示主题 k 中词 v 所占比例。

26、 A.5 LDA模型训练和推理利用 Gibbs 抽样公式，建立基于语料训练的 LDA模型，并应用训练得到的模型对新的文档进行 topic 语义分析。训练的流程如下： a) 随机初始化：对语料中每篇文档中的每个词w，随机赋一个 topic 编号z； b) 重新扫描语料库，对每个词w，按照 Gibbs 抽样公式重新采样它的 topic，在语料中进行更新； c) 重复以上语料库的重新采样过程直到 Gibbs 抽样收敛； d) 统计语料库的 topic-word 共现频率矩阵，该矩阵就是 LDA 的模型。在 LDA 模型训练的过程中，取 Gibbs 抽样收敛之后的n个迭代的结果进行平均

27、来做参数估计，模型质量更高。 A.6 新文档语义预测按照Gibbs抽样公式实行迭代收敛后，得到文档的主题分布，从分布中选择概率最大的对应主题作为文档的主题。 11 DB4401/T 122018 附录 B （资料性附录）基于层次分析法（AHP）的权重计算方法 B.1 概述 AHP 法是一种定性与定量相结合多目标决策和规划的分析方法，被广泛应用于多目标、多要素、多层次的非结构化问题的解决方案中。确定舆情指标权重的步骤如下。 B.2 构建递阶层次结构模型把问题层次化，根据问题的性质和要求达到的总目标，把问题分解成不同的组成因素，根据因素间的相互关系影响及隶属关系，把各因素按不同层次聚集组

28、合，形成一个多层次的分析结构模型。 B.3 构建出各层次中的两两比较判断矩阵判断矩阵A是本层所有因素针对上一层某一个因素相对重要性的比较，两两相互比较结果可表示为公式（B.1）。 ijAa=（B.1）式中： A 判断矩阵； aij 矩阵元素。矩阵中各元素aij的取值根据19的比例标度法计算，如表B.1所示。表 B.1 矩阵元素 aij的标度计算法标度值含义 1 表示两个因素相比，具有同样的重要性 3 表示两个因素相比，因素 i 比因素 j 稍微重要 5 表示两个因素相比，因素 i 比因素 j 明显重要 7 表示两个因素相比，因素 i 比因素 j 强烈重要 9 表示两个因素相比，因素

29、 i 比因素 j 极端重要 2,4,6,8 上述两相邻判断的中值倒数因素 i 与因素 j 的重要性判断为 aij，则因素 j 与因素 i 的重要性判断为 aji=1/aij B.4 层次单排序及其一致性检验判断矩阵A对应于最大特征值max的特征向量W，经归一化后即为同一层次相应因素对应上一层次某因素相对重要性的排序权值，这一过程成为层次单排序。 12 DB4401/T 122018 若A最大特征值max对应的特征向量为W = (w1,wn)T，则aij= wiwj，i,j= 1,2,n。即按公式（B.2）。 A =w1w1w1w2w2w1w2w2w1wnw2wnwnw1wnw2wnwn

30、（B.2）若CR0.10，则一致性成立，CR按公式（B.3）和（B.4）计算。 CICRRI=（B.3）其中： max()(1)nCIn=（B.4） RI如表B.2所示取值。表 B.2 RI 值 n 1 2 3 4 5 6 7 8 9 10 11 11 RI 0 0 0.58 0.90 1.12 1.24 1.32 1.41 1.45 1.49 1.51 1.51 B.5 层次总排序及其一致性检验为了计算最底层中各因素相对于总目标的拓序权重，设总目标K的第一个层次（A层）包含m各因素，即为A1、A2、Am，层次总排序权重为a1、a2、am。A的下一层为B层，包含n个因素，记为B1

31、、B2、Bn，关于Aj的层次单排序权重为b1j、b2j、bmj（当Bi与Aj无关联时bij=0）。B层各因素关于总目标的权重可以按表B.3计算。表 B.3 总目标权重计算表层 A 层 B A1 a1 A2 a2 Am am B 层总排序权值 B1 b11 b12 b1m 1=1 B2 b21 b22 b2m 2=1 Bn bn1 bn2 bnm =1 13 DB4401/T 122018 若 CR0.10，表示判断矩阵的一致性成立，其中 CR 按公式（B.5）计算。 11( )( )mjjmjjCI j aCRRI j a=（B.5） B.6 一致性检验处理当两比较判断矩阵出现不一致性时，需重新确定层次结构和各因素，构建两两比较判断矩阵，并再次进行一致性检验。 _ 14

展开阅读全文