收藏 分销(赏)

基于大规模网络社群分割的国际分众舆情分析——以2022年G20峰会为例.pdf

上传人:自信****多点 文档编号:633734 上传时间:2024-01-19 格式:PDF 页数:7 大小:1.66MB
下载 相关 举报
基于大规模网络社群分割的国际分众舆情分析——以2022年G20峰会为例.pdf_第1页
第1页 / 共7页
基于大规模网络社群分割的国际分众舆情分析——以2022年G20峰会为例.pdf_第2页
第2页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、研究目的 国际舆论研究既需要覆盖范围广泛,也需要针对细分群体进行分众化分析,而已有的以文本为中心的舆情分析方法难以满足上述需求。因此本文提出一种以网络为中心的国际分众舆情分析方法。研究方法首先采用个性化网页排名算法对社交媒体用户随机游走采样,得到未被社交机器人污染的大规模用户网络,然后基于社交媒体舆论嵌入在各种同质网络中这一特征,用经典稀疏主成分分析对用户网络进行社群聚类,将具有共同纽带或身份的个体划分入同一社群,最后用深度学习分别针对各个社群进行舆情分析。研究结论 通过对 2022 年G20 峰会的国际舆情分析,发现各社群的舆论表达与其身份高度相关,验证了本文提出方法的有效性。除了在对抗社交

2、机器人干扰、用户群体细分方面做出改进性工作,本文还为国际舆情演化的实证研究提供了方法论支撑。关键词:舆情分析;国际舆论;社交媒体;网络社群;网页排名;社群发现;深度学习中图分类号:G206摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 文献标识码:A摇 摇 摇 摇 摇 摇 摇 文章编号:1002-1965(2023)09-0077-07引用格式:杨摇 帆,章耀之,张宏邦.基于大规模网络社群分割的国际分众舆情分析J.情报杂志,2023,42(9):77-83.DOI:10.3969/j.issn.1002-1965.2023.09.012Opinion Analysis of Focus Groups

3、Based on Community Detection inMassive Networks:The Case of 2022 G20 SummitYang Fan摇 Zhang Yaozhi摇Zhang Hongbang(School of Journalism and New Media,Xian Jiaotong University,Xian摇 710049)Abstract:Research purpose The study of public opinion requires aggregate-level measurement and the analysis of foc

4、us groups.Thetext-centric approach fails to meet these requirements.Therefore,we propose a network-centric approach for public opinion analysis ofsocial media focus groups.Research method We first sample targeted accounts from a large social graph with the personalized page-rank.Then,we utilize the

5、vintage sparse principal component analysis to cluster millions of accounts based on the social network structure,where like-minded individuals interact with each other and reinforce opinions.Opinions of each focus group are mined via a deep learningapproach.Research conclusion We empirically analyz

6、e international public opinion related to the 2022 G20 summit.The results showthat the focus groups express opinions closely connected to their identities,validating the proposed approach.In addition to suppressing theinterference of social bots in opinion analysis and segmentation of the user group

7、,this study further provides methodological contributionsto empirical research on the evolution of international public opinion.Key words:public opinion analysis;international public opinion;social media;online community;page-rank;community detection;deep learning第 42 卷摇 第 9 期2023 年 9 月摇 摇 摇 摇 摇 摇 摇

8、 摇 摇 摇 摇 摇 摇情摇 报摇 杂摇 志JOURNAL OF INTELLIGENCE摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇Vol.42摇 No.9Sep.摇 2023摇 摇 国际社交媒体是了解国际舆论的重要窗口。诸如Twitter 这样的国际社交媒体,如今已成为全球不同地区不同背景用户发表时事评论、讨论公共议题、发挥个人影响力的重要平台1。社交媒体作为大众表达意见的空间,也常被用作舆情分析工具2。相较于传统的基于民调的舆情分析,基于社交媒体舆情分析的优势在于实时性和连续性3,以及更大的样本规模。其劣势在于人口统计学表征的缺失,即缺乏对社交账号背后用户的了解。这导致目前以文本为

9、中心的社交媒体舆情分析方法存在两个问题:一是“只知大众,不知分众冶 不掌握细分群体的意见气候4;二是分析结果容易受网络水军、社交机器人等舆论操纵影响5。社交媒体舆论的另一关键特征是它嵌入在各种同质网络中,即所谓“人以群分冶 志趣相投的人往往具有更紧密的社会网络关系,并且容易在相互交流中强化观点,产生回音室效应6。这些特征说明国际社交媒体有望成为分众舆情分析的理想工具,但同时亦存在诸多挑战。不同于以文本为中心的舆情分析方法,本文提出一种以网络为中心,旨在针对国际范围内不同细分群体的舆论表达进行分众化分析。以 Twitter 为例,研究了各细分群体关于2022 年 G20 峰会的认知。首先,为排除

10、网络水军和社交机器人对舆情分析的干扰,采用个性化网页排名7算法对用户进行采样。其次,以采样到的账号作为二部图顶部,采样账号所关注的账号作为二部图底部,构建了一张账号数达 2956 万,关系数达 2 亿的社会关系网络图。然后,使用经典稀疏主成分分析8对图邻接矩阵进行降维,将用户细分为100 个群体,并通过提取用户个人简介关键词对社群进行表征。最后,使用深度学习对各群体涉及 2022 年G20 峰会的推文进行细粒度话题分析。国际分众舆情分析不仅有助于在国际传播中更好地实施精准传播策略,还有助于维护我国意识形态安全和政治安全,希望本研究能对此有所裨益。1摇 理论基础和文献回顾摇 1.1摇 社交媒体舆

11、论与同质网络社交媒体的发展促进了公众舆论场的分散和多元化。舆论是一个相对模糊的概念,西方主流学界认为舆论是社会中相当数量的人对于特定议题所表达的个人观点、态度和信念的聚合9,与中文传统中的“民意冶相似。在前社交媒体时代,这种民意一般是通过调查得到个人意见的代表性集合,再由大众媒体公之于众。社交媒体的出现改变了媒介生态和人际沟通方式,也对舆论赋予了新的概念。首先是大量民众短时间内通过社交媒体对现实中的某些焦点问题发表评论、转发信息而产生的网络舆情,具有比传统媒体舆论影响力更强、影响范围更广和反应更快的特点。其次,网络让人际沟通摆脱了地理空间限制,在社交媒体的组织下,具有共同纽带或身份的个体聚集在

12、同一个非物理化空间,成为技术社会(techno-social)空间调节下的意见表达共同体10。这种意见表达共同体并非个体意见的单纯加总,而是群体内部不断对话的产物。有研究表明这种同质化群体内部的舆论更容易产生回音室效应11,尤其是当涉及政治议题时。个体对各种议题的看法可能在社群内高度一致,但在社群之间却截然不同。此外,有大量研究表明社交媒体舆论易受社交机器人和网络水军的操控,例如散播虚假消息、制造对立、编造主流意见等5,12。因此,对社交媒体舆论总体层面的分析,可能并不具备人口统计代表性。社交媒体舆论的分众化分析,需要更多关注舆论的网络特征和意见来源,避免将用户视作一个整体,并区分来自各个角落

13、的意见。这种基于同质网络的舆情分析,不仅可以精准定位细分群体,还可以将社交机器人或网络水军排除在外,因为有研究13表明社交机器人或网络水军通常会被划入同一个社群。摇 1.2摇 社交媒体舆情分析已有的社交媒体舆情分析方法大多以文本为中心。这类方法通常第一步都是基于舆情事件的关键词或词典对社交媒体内容进行搜索和抓取。安璐14提出对抓取内容按照发表的时间段,通过对词嵌入语义变化的分析,了解舆情的演化特征。周书环15通过对新冠肺炎疫情期间微博文本情绪和用户转发行为的因果分析,发现积极情绪对社交媒体分享行为影响更大。黄河16通过对“江歌案冶网民评论的情绪分析,发现明显的群体极化现象。社会科学研究者多是借

14、助一些开箱即用的自然语言工具进行文本分析,主要任务包括情感分析、情绪分析和主题分析。当想对抓取文本进行更细粒度的质性分析时,人工编码仍然是社科领域舆情分析的重要方法,比如对新冠疫情期间的舆情事件分类2。还有一些研究通过对抓取内容进行网络建模,探究舆情的扩散机制。基于网络建模的舆情分析方法按照建模方式可分为两类:转发网络和人际关系网络。前者例如王晰巍对“河南暴雨冶17事件的转发网络的研究;后者例如邢云菲18对“天和核心舱发射冶话题参与用户空间网络的研究。国际舆论研究大多以涉华舆情分析为主19,通过分析文本的语种或地理信息标注区分不同国家用户的涉华态度和认知。研究还发现涉及国际政治事件的舆论,经常

15、存在舆论操控的情况。以文本为中心的舆情分析大多将社交媒体用户或文本所涉及用户看作一个整体,未能充分利用社交媒体舆论嵌入在各种同质网络中这一特征,进而揭示87 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 情摇 报摇 杂摇 志摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 42 卷细分群体的舆论表达差异。已有的研究无法回答诸如“是哪些用户群体在制造舆情?冶“是谁在主导舆情?冶等此类问题。此外,已有舆情分析研究面对复杂语境下的细粒度质性分析往往不得不依赖人工编码。而针对国际范围的舆情分析,不仅样本规模巨大,涉及的文化和语言因素也更加

16、复杂。综上所述,已有社交媒体舆情分析方法难以满足国际舆情分析分众化的需求,因此本文试图提出一种针对全球范围的分众舆情分析方法。完成上述目标首先需要发现社交媒体中的同质网络,因此提出研究问题:RQ1:对大规模网络的社群分割,社群内的个体是否具有同质性?如果社群内的个体具有同质性,那么他们的舆论表达应该具有主题上的相似性。如果以上假设成立,将为个体意见聚合为群体意见提供实证支持。因此:RQ2:社群舆论表达模式与其身份是否存在相关性?2摇 研究方法本文以 Twitter 为例,对大规模网络进行社群分割,然后对各细分群体关于2022 年 G20 峰会的言论进行话题分析,研究框架如图 1 所示。首先(图

17、 1a),选取一批目标意识形态或身份相关的意见领袖账号作为种子用户,以种子用户为起始点进行大规模用户采样;然后(图 1b),用采样用户和其所关注用户构建二部图,利用社群发现算法降维;最后(图 1c),分别对各社群内用户推文进行话题分析,并根据分析结果更新种子用户。图 1摇 研究框架摇 2.1摇 目标用户采样和关系网络构建2022 年 11 月期间,我们利用个性化网页排名(Personalized PageRank,PPR)算法7对 Twitter 用户进行了大规模采样。PPR 采样以一组种子用户为起始节点,然后随机游走至当下节点的邻居节点,以此往复。游走的每一步有两种可能:有 琢 概率前进至当

18、下用户关注列表中随机选取的一名用户;或者1-琢 概率返回至起始点。琢 是传送常数,在本研究中设为 0.15。个性化随机游走的平稳概率分布称为 PPR 向量,向量所对应的节点即为被采样用户(算法 1)。Twitter 关注网络属于度矫正随机块模型,在该模型下,个性化随机游走会趋向收敛,并取得稳定的结果。由于社交机器人或网络水军一般粉丝很少,因此该方法可以生成一个不受社交机器人或水军污染的用户关系网络。关于种子用户我们参考了 Y.Zhang et al20的研究,选取了一些活动家、权威人士、记者和媒体机构的账号,共 72个。然后在此基础上加入了 Twitter 上中国外交、媒体相关的个人和机构账号

19、,还有一些对华友好外籍人士的账号,共 29 个(参见在线附录:http:/www.narra鄄tivenet.work/social-media-public-opinion/supple鄄ment,下同)。最终我们共采样到 130 503 个账号,他们共关注 2 956 万个账号。算法 1:个性化网页排名(无向图)输入:无向图 G=(V,E),单位向量 仔(种子用户),传送常数琢,收敛宽容度 缀初始化:p 饮 0,r 饮 仔,琢 饮 琢/(2-琢)while 埚u 沂 V 使得 ru逸 缀 du摇 摇/du为节点 u 的度均匀随机采样节点 u 满足 ru逸 缀 dupu饮 pu+琢 ru摇

20、摇 for v:u,()v沂 E dorv饮 rv+1-琢()ru/(2 du)摇 摇 end forend while输出:近似 PPR 向量 P摇 2.2摇 大规模网络社群分割PPR 采样到的用户和他们关注的用户可以构成一张二部图。考虑到度过小的节点不利于分类,我们递归过滤掉图中入度小于 10,出度小于 4 的节点。过滤后剩余 120 545 个账号,共关注 2 440 620 个账号。然后我们使用经典稀疏主成分分析(Vintage Sparse Prin鄄cipal component analysis,VSP)8对二部图邻接矩阵降维。VSP 类似于因子分析的简化形式,它扩展了主成分分析

21、的经典方法,将稀疏性融合到了主成分分析中,保持最大方差的同时得到稀疏的载荷向量,可以更好地挖掘数据信息。我们利用 VSP 算法将 244 万账号分割为 100 个社群(算法 2)。社群是一种内部比外部节点联系更紧密的结构,即每个用户都更倾向于关注社群内部的用户。以二部图作为 VSP 算法的输入而非采样用户的关系图,主要基于以下假设:具有共同身份或意识形态的用户,其关注列表或粉丝列表往往具有更高的相似度。分类关注账号而非粉丝账号主要97摇 第 9 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 杨摇 帆,等:基于大规模网络社群分割的国际分众舆情分析出于三个原因:1)关注账号更可能是意见领袖,对舆论

22、更有影响力;2)已有研究证明 Twitter 的关注账号和粉丝账号社群分割结果基本一致21;3)关注账号比粉丝账号规模小的多,更节省内存和算力。算法 2:基于经典稀疏主成分分析(VSP)的社群分割输入:二部图邻接矩阵 A 沂 0,1n伊m,n 为采样账号数,m 为关注账号数,k 为社群数1.定义正则化 Laplacian 矩阵 L 沂 Rn伊m2.摇 摇Lij=Aij+,for i=1,2,n,j=1,2,m,3.摇 摇 摇 摇 摇ri=移mj=1Aij,ci=移ni=1Aij,子r=移iri/n,子c=移jci/m4.对矩阵 L 进行奇异值分解,L抑U卒撰卒V卒T,U卒沂Rn伊k,V卒沂Rm

23、伊k,撰卒沂 Rk伊k5.对 V卒进行方差最大旋转,6.摇 摇 最大化移kl=11m移mj=1Y4jl-1m移mj=1Y2()jl2,7.摇 摇 使得 Y=V卒O,OTO=Ik,O 沂 Rk伊k8.输出:Y,Yjl=maxYj(),j 账号属于 l 社群摇 摇 为探究社群内的个体是否具有同质性(RQ1),我们对社群内账号按载荷排名,抓取了排名前 1000 账号的个人简介,利用从中提取的关键词对社群进行表征。只抓取排名靠前用户主要出于以下原因:排名更靠前的用户更可能属于重要的意见领袖,因为他们被社群内更多的采样用户所关注。关键词提取算法包含三步:首先将所有个人简介合并为一个输入文档,使用scik

24、it-learn 库中的 CountVectorizer 将输入文档分割为词组;然后使用自然语言模型 paraphrase-multilingual-mpnet-base-v2 对词组和文档分别提取嵌入;最后计算所有词组嵌入和文档嵌入的余弦相似度,相似度越高的词组越接近输入文档的语义。我们选取相似度最高的 10 个词组作为表征文档的关键词。摇 2.3摇 细粒度话题分析关于研究问题 RQ2,我们抓取社群内用户关于特定事件的推文,然后对其进行话题分析。为了排除社群规模对舆论声量的影响,我们只检索了社群内排名前 10000 的用户在 2022 年 11 月 14 日至 17 日之间发表的包含“g20

25、/G20冶的推文。需要注意的是,用户数、检索关键词和时间区间的选取需要达到一种平衡,使得检索结果精准、全面,且达到一定规模。话题分析我们使用了 BERTopic22,它的算法分为四步:首先选择一个自然语言模型提取文档嵌入,本文使用的是 para鄄phrase-multilingual-MiniLM-L12-v2;然 后 使 用UMAP(uniform manifold approximation and projection)对嵌入降维;再然后用 HDBSCAN(hierarchical density-based spatial clustering of applications with

26、 noise)对降维后的嵌入进行聚类,生成具有相似语义的文档簇;最后利用 c-TF-IDF(class based term frequency-inversedocument frequency)进行话题精简和主题词提取,并使用 MMR(maximal marginal relevance)提升主题词的连贯性和多样性,最终得到按照频率排名的话题聚类结果。BERTopic 相较于许多舆情研究中采用的 LatentDirichlet allocation(LDA)模型14,18有许多优势。LDA是一种基于普通机器学习的自然语言处理算法,采用词袋模型,即仅考虑词汇是否出现而不考虑出现的顺序。LDA

27、 通过对主题词的聚类分析,计算文档属于某个预设话题的概率。LDA 适用于数据集较小并且上下文是特定领域的话题分类。而 BERTopic 基于深度学习,采用词嵌入,因此保留了词汇的上下文信息。BERTopic 通过对空间距离相近词向量的聚类,生成由上下文紧密相关的主题词描述的多个话题,话题分析结果具有更细的粒度。在数据集较大,上下文不固定,一个文档对应多个话题时,BERTopic 能取得比 LDA更好的舆情分析效果。此外,用户还可以根据文档的语种、领域、规模以及算力条件,选取更适合的自然语言模型,提升分析效果。常用的主题模型评价指标包括主题连贯性和多样性。以特朗普推文数据集为例,LDA 的评价结

28、果分别为-0.011 和 0.502;而 BERTop鄄ic 的评价结果分别为0.066 和0.663,均优于 LDA22。3摇 结果分析我们将 2 440 620 个关注账号分割为 100 个社群,其中有 75 个社群账号数大于 1 000,57 个社群账号数大于10 000,最大的社群有213 475 个账号。我们从每个社群的前 1 000 个账号中总计随机抽取了 1 000 个账号,然后用 botometer23检测疑似社交机器人账号。经判定,共检测到 34 个账号的机器人得分超过 0.8,占总数的 3.4%。而在采用同样检测标准的其他研究中,发现 Twitter 疑似机器人账号的比例高

29、达 13%24。说明本研究已较成功地排除了社交机器人对舆情分析的干扰。最后,作者将提取的社群关键词对照实际的账号个人简介进行了验证。为方便下文对话题分析结果进行阐述,作者根据关键词对各个社群进行了命名。账号数排名前 5 的社群如表 1 所示,完整结果见在线附录 2。从表中可以看出,描述社群的 10 个关键词的内涵具有同质性。此外,我们还在每个社群中随机抽取 20 个账号对其进行了人工分析。分析结果也表明社群内的个体具有同质性(RQ1)。08 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 情摇 报摇 杂摇 志摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇

30、 摇 摇 摇 摇 摇 第 42 卷表 1摇 社群分割结果及表征名称账号数关键词1生活类、鸡汤类博主21 3475(8.7%)speaker entrepreneur,hostthinkbigsundaywithmarsha,marketer presenter,media strategist,twitter ex鄄pert,mainecoon writer,success podcast,blogger foodie,digital marketer,lifestyle expert2搞笑类博主122794(5.0%)tv comic,enjoy twarts,scream streamin

31、g,podcast questions,netflix spicy,watch home,fuzz scott,super crazy,rock new,sick paul3黑人平权、反种族歧视、社会公正115169(4.7%)colorlines multimedia,black folks,justicia activists,critic bylines,multiracial democracy,byp100action,lgbtqtaskforce,liberation lines,organization atlanta,reader funded4国防、军事、外交相关新闻、评论7

32、6119(3.1%)defense news,military commentary,defense foreign,defense community,conflict commentary,ad鄄viser geopolitics,security political,defense author,america interests,ryansontherocks journalist5LGBT 权利运动75190(3.1%)democratlgbtq,womensrights bluecommunity,supporter voteblue,politicaljunkie nodm,ch

33、ristianityliberal,bkindorbfunny blm,follow racism,patriotic,believer,soberlife resist摇 摇 57 个用户数大于 10 000 的社群共抓取到 G20 峰会相关推文 16687 条,各社群推文数分布在 0 至 3 130条之间,平均 293 条,中位数 88 条。我们重点分析了推文数在 200 条以上的 18 个社群,认为这些社群对G20 峰会较为关注。各社群推文数和推文发表者比例在 1.7 至 4.3 之间,未发现大量推文由极少数用户发表的情况,说明已排除了社交机器人的干扰。我们通过调整 BERTopic 参

34、数,让各社群推文主题词聚类为 9个话题,每个话题用 10 个主题词描述。表 2 展示了部分具有代表性身份或意识形态的社群话题分析结果,话题频率由高到低排序,编号 0 到 8。由于空间所限,主题词只展示了前 6 个,按照 TF-IDF 分数排名,用下表 2摇 话题分析名称推文数话题35印度官方发言人、印 度主流媒体T:3130U:8900_presidency_india_ceremony_closing_indonesia_g201_war_ukraine_russia_era_g20_declaration2_digital_transformation_g20india_food_secu

35、rity_india3_biden_modi_joe_summit_president_pm4_bali_summit_arrives_indonesia_g20_pm5_bali_summit_pm_prime_shri_president6_xi_chinese_dinner_president_jinping_trudeau34中国官方外交、各 省 市外宣相关T:1410U:4490_russia_ukraine_g20_war_la_el1_bali_g20_indonesia_summit_wuling_la2_g20_di_dan_2022_ktt_pemimpin3_xi_jin

36、ping_challenges_future_17th_president4_peng_bali_xi_president_jinping_chinese5_president_met_bali_g20_minister_xijinping6_biden_joe_xi_president_jinping_bali7_trudeau_canada_que_china_xi_g208_health_drtedros_healthforall_ebola_uganda_support8英国亲建制派政治专栏记者、编辑T:515U:2330_sunak_rishi_dominic_raab_g20_de

37、puty1_poland_missile_missiles_hit_leaders_russian2_putin_state_vladimir_rishi_sunak_russia3_hospital_lavrov_taken_arriving_foreign_sergei4_ukraine_war_g20_strongly_condemned_members5_xi_china_jinping_meeting_sunak_rishi6_biden_joe_president_trade_deal_xi7_barbaric_end_war_ukraine_rishi_lavrov8_leaks

38、_trudeau_canada_media_xi_china摇 摇 摇 注:T 表示推文数,U 表示用户数划线相连(完整结果见在线附录 3)。只需具备基础的国际背景知识,结合搜索引擎对主题词的检索结果,就可以对话题做进一步描述性分析。发表 G20 相关言论最多的是 35 号社群(印度官方发言人、印度主流媒体),共 3 130 条,涉及 890 名用户。话题 0、4、5 描述印度总理莫迪抵达巴厘岛将参加G20 峰会。话题 1 描述 G20 领导人通过一份宣言,谴责俄罗斯对乌克兰的侵略。话题 2 描述印度接任 G20轮值主席国,莫迪发表的讲话,涉及数字化转型、食品、安全、健康等议题。话题 3 关于

39、莫迪和美国总统拜登、英国首相苏纳克的会面。话题 6 描述了中国国家主席和加拿大总理特鲁多在出席 G20 峰会一场活动间隙进行的对话。话题 7 和 8 是印地语,此表未列出。该社群发表 G20 相关言论最多的原因的几点分析:首先,按用户数计算,印度是 Twitter 第三大市场;其次,莫迪作为印度“网红冶,相较别国领导人具有更高的国内人气;最后,印度作为下一届 G20 轮值主席国,莫迪有借 G20 峰会媒体曝光拉升支持率的动机。社群 34(中国官方外交、各省市外宣相关)发表推文 1410 条,涉及 449 名用户。话题 0 与俄乌冲突相关,提到俄罗斯外长拉夫罗夫参加 G20,未提到谴责宣言。话题

40、 1 关于中国五菱新能源登上 G20 巴厘岛峰会,话题 2 关于中国国家主席密集会见多国领袖,话题3 关于中国国家主席出席 G20 峰会并发表重要讲话,话题 5 关于中印尼两国元首的互动,话题 6 与“习拜会冶相关,话题 7 与中加元首的互动相关,话题 8 与非洲国家的健康、卫生、食品相关。关于社群 34 的话题分析,首先凸显了中国在俄乌冲突问题立场上与西方国家的差异;其次彰显了中国对非洲外交的高度重视;然后是元首夫人外交成为我国外交的新亮点;最后是中国制造的国际形象在改善。社群 8(英国亲建制派政治专栏记者、编辑)发表推文 515 条,涉及 233 人。频率最高的话题是由于首18摇 第 9

41、期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 杨摇 帆,等:基于大规模网络社群分割的国际分众舆情分析相里希苏纳克出席 G20 峰会,英国副首相多米尼克拉布代替接受国会首相问答。话题 2 描述世界各国领导人对俄制导弹落在北约成员国波兰事件的讨论。话题 3 和 7 都是苏纳克对俄罗斯或普京的批评。话题3 描述俄罗斯外长拉夫罗夫驳斥有关他在 G20 峰会上被送往医院的报道。话题 4 描述 G20 成员国谴责俄罗斯在乌克兰的战争。话题 5 报道英国首相苏纳克与中国国家主席会面取消。话题 6 是对即将到来的“习拜会冶的评论,指出上一次两国元首会面后达成了一项贸易协议。从社群 8 的话题分析中可以看出,以

42、BBC 为代表的英国建制派媒体具有强烈的反俄倾向。此外,英国副首相在国会质询中不得不承认自己正接受有关“霸凌冶问题的调查,也折射出英国正陷入系统性政治危机。此外,社群 4(国防、军事、外交相关新闻、评论)最关注俄乌冲突,社群 12(以色列记者)对中美俄和中东国家的讨论较多,社群 24 中有很多特别关注中国的另类媒体。社群 43 有点类似爱国饭圈组织。还有一些带有地域标签的社群(28、36、39、44、48、50、52、56),除了对本国和周边国家议题关注外,普遍都关注中美俄相关报道。在 G20 相关议题上,美国进步派和保守派所关注话题未显示出意识形态方面的明显差异。对18 个社群的完整话题分析

43、结果参见在线附录。分析结果表明,社群舆论表达与社区身份具有一致性(RQ2)。4摇 讨论和总结文本提出一种分众舆情分析方法,可以将大规模用户网络高效聚类为上百个社群,然后针对细分群体分析舆情。国内社交媒体舆论研究侧重于舆情治理,所以通常只关注舆论声量较高的那部分用户,分析结果可能不具有人口统计代表性。将此类方法用于国际舆论研究,则会出现过度偏重“涉华冶议题的倾向19。虽然近年来国际社会对中国关注确实明显上升,但若将国际舆论看作一个整体,涉华议题并不是核心热点。国际舆论研究需要倾听来自各个角落的声音,而这是以文本为中心的舆情分析方法难以实现的。虽然也有部分舆情研究用到网络分析17-18,但均只针对

44、文本所涉及的小规模用户,旨在探究舆情的演化过程。而本研究以网络为中心,针对的是全球范围内大规模用户,通过对社交媒体中同质网络的挖掘,实现细分群体的分众化舆情分析。该方法既可以分析不同细分群体对特定事件的认知差异,也可以进行常态化监测,分析各细分群体特定时段内的关注议题。此外,使用社交媒体进行计算宣传和传播政治虚假信息的国家和政党数量逐年增长,对我国国际舆情分析工作提出了挑战12。本研究采用随机漫步算法获取大规模用户样本,由于社交机器人或水军用户更少被正常用户关注,所以会在随机漫步过程中被排除在外,提升了舆情分析的准度。最后,针对国际范围的大规模文本分析,往往涉及的文化和语言因素更加复杂。为解决

45、上述问题,本研究采用了基于深度学习的自然语言处理框架BERTopic,它可以从大规模多语言的文本中提取上下文紧密相关的主题词,并从多个维度生成话题对事件进行 细 粒 度 描 述,相 较 已 有 研 究 采 用 的 LDA 模型14,18,提升了话题分析的精度。本文提出的方法不仅可以针对特定时段进行舆情分析,也可以长期追踪并分析舆论的演化过程。本研究中所分割的社群本质上是一群志同道合的人密集联系并表达高度一致信息的空间。这种志同道合是他们对事件的反应所产生的在线联系,会随着事件的演变而变化。我们不仅可以对比不同社群对同一事件的认知差异,还可以追踪不同社群的表达强度和议题框架如何在时间上与例如政治

46、人物谈话要点或新闻媒体报道的相互关系,这有助于进一步阐明信息在混合媒体系统中的流动方式。此外,本研究选取的种子用户虽然以中美两国为主,但是社群分割结果中不只有中美,还涵盖了中东、中亚、非洲、欧洲等地区。这在某种程度上揭示了意见领袖不仅在社群内部发挥舆论影响力,还扮演着全球意见网络互动的桥梁,因此探究不同社群之间的互动模式是我们未来的研究重点之一。本研究尚存一些不足之处,有待进一步完善。首先,本文只以 Twitter 平台为例,对提出的社交媒体分众舆情分析方法进行了验证,其它社交媒体平台的适用性有待进一步验证。其次,由于 G20 相关言论情感特征不够丰富,本文只做了话题分析,将来对其它事件的舆情

47、分析可以考虑加入情感分析、情绪分析等。最后,受限于作者匮乏的国际关系和国际政治知识,对话题分析结果的阐述难免存在瑕疵或疏漏,期待有更多感兴趣学者能在此基础上进一步完善。面对严峻复杂的国际形势,需要加强国际舆情研究。除了涉华议题,更需要关注全球性和区域性议题,分析全球各国不同身份或意识形态群体的互动联系、认知差异和结构性矛盾,为中国纵深参与全球治理提供情报支持。本文是对该舆情研究方向的初步探索,希望能启发更多学者开展类似研究。参 考 文 献1摇 Kim Y,Kim Y,Lee J S,et al.Tweeting the public:JournalistsTwitter use,attitud

48、es toward the publics Tweets,and the rela鄄tionship with the publicJ.Information,Communication&So鄄ciety,2015,18(4):443-458.2摇 邢鹏飞,李鑫鑫.重大疫情防控中网络舆情形成机制及引导28 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 情摇 报摇 杂摇 志摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 42 卷策略研究 基于新冠肺炎疫情期间网络舆情文本的质性分析J.情报杂志,2020,39(7):67-74,158.3摇 McGregor S C.Social media as public opinion:How journalistsuse social media to represent publicopinion J.Journalism,2019,20(8):1070-1086.4摇 Lunt P,Livingstone S.Rethinking the focus group in media andcommunicationsresearchJ.Journal of Communication,1996,46(2):79-98.5摇 Ferra

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签
资源标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服