1、收稿日期:作者简介:覃秋荣(),女,级硕士研究生,研究方向为网络与新媒体。基于 主题模型的中国国家形象研究 以越南通讯社报道为例覃秋荣(广西大学新闻与传播学院 广西南宁)摘 要:目的 意义越南通讯社作为越南官方媒体,具有一定地位,研究其如何报道中国、如何建构中国国家形象对于中国完善国际传播的形式、考量未来与越南的发展方向具有重要意义。方法 过程使用文本挖掘的研究方法,对越南通讯社官方网站 年 月至 年 月的涉华报道进行内容分析,使用 主题模型提取媒体报道的重要主题,通过主题分析揭示越南媒体报道建构的潜在中国形象,并将研究结果可视化。结果 结论从文本集中共提取到 个主题,进行主题聚类后赋予主题名
2、称并展示 个关键词。越南官方媒体塑造的中国形象既有大国崛起的“威胁”,又是经济发展的机遇,还有文化“同化”的风险。关键词:主题模型;中国国家形象;越南通讯社中图分类号:文献标识码:():(“”)“”“”:;引言国家形象作为国家软实力的重要组成部分,对一个国家在全球政治中的战略地位具有重要作用。中国国家形象的建构包含基于民族文化特性与对外话语权争夺而“自塑”的形象,也包括其他国家和民族基于对中国的现实观察和政治目的而“他塑”的形象。中国与越南有着数千年的交往史,两国毗邻而居,在历史的长河中曾是亲密无间的伙伴,也曾兵戎相向;在南海问题上发生过争端,也因中国东盟自由贸易区的开设,区域全面经济伙伴关系
3、协定的签订等有了更多互惠往来。越南在东南亚国家中具有一定影响力,作为中国的邻居、伙伴与竞争对手,对于中国国家形象的建构可能发挥积极作用,也可能发挥消极作用。越南通讯社(简称越通社)作为官方媒体,是越南民众了解信息的来源,研究其如何报道中国、如何建构中国国家形象对于中国完善国际传播的形式、考量未来与越南的发展方向具有重要意义。年 月 情报探索 第 期(总 期)()文献综述 主题模型 等人于 年提出 主题模型(),这是一种文档主题生成模型。由于包含词、主题和文档三层结构,也被称为三层贝叶斯概率模型。可以用来推测文档的主题分布,根据词语的概率分布情况推导出文章主题的概率分布情况,因此可以用于识别文本
4、数据中隐含的主题。运行 模型得到文档的主题分布后,就可以根据主题分布进行主题聚类或文本分类。采用的是词袋模型,不计词汇出现的顺序,即仅考量其在文档中是否出现。很多词语构成主题的概率分布,多个主题又构成文档的概率分布。主题模型不是单纯的词频统计,而是词语、主题与文档之间的概率统计,能够精确客观地揭示词项间的语义关联,有助于分析文本深层次的语义关系。当前研究概况 主题模型应用的科学性已经有学者在实例中进行佐证,等通 过 主 题 模 型 与 基 于 文本挖掘的方法相比较,抽取网络新闻文本中的话题内容,发现 主题识别的结果更准确。长期以来有大量学者利用 主题模型挖掘文档的潜在主题及其演化趋势,主题模型
5、已经成为一种有效且热门的方法。就传播效果研究而言,尹章池等利用包含 主题模型在内的研究计算工具获取量化数据,探讨微博上两大公益博主的传播策略,及其在不同维度内形成的传播效果。该研究所取的样本是微博博文,因此只能看到 主题模型在短文本中的应用情况。就网络舆情研究而言,李振鹏等利用 主题模型基于天涯杂谈语料库对帖子分类,探究天涯杂谈版块的网络舆情方向和网民态度。该研究虽然在网络舆情监测方面为研究者提供了良好的方向,但却缺乏一定国际视野。就国家形象研究而言,段淳林等运用 主题模型分析“一带一路”背景下的网络舆情及公众态度,得到的主题基本都是积极的反馈,表明该战略确实能够驱动国家品牌形象构建。该研究以
6、公众态度的视角分析了“一带一路”战略对于构建中国国家形象的作用,对塑造国家形象相关研究具有重要意义,但是公众的态度极大程度会受到媒体的影响,该研究没有从媒体的角度进行分析。同时,随着中国与东南亚国家的交往越来越频繁,如何向东南亚国家塑造全面立体的中国国家形象、东南亚国家如何看待中国成为研究的热点,通过内容分析的方法研究东南亚国家的涉华报道也早有先例。罗奕以东盟国家大众媒体的涉华报道为研究对象,对报道进行舆情分析,他认为这些报道虽存在偏颇,但中国国家形象传播策略的制定也可从中挖掘参考价值。该研究以东盟国家大众媒体为研究对象,虽然全面,但却缺乏针对性。东南亚各个国家之间的差异也将导致不同国家对中国
7、的看法不同。李春霞与黄敏则聚焦于越南,李春霞以越南人民报为样本分析了越南官方媒体的中国认知变迁,从榜样到伙伴、从追赶到平等,关注的政治领域从低级到高级。但是该研究重点在于越南官方媒体对中国的认知,而非其塑造的中国国家形象。黄敏用内容分析法研究了越南年轻人报报道中的中国形象,更详尽精准地分析出中国在越南民众心目中的形象。该研究虽关注到越南媒体报道中的中国形象,但是所取样本已经过于陈旧。主题建模在文本挖掘、医学、经济学、社会网络分析等领域都有着广泛的应用,但却很少有研究使用 主题模型来研究越南官方媒体的涉华报道并以此分析中国国家形象。因此,本文基于 主题模型对越南官方媒体越通社 年以来的报道内容进
8、行分析,挖掘报道潜在主题,并分析越南官方媒体试图构建的中国国家形象。研究方法本文使用文本挖掘的研究方法对媒体报道进行数据分析与可视化。首先进行数据收集,收集特定时间范围内更具权威性与相关性的媒体报道文章,创建新闻文本语料库;其次对文本进行预处理,目的在于去除冗余与无意义信息;再进行 向量化处理,以确定词语重要性;最后利用 模型提取主题与关键词,并将结果可视化。具体操作步骤如图 所示。图 数据处理流程图 年 月情报探索第 期(总 期)数据收集越通社是越南的国家通讯社。作为官方消息来源,不仅向世界传递越南的信息,也将其他国家的信息传回国内,因此本研究新闻报道数据取自越通社官方中文网站。年 月 日,
9、新年伊始,国际格局与国际关系动荡剧烈,包括中国、东盟十国在内的 个国家签署的区域全面经济伙伴关系协定正式生效,在新机遇与新挑战的背景下,媒体对于中国形象的建构也有了不同改变,因此以该事件为时间节点,选取越通社在 年 月 日至 年 月 日期间发布的报道作为研究对象。在越通社官方网站以“中国”为关键词进行检索,限定上述时间范围,共搜集到 篇新闻报道。文本预处理 噪音数据过滤在 篇报道中,有些文章的主题与中国无关,只是文中提及中国,而没有对中国进行任何实质性的讨论。为了关注与中国实质相关的新闻报道,要对收集到的新闻文本进行人工筛选,去除重复报道及不相关报道。筛选规则为:与中国相关的关键词必须在标题或
10、正文第一段中至少出现一次,并且在全文中至少出现两次。筛选过后剩余 篇报道,保存为一个文本文件供后续处理。中文分词处理在对中文文本分析前要进行中文分词处理,这是中文文本处理的基础步骤之一。采用 中的 包对报道文本进行分词,包自带词典,但是分词原理基于特定算法,无法识别一些专业名词,例如“新冠肺炎”会被拆分为“新冠”与“肺炎”两个词。为了避免受到非专业词典的影响,防止专业名词被分割,新建词典文档加入“新冠肺炎疫情”“区域全面经济伙伴关系协定”“中国东盟自贸区”“联合国海洋公约”等专业名词。停用词处理文本中的标点符号等冗余信息及语气词、副词、介词等无意义的词汇会影响文档的主题提取效率,需要将这些信息
11、删除,最佳方式就是进行停用词处理。四川大学等机构都整理了专门的停用词表,本文将四个通用停用词表加入自编程序对文本进行处理,处理过后日常用语中“在”“尚且”“人们”“得”“你”“故而”等字词将不会出现在样本中,只保留有意义的实词。文本 向量化处理利用词频逆文本频率(,)方法将进行过预处理的文本数据转换为向量。是一种进行自然语言数据处理的统计方式,指词语在一篇文章中出现的频率;指词语在整个文本语料库的全部文章中出现的频数的倒数。使用 和,可以有效评估样本单词在整个文本语料库中的重要性程度,并过滤掉常见的、不相关的词汇,同时保留影响整个文本的重要单词。预处理后的文本数据变成了零散的词语集合,每篇文章
12、经过 向量化处理会变成由 个实数表示的特征向量,筛选后留下的 篇文章向量化处理后会产生一个 的特征矩阵。主题与关键词提取将构建好的特征矩阵放入 模型中提取主题与关键词,并计算主题概率分布情况。经过数据预处理后,对预处理后的文本进行分类训练,并拟定在区间,内的整数作为候选主题数,得出不同主题数下的困惑度数值,如图 所示。图 的折线图显示,随着主题数的增加,困惑度呈现一路走低的态势,而后在主题数为 时开始上升。困惑度越低,文档归属于某一潜在主题的可能性就越高,即模型的聚类效果越好。困惑度的极小值点出现在主题数为 的模型选择上,因此主题数的数值设定为。分析过程使用 版本,并使用 工具对计算结果进行可
13、视化处理。图 折线图 研究结果主题模型的可视化结果如图 所示。七个圆各自代表七个主题,圆圈区域所占面积代表了每个主题在整个语料库中的重要性,而各个圆圈圆点间距的差异则代表主题间的差异。设置参数,与主题相关度最高的前三十个关键词会以降序形式出现在条形 年 月覃秋荣:基于 主题模型的中国国家形象研究第 期(总 期)图中,以主题 为例,最相关的关键词包含关系、交流、主席、总理、国家、领域、会见等,如图 所示。图 主题间距离图 图 主题 关键词条形图 年 月情报探索第 期(总 期)主题提取结果运行模型后得到的主题没有名称,需要结合各个主题的关键词和相应的逻辑关系进行命名。最后抽象出两国外交活动、进出口
14、贸易统计、中方贸易投资、中越边境贸易、农产品输华、国际关系探讨、旅游行业复苏七个主题名称。主题提取结果如表 所示,展示了 个主题和各个主题下相关性最高的前 个关键词,以及每个主题的分布概率。表 主题关键词表主题主题关键词分布概率 两国外交活动关系、交流、主席、总理、国家、领域、会见、总书记、部长、会议、代表团、边境、共识、人民、建议 进出口贸易统计市场、出口、企业、农产品、产品、水产品、出口额、进口、商品、进出口、总额、食品、出口量、生产、预计 中方贸易投资投资、贸易、经济、企业、领域、项目、关系、伙伴、贸易额、双边、优势、疫情、地区、潜力、国家 中越边境贸易活动、通关、国际、货物、边境、委员
15、会、老街、管理、建设、博览会、街市、工作、跨境、进出口、人民 农产品输华榴莲、出口、农业、农村、发展部、百香果、种植区、水果、红薯、代码、香蕉、议定书、正贸、面积、市场 国际关系探讨总书记、和平、大使、关系、地区、海域、主权、国家、战略、社会主义、领导人、国际法、公约、海洋法、贡献 旅游行业复苏旅游、游客、国际、航班、航线、市场、航空公司、国家、公司、文化、出境、旅游业、服务、人数、疫情 报道主题分析主题 两国外交活动的分布概率占比,排名第一。自越共中央总书记阮富仲于 年 月 日至 月 日来华访问后,两国之间的外交活动更为频繁,越南媒体对相关事件的报道数量大幅增加。越南媒体对中越双方外交活动的
16、关注,反映出越南媒体重视中越双方的对话交流,以期在阮富仲访华后双方能有更全面、深入的沟通,并挖掘更广的合作领域。主题 进出口贸易统计的分布概率占比。在越通社报道中,多篇报道以数据呈现的方式指出越南与中方的贸易成果,如“五一假期间经老街口岸出口中国的农产品达 万余吨”“今年第一季度,越南对中国的胡椒出口量约达 吨”。“中国重新成为越南农林水产品出口最大市场”。越通社的相关报道反映越南媒体对中越双方的贸易往来持积极态度,并持续看好中方的经济市场。主题 中方贸易投资的分布概率占比。越通社关注中方企业在越投资情况,报道自身的生产环境及已获中方投资,如“越南河内与中国苏州企业签署合作协议”“雅迪在越投资
17、注册资金约 亿美元”,以吸引更多投资者目光。同时,越南媒体的报道也反映越南政府对中国企业的重视,如“越南政府副总理会见中国比亚迪董事长”“越南政府副总理会见中国舜宇集团董事长”,以期达成更多经济合作,引来更多投资项目。主题 中越边境贸易的分布概率占比。越南与中国广西、云南接壤,与海南省隔海相望,出于地理位置的便利,越南与这几个省份的边境贸易成为越南媒体的聚焦点。中国东盟博览会、中国国际消费品博览会的开办对于越南而言是难得的经济机遇。因此,越南媒体格外关注边境贸易活动,受疫情影响时,越南媒体还持续关注中方边境口岸的通关政策,以便越南企业采取相应行动确保顺利通关。主题 农产品输华的分布概率占比。中
18、国作为越南蔬果最大的出口市场,越通社多次报道越南农产品种植区获得中国海关总署签发的代码或签署的议定书、越南多种农产品通过正贸渠道出口中国。这反映出越南媒体紧盯中国农产品市场的大门,在越南榴莲获得进入中国市场的“入场券”后,打造榴莲品牌与泰国、马来西亚竞争市场份额,也成为了越南媒体反复强调的重点。主题 国际关系探讨的分布概率占比。中方与越方在领海问题上一直存在争端,位于南海中的西沙群岛、南沙群岛自古以来就是中国领土。越南媒体则多次报道称所谓“黄沙”“长沙”属于越南主权,并反对我国颁布的南海休渔令,要求中国尊重越南主权。越南媒体持续关注两国外交活动中对相关问题的探讨及双边关系的走向,既想要捍卫所谓
19、“主权”,又期望双边关系以“和平”与“发展”为主题。主题 旅游行业复苏的分布概率占比。自 年 月 日起,中国正式取消赴华人员入境后全员核酸检测和集中隔离,停滞 年的旅游业复苏,越南旅游业蓄势待发。越南媒体持续关注中国政府的相关政策并提醒国内旅游业积极筹备资源以迎接重新开放的中国市场。在新冠疫情爆发前,中国就是越南旅游业最大的客源市场。越南媒体的关注和报道反映了中国对于越南旅游业的重要意义以及看好中国游客能够拉动越南经济带来巨大价值。通过主题分析可以发现,年 月至 年 月,越通社涉华报道的主题包含政治与经济两大类,其中涉及政治类的是主题两国外交活动与主题国际关系探讨,分布概率共占。其余 个 年
20、月覃秋荣:基于 主题模型的中国国家形象研究第 期(总 期)主题均涉及经济类,分布概率共占。经济类主题的分布概率远大于政治类主题。值得注意的是,提取出的越通社涉华报道主题并不涉及中国文化。通过查阅语料库发现,在筛选过后的 篇报道中只有极少数报道涉及中越双方的文化交流,且重点在于谈论越方文化输出。由此可知,越南官方媒体报道的潜在话语一方面期望与中国有更多对话沟通,双边关系和平友好,但又警惕中国发展壮大会在“南海争端”等主权问题上对越南造成威胁。另一方面离不开中国带来的经济利益,期望进一步与中国达成合作伙伴关系,在多领域招商引资,尤其重视越南农林水产品输华的全过程成功。而文化类主题报道的数量极少客观
21、反映了越南官方媒体对中国文化在越传播的谨慎态度,主观上减少对中国文化的报道,也体现其有意减少中国文化影响力的意图。报道潜在中国形象建构分析 大国崛起“威胁”中国与越南同为社会主义国家,作为邻国,中国的发展崛起使越南感受到了前所未有的危机感。近年来,越南的发展也越来越迅速,制造业突飞猛进。中国的制造业同样稳居世界第一,两个毗邻的国家快速发展,各类资源的争夺在所难免,冲突与竞争是必然的。虽然在阮富仲访华后,中越双方的关系拉近了不少,外交活动与经贸活动也更为频繁,但是越南对中国这个强大的邻国始终抱有疑惧的态度。越南媒体多次报道中方在南海的军事演习或其他活动、南海休渔令的发布等中国与越南关于主权的争端
22、。在这类报道中,越南媒体的论调依然是谋求与中国和平发展,将自己摆在谋和平的正确位置要求中国尊重越南主权暗暗抹黑中国,构建了中国“威胁”越南主权、“恃强凌弱”的国家形象。虽然侧面反映出越南对中国大国形象的认可,但也严重扭曲了中国形象,影响其余东南亚国家对中国的好感。除此之外,越南媒体还特别关注中国军事,通过报道中国军事上的最近进展,潜在塑造中国是军事大国的“霸权国家”形象,引发越南民众及东南亚国家对“中国威胁”的担忧。经济发展机遇虽然越南官方媒体的报道偏向反映了对中国发展崛起从而威胁越南主权的警惕,但是从主题提取结果中不难看出,越南媒体仍然十分重视与中方贸易往来带来的经济利益。自越南加入世界贸易
23、组织后,成功走上了世界舞台,与多国都建立了贸易关系。但在公共卫生事件影响之下,国际贸易受到严重冲击,越南不得不重新把目光放到邻近的中国身上。区域全面经济伙伴关系协定生效以来,给越南带来了更大的机会,与中国的合作能够带来更多经济发展机遇。越南官方媒体大量报道与中方的贸易往来,构建起了中国的贸易大国形象,不仅能使越南国内企业看到国际贸易受冲击下的发展出路,也能使其他东南亚国家考虑与中国共同发展的机遇,这在一定程度上来说也给中国带来了积极影响。除此之外,中国重新开放后,越南媒体大量报道为迎接中国游客做的准备,也表明了与中国不仅有贸易合作的机会,还能在旅游行业拉动经济发展,逐步恢复到疫情之前的状态。这
24、也给其他东南亚国家寻求与中国合作的方向提供思路。文化“同化”风险越南文化在中国文化身上都有迹可循,越南从语言、文学、信仰、风俗、艺术、思想和政治制度上,都受到中国的强烈影响,在当代仍然保留了大量中国传统文化的痕迹。同为东方文化却又深受中国文化影响,还曾长久作为中国的藩属国,越南对中国文化的恫疑暗含了无法企及的自卑和担忧。潜意识中的“文化自卑”使越南在找寻自己文化身份时排斥影响了自身千年的汉文化,甚至认为想要真正获得文化独立,必须“去中国化”。越南媒体鲜少报道中国文化就侧面建构了中国文化对越南文化存在“同化”风险的国家形象,越南需要在与中国的文化差异中找到自我肯定的价值,严防一切会被中国文化影响
25、的可能。因此,在报道中越双方的文化交流时,越南媒体也重在强调越南文化,媒体的传播策略亦是避免中国文化的输入,注重越南文化的输出。在越通社文化专栏中,能找到日本、泰国等国文化的相关报道,却没有找到与中国文化相关的报道。结语中国国家形象的“自塑”与“他塑”都是我们需要关注的重点,越南作为同制度的邻国,对其进行研究具有重要参考价值。收集越南官方媒体对中国的报道,并使用 主题模型发现报道潜在主题,可以更好了解其如何塑造中国形象。研究结果表明越南官方媒体的报道潜在地塑造了中国既有大国崛起“威胁”,又有经济发展机遇,还有文化“同化”风险的形象。这也启示了中国在对外传播时,面对不同类型的国家与民族,传播策略
26、要有差异性与针对性,争夺话语权的同时要注重如何讲好中国故事才能塑 年 月情报探索第 期(总 期)造真实立体的国家形象。本研究仍存在一定局限性:首先,是样本选择,本文只选取了特定时段与特定媒体的报道来挖掘其隐含主题;其次,是对数据的处理不能尽善尽美,虽然利用 主题模型能够从文本中提取隐含主题,但是呈现出的是关键字词而不是观点的论述。期望后续研究能够在此基础上进行完善。参考文献 ,():张明慧,王红玲,周国栋 基于 主题特征的自动文摘方法 计算机应用与软件,():,阮光册,夏磊 基于共现分析的文本主题词聚类研究 图书馆杂志,():,:尹章池,刘凯恒 公益组织大 微博动员的可视化对比与策略跟进 新闻与传播评论,():李振鹏,黄帅 基于 主题模型的网络舆情研究 系统科学与数学,():段淳林,吕笑“一带一路”国家品牌形象传播与主题模型计算的实证研究 现代传播(中国传媒大学学报),():罗奕 他者眼中的中国形象:基于东盟国家大众媒体涉华报道的舆情分析 传媒,():李春霞 越南官方媒体的中国认知变迁分析:以越南人民报()为样本 当代亚太,():,黄敏 越南年轻人报报道中的中国形象:以 年与 年为例 东南亚研究,():年 月覃秋荣:基于 主题模型的中国国家形象研究第 期(总 期)