1、1语料库语言学 2023年 第10卷 第1期基于LDA主题建模技术的 北京冬奥会话语意义研究*北京航空航天大学张 毓 卫乃兴提要:LDA主题模型是目前较为常见的无监督主题建模方法,可用于批评话语分析中的主题分析。既往同类研究大多使用语料库语言学中的主题词方法发现主题,而较少使用主题建模方法。鉴于此,本研究选择境外英文媒体有关北京冬奥会的报道为语料,自建北京冬奥会英文报道语料库,采用LDA主题建模技术探究北京冬奥会的境外英文报道主题。此外,我们结合语料库驱动路径分析主题的高频关键词和语义韵,以揭示北京冬奥会的话语建构和媒体态度意义。研究发现,境外媒体在报道北京冬奥会时聚焦于3个主题,即冬奥会主办
2、权、赛事准备工作以及政府举措。此外,境外媒体对北京成为首座“双奥”之城和中国政府积极推广冰雪运动的行为给予正面评价,但同时批评了北京缺乏冰雪运动文化传统和自然降雪条件。本研究表明,将LDA模型、语料库语言学方法和批评话语分析方法结合具有可行性,为今后研究提供了新的分析框架。关键词:LDA、语义韵、话语建构、北京冬奥会1研究背景主题建模(topic-modeling)是文本挖掘领域中的一种无监督学习方法,它可直接对文本数据进行归纳建模,从而挖掘语料库的主题(刘文宇、胡颖 2020)。其中,隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA)是常用的主题建模方法之
3、一,该模型较为简单且应用广泛,其算法排除了人工干扰,保证了结果的客观性(Mohr&Bogdanov 2013)。Trnberg&Trnberg(2016a,2016b)较早使用LDA主题模型结合批评话语分析方法,研究了社交媒体中有关穆斯林的话题以及Muslim和Islam的话语表征。他们认为LDA模型适合处理大规模语料库数据,并且与提前预设的关键词分析不同,LDA能够在无监督的情况下对数据进行*本文是北京市哲学社会科学研究基地项目“境外主流英文媒体北京冬奥会新闻报道分析研究(2015年7月31日2020年12月31日)”(19JDYYB005)的阶段性研究成果。卫乃兴为本文通讯作者。作者贡献:
4、张毓:选题构思、研究方法、数据收集、数据分析、初稿撰写、字数占比(60%);卫乃兴:选题构思、研究方法、讨论结论、字数占比(40%)、修改润色。SJ00088718语料库语言学2023第19辑正文.indd 18/18/23 5:20 PM2基于LDA主题建模技术的北京冬奥会话语意义研究 结构化归纳,是语料库驱动的研究。随后,Jo(2019)探讨了话语分析中使用主题建模的可能性,认为主题建模能够应用到话语分析中主要基于3个原因:首先,主题建模产生的主题包含了话语中的两个重要信息,即高频词汇和词与词之间的关系网络;其次,主题建模认为文本由多个话题构成,能够帮助理解多重话语的动态性(dynamic
5、s of multiple discourses);最后,一些主题建模方法(如动态话语模型DTM和结构话语模型STM)能够追踪话语的历史变化。Jacobs&Tschtschel(2019)的研究则指出,主题建模能够在方法上为话语分析提供有力帮助,可以弥补话语分析在方法上的缺陷(如分析的主观性、缺乏系统性和操作性);并且在元理论层面(meta-theoretical level)和认识论层面(epistemological level),两者也具有较高的适配性。Aranda et al.(2021)认为,将批评话语分析(Critical Discourse Analysis,简称CDA)与结构主
6、题建模(Structural Topic Model)相结合能够拓展传统的CDA方法,并且实现互补。上述研究表明,批评话语分析中使用主题建模方法挖掘语料库文本的主题可以实现优势互补,而且能够保证结果的客观和准确,避免人为预设和参照语料库的干扰。然而,当前基于语料库的批评话语分析较少使用主题建模,而多采用主题词方法分析文本主题,并通过词语搭配和词语索引对某一话题领域的文本进行话语建构或话语策略分析(如Baker et al.2008,2020;Engstrm&Paradis 2015;Song et al.2021;杨敏、符小丽 2018;赵永刚 2021等)。具体而言,主题词方法需要将观察语料
7、库与参照语料库的词表进行对比,运用卡方检验或对数似然率等手段,统计观察语料库中显著性高频使用的词汇,从而生成主题词表。不难发现,主题词方法中,使用不同的参照语料库,得到的主题词表也会有所不同。换言之,参照语料库的选择会影响最终的主题词结果。当前有关北京冬奥会新闻报道的研究多集中于叙事框架研究和基于语料库批评话语分析的国家形象研究(刘静轩等 2022),鲜有研究运用LDA主题建模对北京冬奥会英文报道的主题进行分析。鉴于此,本研究将收集自北京冬奥会申办成功至2021年9月1日间境外媒体有关北京冬奥会的英文报道作为研究语料。研究采用LDA主题建模,结合Sinclair(2004)提出的扩展意义单位模
8、型对相关英文报道进行分析,从宏观和微观两个层面揭示北京冬奥会英文报道中的话语意义建构。2 隐含狄利克雷分布(LDA)主题模型本节将介绍LDA主题建模的发展脉络、原理思想,以及实践中操作LDA模型的主题数目设置。2.1 LDA主题建模的发展脉络及基本原理LDA主题建模由Blei et al.(2003)提出,是一个可用于文本语料库的生成概SJ00088718语料库语言学2023第19辑正文.indd 28/18/23 5:20 PM3张 毓 卫乃兴率模型。LDA模型是在概率潜在语义索引(probabilistic Latent Semantic Index,简称pLSI)模型的基础上发展而来。p
9、LSI模型由Hofmann(1999)提出,用于计算文档中主题的概率。此模型认为,文档的主题符合多项分布,每个文档以一定的概率生成某个主题,一篇文档由多个占据不同比例的主题组成;而文档中的每个词按照一定的概率由某个主题产生,也符合多项分布。例如,在一个包含N篇文档的语料库D中,文档中的词通过以下过程生成:(1)以概率P(d)选定一篇文档d;(2)以概率P(z|d)选择一个不可观测的主题z;(3)以概率P(w|z)生成一个单词w(Hofmann 1999:51)。pLSI模型的任务是根据可观测变量,即文档(d)和词(w),用概率统计的方法求解隐含变量主题(z)的概率。pLSI模型中,文档的主题概
10、率是确定 的,并没有在文档层面生成概率模型,因此会导致模型中的参数随语料库规模扩大而线性增长,从而出现过度拟合的问题;同时,也无法将主题的概率分布应用到除训练集外的其他文档中(Blei et al.2003:994)。换言之,随着语料库中文本量的增长,P(z|d)的参数也会随之增加,从而导致模型过度拟合。另外,对于语 料库D之外的新文档dm,我们无法获取其对应的P(dm)。为此,Blei et al.(2003)引入了贝叶斯统计,将pLSI模型发展为LDA主题模型。LDA是一个三层贝叶斯模型,由“文档主题词”构成,通过主题和单词的狄利克雷先验分布,结合观测到的数据(即单词)来求解主题的后验分布
11、。LDA模型的基本理念是语料库中的文档可表示为若干随机的隐含主题,每个主题是若干单词的概率分布(Blei et al.2003:996)。LDA模型中,一个文档中的某个单词分两个阶段生成(Blei 2012:78):首先,随机产生一个主题的概率分布。其次,对于文档中的每个单词:(1)在上一阶段生成的主题中,随机选择一个主题;(2)在所选主题对应的单词中随机选择一个单词。在以上过程中,第一步中随机产生的主题概率分布即是一个狄利克雷分布,是文档中主题概率的先验分布。换言之,LDA模型为pLSI模型中的P(z|d)加了一个先验分布狄利克雷分布。因此,LDA模型中,主题的概率分布是随机变量;而pLSI
12、模型中,文档主题的概率P(z|d)则是确定值。现用一个例子说明LDA模型中文档的生成过程。假设一个有关学术论文写作研究的英文学术文本语料库,包含“语篇结构”“语言特征”“学科差异”“作者群体差异”4个主题。根据LDA模型,如果要生成语料库中的一篇文章,首先需要分别给前述4个主题随机分配一个概率,我们可以假设概率分布为“语篇结构”0.4,“语言特征”0.3,“学科差异”0.2,“作者群体差异”0.1(所有主题的概率之和为1)。然后根据概率选取其中一个主题,比如“语篇结构”。在SJ00088718语料库语言学2023第19辑正文.indd 38/18/23 5:20 PM4基于LDA主题建模技术的
13、北京冬奥会话语意义研究“语篇结构”这一主题下会有若干与之有关的单词,也具有不同的概率分布,如“move”0.03,“CARS”0.01,“step”0.02。根据词语的概率,可以选择一个单词,比如step,这样便在文档中生成了一个单词。之后需要不断重复“选择主题选择单词”这一过程,直至生成文档中的所有单词。值得一提的是,语料库中的其他文档可能只包含“语言特征”和“学科差异”两个主题,概率分布可能是“语言特征”0.7,“学科差异”0.3。换言之,“语篇结构”“语言特征”“学科差异”“作者群体差异”是语料库中所有文档共享的主题,但是在不同的文档中,这四个主题所占的比例或概率是不同的。在LDA模型中
14、,只有文档中的单词是可观测变量,而整个语料库的主题、每个文档中的主题分布以及每个主题中的单词分布均是隐藏结构,这也是LDA名称的由来(Blei 2012:79)。LDA主题模型的任务是根据可观测的单词去推断隐含的主题结构,也就是文档生成过程的逆过程。在上述例子中我们可以看到,在生成文档中的单词时,并没有关注其顺序。因此,LDA的算法基于词袋(bag-of-words)模型,将文档视为高维空间内的词频向量,而忽略单词在文中出现的顺序(Blei&Lafferty 2007)。如前所述,Blei et al.(2003)在LDA模型中只给主题分布加了狄利克雷分布作为先验分布。随后Griffiths&
15、Steyvers(2004)又在单词分布上增加了狄利克雷分布作为先验分布,即为pLSI中的P(w|z)加了先验分布,最终形成了如今普遍使用的LDA主题模型。2.2 LDA模型的主题数目设置实践中,LDA主题建模一般由程序语言中的第三方开源工具包实现,如Python中的第三方库Gensim和scikit-learn,以及R中的mallet 程序包。但在具体操作中,主题数目需要提前设置,并且不同的主题数会影响最终的分析结果:主题数目设置太少会把语义不相关的词汇合并到同一主题中,而主题数太多则会把语义相似的词汇分散到不同主题中(何琳等 2020)。理想的状态是文档中的单词出现在尽可能少的主题中,而每
16、个主题包含尽可能少的单词(Trnberg&Trnberg 2016a;刘文宇、胡颖 2020)。但是实际研究中有时还需要借助研究人员的经验和对语料的了解,反复设置不同数量的主题进行比较与权衡,以确定最佳主题数目。换言之,在批评话语分析中,最佳主题数目并不一定是统计学意义上的最佳,而是取决于主题建模及其数目能否回答研究问题或者实现研究目的,并且如果语料库中的文本体裁一致且话题统一,则可以选择较少的主题数目(Jacobs&Tschtschel 2019)。SJ00088718语料库语言学2023第19辑正文.indd 48/18/23 5:20 PM5张 毓 卫乃兴3 北京冬奥会话语研究3.1 研
17、究语料本研究采用Factiva新闻及商业数据库,以Beijing 2022 Winter Olympics、2022 Winter Olympics和Beijing Olympic Winter Games为检索词,收集了自北京冬奥会申办成功以来,即2015年7月31日至2021年9月1日之间来自境外媒体的英语新闻报道。为保证研究语料的相关性,我们将Beijing、2022和Olympic Winter Games出现次数均小于2的新闻报道删除。经过清理及统计,最终获得英文新闻报道484篇,其来源包括纽约时报 泰晤士报 俄罗斯卫星报和路透社、美联社、美国有线电视新闻网、法新社以及南华早报等多家
18、境外媒体。这些语篇组成了北京冬奥会新闻报道语料库(简称北京冬奥会语料库),总形符数为328,474,总类符数为13,224。3.2 研究步骤本研究按照以下4个步骤进行分析。首先,清理语料。去除停用词,并对语料库其余形符进行词形还原。其次,运用Python中的scikit-learn程序包,基于LDA模型对北京冬奥会语料库进行主题挖掘。经过多次调试,我们最终将主题数目确定为3,每个主题下的关键词数目为15,此时获得的主题较为明晰且具有独特性和代表性,效果较好。再次,选取每个主题中概率权重和频数均相对较高的单词作为节点词,运用AntConc 4.0.4(Anthony 2022)统计其高频搭配词或
19、共现型式,通过观察其扩展语境,确定语义趋向和语义韵。此外,LDA主题分析中的关键词为词元(lemma)。而在搭配分析中,由于同一词元不同词形的搭配词、用法以及意义存在差别(Sinclair 2004),因此搭配分析中的节点词以词形为基础进行分析。最后,结合节点词的搭配词、语义韵和词语索引,分析北京冬奥会的话语建构和媒体的态度意义。其中,语义韵的抽象层级采用Sinclair(2004)提出的细微颗粒度法。4 研究结果与讨论4.1 北京冬奥会语料库主题分布表1呈现了北京冬奥会语料库LDA主题建模的结果,共3个主题,每个主题由15个关键词组成。每个关键词后的数据代表关键词在此主题下的概率权重,关键词
20、根据概率权重降序排序。换言之,括号内的数值越大,则关键词在此主题下SJ00088718语料库语言学2023第19辑正文.indd 58/18/23 5:20 PM6基于LDA主题建模技术的北京冬奥会话语意义研究 出现的概率越大。表1“北京冬奥会语料库”主题建模结果序号主题关键词及其概率分布1冬奥会主办权Beijing(1,625.318,4),games(1,579.402,6),winter(1,434.554,9),Olympic(1,405.580,4),Olympics(1,161.076,8),IOC(1,074.191,1),host(1,015.028,5),China(963.
21、897,8),say(892.576,2),city(753.912),committee(659.306,2),right(648.495),international(542.907,8),summer(532.593,2),bid(505.163,8)2赛事准备工作Beijing(614.157,2),snow(503.636,6),event(482.208,9),ski(460.696,7),China(400.539,1),world(353.496,9),winter(332.629,4),Chinese(323.562,2),Olympics(308.257,7),venue(
22、302.592,4),year(285.707,4),sport(255.626,6),say(248.445,1),ice(247.754,2),skiing(243.505,6)3政府举措China(914.5631),say(909.9786),year(502.1264),sport(492.9639),Beijing(459.5244),Chinese(387.2854),game(370.726),new(311.5527),country(309.2078),people(298.9593),million(297.2854),go(292.8931),player(278.99
23、28),billion(277.3076),high(245.9475)根据表1,我们可以看到,境外媒体对于北京冬奥会的报道主题可以概括为以下3类。(1)冬奥会举办权,如Beijing、host、bid、Games、winter等词。值得一提的是,此主题下的关键词如summer,也体现了境外媒体对于北京成为史上第一个“双奥之城”的关注。(2)赛事准备工作,如snow、event、ski、venue等。(3)政府举措,如sport、million、billion等,报道了政府的资金支持。LDA主题建模能够避免人为干预,自动实现主题聚类,在宏观层面呈现北京冬奥会语料库的有关主题。接下来,我们需要进
24、一步观察关键词的高频搭配词和共现语境,以探究媒体的话语建构及态度立场。4.2 主题关键词的扩展意义单位分析我们在每个主题下各选取一个概率权重和频数均较高的关键词,分别为host、snow和sport。经过统计每个词元相对应的不同词形频数,我们选取每个词元中词形频数最高的作为节点词进行扩展意义单位分析,即host(动词)和snow(名词)。4.2.1 host统计结果发现,词元HOST在北京冬奥会语料库中共出现了1168次,其中作为名词出现了344次,动词802次。作为动词时,动词原形host在所有词形中出现SJ00088718语料库语言学2023第19辑正文.indd 68/18/23 5:2
25、0 PM7张 毓 卫乃兴频数最高,共444次,占所有动词词形总频数的55.36%。此时,host主要与名词搭配,组成型式“host+N”。我们统计了与型式“host+N”共现5次以上的高频搭配词或者词组,并总结了其语义趋向,具体见表2。表2 型式“host+N”的语义趋向及高频搭配词(组)序号语义趋向频数高频搭配词(组)12022冬奥会209the 2022 Winter Olympics/Olympic Games/Games(111),the 2022 Olympics/Olympic Winter Games(27),the Winter Games/Olympics(26),the G
26、ames(31),the worlds greatest sporting events/most prestigious sports event(6),another games/Olympics(8)2夏季和冬季奥运会(“双奥”)31both summer and winter Olympic Games/Olympics(21),both a summer and a winter Olympics/both versions of the games(10)3冬奥赛事18indoor events(18)通过表2我们可以看到,型式“host+N”的高频搭配词根据语义趋向大致可分为三类
27、。第一类是表示2022冬奥会的搭配词或词组,其中共现次数最多的为the 2022 Winter Olympics/Olympic Games/Games,出现了111次,占动词host频数的三分之一。其次为the 2022 Olympics/Olympic Winter Games(27次)。境外媒体也倾向于使用简化的the Winter Games/Olympics(26次)和the Games(31次)指代2022年奥运会。与前述词组共现时,境外媒体主要报道北京获得了2022年冬奥会主办权,如例(1)所示。(1)The International Olympic Committee has
28、 selected Beijing to host the 2022 Winter Olympics.例(1)报道了北京被选为2022冬奥会举办城市这一事实。经观察“host+N冬奥会”的词语索引发现,该型式大多客观报道了这一事实,并未发现较为明显的语义韵趋势。与“host+N”频繁共现的另一类语义趋向为表示夏季和冬季奥运会的词语序列,如 both(a)summer and winter Olympic Games/Olympics(21次)、another games(19次)。当与这类词组共现时,媒体报道集中在北京将成为历史上第一个举办过SJ00088718语料库语言学2023第19辑正文
29、.indd 78/18/23 5:20 PM8基于LDA主题建模技术的北京冬奥会话语意义研究 夏季和冬季奥运会的国家。表3是随机抽取的5行词语索引。表3“host+N双奥”的词语索引1Chinese capital becomes the first city in the world to hostboth summer and winter Olympic games 2this”,he added.Beijing thus becomes the first city tohostboth summer and winter Olympic Games.3The capital will
30、 be the only city in sporting history tohostboth summer and winter Olympics.Today,4The first time in Olympic history that a city willhostboth a summer and a winter Olympic years.In 5up the Chinese capital to become the first city to hostboth versions of the Games in more than a cent型式“host+N双奥”的词语索引
31、显示,当host与both summer and winter Olympic games等词组搭配时,Beijing常被描述为the first city in the world(索引1),the only city in sporting history(索引3)以及the first time in Olympic history(索引4)等。可 见,境外媒体不仅关注北京取得了2022年奥运会主办权,更对这件事情带来的影响进行了评价,将北京视为历史上获得夏季和冬季奥运会主办权的第一城,刻画了北京迄今为止首座“双奥之城”的形象。从语义韵角度而言,型式“host+N双奥”表达了“赞许/肯定
32、”的语义韵。表示“冬奥赛事”语义趋向的高频搭配词组仅有indoor events一个,与“host+N”共现了18次,主要描述举办某些冬奥会赛事的场馆,态度较为客观。简言之,动词host的高频搭配词(组)和共现语境表明,北京冬奥会相关的境外媒体报道的焦点之一为北京取得了冬奥会主办权,并成为史上首个举办夏季和冬季奥运会的国家。另外,型式“host+N”在描述北京成为“双奥”之城时呈现出“赞许/肯定”的语义韵趋势。4.2.2 snow 词元SNOW在北京冬奥会语料库中的频数是504,其中名词snow最为高频,共出现了425次。名词snow倾向于与形容词搭配,构成型式“ADJ+snow”,其频数为2
33、13,占名词snow频数的50.12%。与“ADJ+snow”共现的高频形容词为natural(63次)、artificial(52次)、man-made(24次)、real(13次)、fake(10次)。这些高频搭配词都表达了“造雪方式”这一语义趋向,聚焦于冬奥会雪上项目中雪的制造方式,即自然雪(natural/real snow)和人造雪(artificial/man-made/fake snow)。观察词语序列natural snow(63例)和real snow(13例)的扩展语境,我们SJ00088718语料库语言学2023第19辑正文.indd 88/18/23 5:20 PM9张
34、 毓 卫乃兴发现,共有58例与北京冬奥会有关。扩展语境中与natural snow 和real snow共现次数较高的词或词组有lack of(27次)、little(9次)、hard-pressed(3次),以及其他表达否定含义的词汇3例,共计42例,约占所有与北京冬奥会相关实例的72.41%。这些实例指出,北京作为冬奥会的主办城市,缺乏雪上项目所需的自然雪,表达了“缺乏/不足”的语义韵。具体如例(2)和例(3)所示。(2)(a)The Chinese capital has been picked to host the 2022 Winter Olympics,(b)despite th
35、e fact that it has little natural snow.(3)Beijing had been considered the overwhelming favorite but was criticized for a lack of natural snow.例(2)中,小句(a)报道了中国首都即北京将举办2022年冬季奥运会,但小句(b)作为转折,认为北京几乎没有自然降雪,并认为这是事实(fact)。相似地,例(3)首先指出北京以压倒性优势获得了主办权,但“被批评缺乏自然降雪”。Artificial/man-made/fake snow作为节点词组时,共有86例,其中
36、76例报道了北京冬奥会雪上项目准备工作。其扩展语境中的高频共现词组有rely on(28次)和reliance on(9次)等,表示北京冬奥会的雪上项目将依赖人工造雪。此外,在这些例证中,有27例与heavily(13次)、completely(6次)、entirely(3次)、totally(3次)等增强语共现,以强化北京冬奥会依赖人工降雪的程度和印象,具体见表4 5条词语索引。表4 rely/relianceonartificial/man-made/fakesnow的词语索引1means they have to rely completely on artificial snow.Di
37、stance between Beijing and mountain 2and the need to rely almost entirely on artificial snow.Chinas Sports Minister Liu Peng 3it will have to rely almost totally on artificial snow.Q:So why did the IOC 4ues in China will be heavily reliant on fake snow Beijing bid leaders insisted they have 5Chinas
38、mountain venues rely heavily on man-made snow,which was considered one of the bid 表4词语索引表明,境外媒体在北京冬奥会相关报道中,有意运用增强语刻画北京依赖人工造雪以满足冰雪项目的要求,暗示了北京在主办冬奥会上并没有优势,表达了较为明显的消极态度意义。因此,artificial/man-made/fake snow在语境中构筑了显性的“非真实”语义韵。前人研究也发现,西方主流媒体如纽约时报、BBC等,在报道北京冬奥会的体育事件中,质疑北京使用人工造雪的行为SJ00088718语料库语言学2023第19辑正文.i
39、ndd 98/18/23 5:20 PM10基于LDA主题建模技术的北京冬奥会话语意义研究(刘静轩等 2022)。概言之,snow的高频搭配词或词语序列倾向于表达消极的语义韵,即“缺乏/不足”和“非真实”。这表明,境外媒体试图以北京的降雪条件和自然气候为借口,批评北京举办冬奥会的不足,质疑北京是否真正有资格获取冬奥会主办权。4.2.3 sports 词元SPORT在北京冬奥会语料库中共出现了1,006次,其中名词复数形式sports出现了853次,占总频数的84.79%。经观察,词语序列winter sports的频数为326次,占sports频数的38.22%,远超其他词语序列。因此,我们将
40、以winter sports作为节点词组,考察其共现语境。winter sports在北京冬奥会语料库中的搭配词可以分为三个语义组。第一,精神文化类(46例),高频搭配词有tradition、destination、culture。第二,经济活动类(42例),高频搭配词有market、industry、development;第三,推广、发展等行为(78例),高频搭配词有promote、grow、develop、participate、popularize。观察词语索引可见,精神文化类搭配词所在的词语索引中,winter sports经常与表示不足或否定的词汇共现(如lack of、far f
41、rom、have no等),借以批评北京缺乏冬季运动的传统或文化。我们抽取了5条相关的词语索引(见表5)。表5 wintersports与精神文化类搭配词的词语索引1sacrificing some of the atmosphere of a winter sports destination.Beijing is unlikely to be blanketed 2.After all,China doesnt have much of a winter sports tradition it won its first Olympic gold 3 home.While China is
42、 far from being a winter sports power,Beijing,along with the neighbori4to its lack of snow,Beijing has no real winter sports culture,two things Almaty has in abundance 5with plenty of resources but virtually zero winter sports history or send them to Central Asia for 表5显示,外媒对于北京举办冬奥会的质疑在于中国或北京没有冬季运动
43、文化传统,如China doesnt have much of a winter sports tradition(索引2),Beijing has no real winter sports culture(索引4)或zero winter sports history(索引5)。由 此,型式“winter sports N精神文化”在语境中构筑了“不足/缺乏”的语义韵。在46例词语索引中,有38例(82.6%)表达了消极语义韵,体现了境外媒体对北京冬SJ00088718语料库语言学2023第19辑正文.indd 108/18/23 5:20 PM11张 毓 卫乃兴季运动的普及程度持批评态度
44、。当winter sports 与表示经济活动/组织和发展、推广类的词语搭配时,通常表示中国政府大力发展冰雪产业、拓展冰雪市场的措施和决心,以及北京冬奥会对中国发展冰雪运动的促进作用。我们随机选取推动、发展类搭配词的5行词语索引,显示如表6所示。表6 wintersports与推动、发展类搭配词的词语索引1The ambition of the government(China)to developwinter sportsis going to create a huge momentum2Beijing would use the games to encourage interest i
45、nwinter sportsand boost tourism in in a region that 3further enhance the tremendous potential to growwinter sportsin our country,in Asia,and around 4Games is our desire to popularize and developwinter sportsthrough hosting the games,”he 5month announced a$30 million program to promote winter sports
46、such as luge,bobsledding and 表6展示了中国政府对于冰雪运动的重视,不仅有强烈的抱负(ambition)和愿望(desire)发展冰雪运动,更有实际的行动和措施切实普及冰雪运动,如资金投入和发动群众。这都是中国政府为了2022年北京冬奥会所做出的积极努力。可见,当winter sports与经济活动类和推广、发展类词语共现时,表达的态度意义也较为积极,展现了“努力推动”的语义韵。整体而言,境外媒体提到北京冬奥会有关winter sports的主题时,主要倾向于表达两种态度意义。一种是消极态度,认为北京乃至中国缺乏冰雪运动的传统和群众基础。另一种是积极态度,报道了中国
47、政府为发展冰雪运动产业、推广冰雪运动所采取的措施,描述了中国政府积极行动和努力的一面。5 结论本研究采用LDA主题建模,分析了境外媒体有关北京冬奥会英文报道的主题以及基于主题关键词所体现的北京冬奥会话语意义建构。LDA主题建模结果显示,北京冬奥会英文报道聚焦冬奥会主办权、赛事准备工作以及政府举措三大主题。通过深入观察各主题中关键词的扩展语境并统计搭配词,我们发现,各个主题的话语建构呈现出多种不同侧面的态度意义。一方面,境外媒体肯定了北京作为历SJ00088718语料库语言学2023第19辑正文.indd 118/18/23 5:20 PM12基于LDA主题建模技术的北京冬奥会话语意义研究 史上
48、首个获得夏季和冬季奥运会主办权的“双奥之城”的地位。同时,境外媒体也对中国政府推广冰雪运动、发展冰雪产业的决心以及所采取的措施表达了较为积极的态度。另一方面,对于北京冬奥会的赛事场馆和项目准备工作,境外媒体批评了北京缺乏自然降雪的气候条件,需要依赖人工造雪,并且认为北京缺少冰雪运动的文化底蕴和传统,借此质疑北京冬奥会的举办资格。研究结果显示,境外媒体对有关北京冬奥会赛事运动本身的话题较为关注,同时也能客观地肯定中国政府所做出的积极举措与准备工作。这表明我国对于北京冬奥会的对外叙事传播可聚焦到微观层面的冰雪运动和赛事本身。研究方法方面,本研究显示,在批评话语分析中使用LDA主题建模不仅能够快速获
49、取大规模语料库的主题,而且避免了参照语料库的干扰,研究结果较为客观、可靠。因此,LDA模型在一定程度上克服了传统批评话语分析中的数据任意性、分析主观性等缺陷,适用于从宏观层面对大规模语料库进行主题分析。在此基础上,深入观察主题关键词的共现语境,统计其搭配词、语义趋向和语义韵,对语料进行细微颗粒度分析,能够在微观层面进一步揭示主题的话语建构意义和态度立场。未来的研究可以结合LDA主题建模、语料库方法以及批评话语分析的更多研究路径(如话语历史分析路径)对相关媒体报道话语进行分析。注释1 其中涉及较为复杂的数学知识,在此不赘述,有兴趣的读者可以阅读Blei et al.(2003)有关这一问题的详细
50、阐释。参考文献ANTHONY L.AntConc(4.0.4)CP/OL.2022.https:/ A,SELE K,ETCHANCHU H,et al.From big data to rich theory:integrating critical discourse analysis with structural topic modeling J.European Management Review,2021,(18):197-214.BAKER P,GABRIELATOS C,KHOSRAV INIK M,et al.A useful methodological synergy?C