收藏 分销(赏)

基于知识结构突变的学科新兴主题识别研究.pdf

上传人:自信****多点 文档编号:2357542 上传时间:2024-05-28 格式:PDF 页数:11 大小:1.65MB
下载 相关 举报
基于知识结构突变的学科新兴主题识别研究.pdf_第1页
第1页 / 共11页
基于知识结构突变的学科新兴主题识别研究.pdf_第2页
第2页 / 共11页
基于知识结构突变的学科新兴主题识别研究.pdf_第3页
第3页 / 共11页
基于知识结构突变的学科新兴主题识别研究.pdf_第4页
第4页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、情报学报 2023 年 9 月 第 42 卷 第 9 期Journal of the China Society for Scientific and Technical Information,Sept.2023,42(9):1018-1028基于知识结构突变的学科新兴主题识别研究段庆锋,陈红,闫绪娴,刘东霞(山西财经大学管理科学与工程学院,太原 030006)摘要 知识结构动态是识别学科新兴主题的重要途径。知识要素的新颖分布是学科新兴主题的体现,而知识结构突变则成为新兴主题涌现的重要特征。基于此,采用WL(Weisfeiler-Lehman)子树核测度知识网络结构演化特征,构建反映主题涌现

2、强度的结构突变率指标;采用PageRank算法,构建主题影响力增长率指标。上述指标组合形成二维识别空间,形成基于知识网络拓扑动态的综合识别方案。该识别方案的有效性得到基于情报学领域的实证支撑,对于短期涌现的高价值主题表现出较好的敏感度与区分能力。拓扑动态指标有助于加强主题知识演化的结构视角定量分析能力,为洞见学科知识演化提供了独特视角。关键词 学科新兴主题;结构突变;知识网络;WL子树核Identifying Emerging Scientific Topics by Abrupt Change of Knowledge StructureDuan Qingfeng,Chen Hong,Yan

3、 Xuxian and Liu Dongxia(School of Management Science&Engineering,Shanxi University of Finance&Economics,Taiyuan 030006)Abstract:Understanding the structural transformation of knowledge is key to identify emerging scientific topics.Novel distribution of knowledge elements implies that emerging topics

4、 occur,and transformation of knowledge structure has become the characteristic to identify emerging topics.Following these ideas,we measured the difference of structure between two knowledge networks in sequential time using the WL subtree kernel and propose an indicator in terms of structure transf

5、ormation of knowledge to suggest the extent to which a new topic emerges.In addition,we propose another indicator that measures the growth rate of a topic s influence over time using the PageRank algorithm.Then,these two indicators together compose a two-dimensional space for identification and form

6、 an integrated solution based on the dynamic topology of the knowledge network.The empirical research in the field of information science well-validated our method,with high sensitivity and effective discrimination towards emerging topics with high value in the short term.These topological transform

7、ation-based indicators are capable of quantitatively analyzing the evolution of academic topics and offer a unique view of knowledge structure to enable scientific evolution.Keywords:emerging scientific topic;abrupt change in structure;knowledge network;WL subtree kernel收稿日期:2022-08-29;修回日期:2023-02-

8、17基金项目:教育部人文社会科学项目“基于学术社交媒体的学科新兴趋势识别研究”(20YJA870005),“学术资源配置公平、效率与影响因素研究:学者、大学与区域的多层嵌入”(19YJAZH052)。作者简介:段庆锋,男,1977年生,博士,副教授,硕士生导师,主要研究领域为科技情报,E-mail:;陈红,女,1972年生,博士,教授,博士生导师,主要研究领域为科技创新;闫绪娴,女,1978年生,博士,教授,博士生导师,主要研究领域为智能决策;刘东霞,女,1975年生,博士,副教授,硕士生导师,主要研究领域为科技创新。DOI:10.3772/j.issn.1000-0135.2023.09.0

9、02第 9 期段庆锋等:基于知识结构突变的学科新兴主题识别研究0引 言学科新兴主题是科技竞争的关注焦点,对国家、企业及研发人员获取科技优势至关重要1。然而,相比于其他一般主题,新兴主题涌现时间短、数量稀少,从快速增长的海量文献中快速、准确地发现具有科技决策价值的新兴主题并非易事2-3。这种挑战性主要源于学科知识的复杂动态性,跨学科知识交叉融合,知识更迭日益加速,均增加了把握学科趋势规律难度。由此,学科新兴主题发现的根本在于深刻认知知识演化规律,尤其是通过知识之间的关联模式揭示主题涌现的关键特征。学科主题分析通常可以建立在某种网络形式之上4。共词分析是常见的知识网络工具,将涌现的关键词聚类视为新

10、兴主题5,这些关键词集合通过共现关系形成紧密联系结构,并指向相同的主题范畴6。共词网络背景下,主题探测建立在连接模式上,新颖独特的知识嵌入成为学科新兴主题的发现逻辑。另外,建立在引用关系之上的多种类型网络(常见有共引网络、耦合网络、引用网络)也被用于新兴主题探测7,具有相同主题内容的学术文献通过连接关系形成聚集结构,文献间引用关系模式成为主题发现的关键依据8-9。由此可见,不论何种形式的主题建模,网络拓扑都是揭示学科格局不可缺少的工具,而知识结构层面的动态变化更是识别新兴主题的关键。然而,从复杂多变的知识结构演化中发现新兴主题并非易事。挑战性很大程度上源于准确捕捉拓扑动态:一是庞大的知识网络规

11、模带来的计算成本,二是拓扑动态比较的困难。知识网络演化不但是要素节点的增减,更是网络关系的变化,两者共同影响形成复杂的网络演化与结构动态。主题分析需要考虑大范围的知识嵌入特征,新兴主题更强调动态变化10,结构动态成为亟须有效揭示的关键环节。反映网络拓扑的方法及模型在新兴主题研究领域得到了广泛应用。面对网络结构,社会网络分析与复杂网络理论方法被引入科技情报分析11-12。多种基于结构嵌入的特征指标被用于探索新兴主题,如反映微观嵌入的度中心性、反映中观结构的社区特征、反映宏观特征的网络密度13。这些面向网络的指标或模型能够揭示主题格局分布,但基本是静态反映,对于网络拓扑的动态刻画不足。动态成长性是

12、新兴主题区别于其他类型主题的最重要特征14,只有通过知识拓扑动态才能从根本上捕捉主题涌现。值得注意的是,近年来,链路预测被用于新兴主题趋势分析,通过对知识关系的预测反映主题动态趋势15-16。这种面向未来的刻画能力具有较大应用潜力,但众多指标差异较大,面临指标选取及场景优化问题。另外,以 LDA(latent Dirichlet allocation)为代表的统计模型在主题分析中取得了良好效果17,尤其是考虑时间的动态模型能够刻画主题知识的分布演化过程18,但是文本表示的“词袋”模型忽视了主题之间的关联性,无法揭示主题知识结构特征。上述定量指标及方法在一定程度上揭示了主题涌现过程的某些侧面,但

13、面对大规模的学科知识网络演化的复杂动态性,仍存在诸多局限性,尤其是在拓扑动态比较方面对人工经验及观察判断的依赖程度依然较高,能够有效反映知识网络拓扑动态特征的研究不够充分。本文旨在通过知识结构突变的探讨,形成具有知识结构动态感知能力的学科新兴主题识别方案。针对主题涌现过程的结构特征,构建基于知识网络拓扑的主题结构突变率指标与主题影响力增长指标,基于此,形成学科新兴主题的二维识别框架,并通过综合性识别方案,发现具有战略价值的学科新兴主题。1研究设计1.1分析框架主题是凝练与抽象的特定内容,可以表现为知识要素的某种组合或分布19,且这些要素存在广泛关联,并形成知识网络20。主题知识网络不断动态演化

14、,如知识元素的生灭重组、关系模式的重构以及知识群落的融合分裂21,动态变化之中蕴藏了影响学科未来的新兴主题。新兴主题的价值在于巨大的潜在影响力,如理论突破可以引发科学范式的颠覆,重大科学发现能够引发技术革命进而推动人类社会的进步。科学范式的变化在知识层面更大程度地体现为结构突变,不仅涉及元素与关系的数量增减,更是知识结构的重组重构22。因此,知识结构突变成为嵌入视角下新兴主题的重要特征,更成为刻画新兴主题的有效手段。基于此,可以将发生结构突变或新颖结构涌现的知识网络界定为学科新兴主题,其拓扑结构的改变不但程度剧烈,而且时间短促,即知识结构突变越迅猛,越可能预示着高影响力、高价值新兴主题的涌现。

15、1019第 42 卷情 报 学 报结构观视角下,知识结构突变成为新兴主题识别过程中的关键环节,需要对结构突变性开展有效度量。网络结构是学科探测与知识发现领域关注的内容,如节点中心性、最短路径、社区探测等23,已有大量文献说明网络分析指标及算法在结构揭示方面的有效性。然而,这些常用指标及方法大多基于静态分析,并不善于揭示网络结构在多大程度上发生了改变,或者缺乏对拓扑差异性给出有效度量。网络拓扑的动态比较是较为困难的任务,制约了知识结构突变的探测与新兴主题的发现能力。图 同 构(graph isomorphism)是 判 断 两 个 图(网络)是否具有相同拓扑结构的研究领域24,是可以揭示主题知识

16、网络拓扑动态的有效方法。主题知识网络在不同时期的同构性越低,则结构变化的程度越大,即结构突变的可能性越大;反之,亦然。借助图同构分析,可以有效刻画知识网络的结构突变性。虽然已有大量文献采用网络嵌入指标及模型对知识网络演化开展研究,但鲜有针对知识网络动态场景开展的图同构分析及应用解决方案25。据此,非常有必要采用图同构方法,通过知识网络的同构性分析刻画结构突变,进而捕捉新兴主题涌现的结构特征,以推动对新兴主题的探测能力。具体地,从知识网络的微观和宏观两个层面分析新兴主题的结构特征,如图 1 所示。以关键词为节点、共现关系为边构建的共词网络能够反映知识分布模式26。主题词 i 的知识网络嵌入体现在

17、两个层面:一是由焦点主题词 i 和其邻居节点(与焦点主题存在共现关系的主题词)共同构成的个体知识网(Egoi),反映了主题 i 的局部嵌入;二是包含所有主题词的整体知识网(Net),反映了主题的全局嵌入。个体知识网和整体知识网体现不同层级结构,前者针对某个主题个体,通过存在邻居关系的主题词集合,反映焦点主题的知识嵌入;后者面向学科整体,反映学科主题的全局知识体系。另外,两者的用途不同,个体知识网旨在通过知识嵌入刻画焦点主题的结构性涌现特征;整体知识网反映学科知识的全局嵌入,旨在揭示主题在学科整体层面的影响力。本文基于知识网络拓扑动态特征,构建识别框架,如图 2 所示。具体地,分别从知识网络的局

18、部和全局视角出发,构建主题结构突变指标和影响力增长指标;综合两个指标特征,形成知识结构动态视角下新兴主题的二维识别方案。在动态演化视角下,个体知识网随时间的改变反映了焦点主题的知识嵌入变化,这种变化越急促、越剧烈,意味着新颖知识的结构性涌现越强烈。因此,基于个体知识网拓扑改变程度,构建主题结构突变指标,度量主题知识的结构涌现。另外,基于主题在整体知识网的嵌入地位,构建主题影响力增长指数,反映主题图1局部和全局的主题知识网络嵌入图2基于知识结构突变的学科新兴主题识别框架1020第 9 期段庆锋等:基于知识结构突变的学科新兴主题识别研究对学科的贡献与影响。这两个指标均基于知识网络拓扑动态形成度量,

19、但分别从知识嵌入和外在影响力两个层面揭示新兴主题在知识网络演化过程的结构性特征。基于这两个指标,构建二维识别方法,通过知识结构涌现的局部和全局视角综合,形成较为平衡的探测结果。1.2 基于图核的主题结构突变1.2.1WL子树图核图核(graph kernel)是旨在解决图同构问题的核方法,将图对象映射至 Hilbert空间,通过内积运算度量图的拓扑结构相似性27。具体地,图核是定义在图空间上的对称正定函数,表示为 Hilbert 空间的内积运算。给定图集合上G的映射函数 k:G G R,若存在从图空间到 Hilbert 空间的特征映射:G Hk,满足条件 k(x,y)=(x),(y),其中x,

20、y G,,代表内积运算,则称函数k为图核。WL(Weisfeiler-Lehman)子树核是经典的图核算法,主要思想是将图分解为多个不同的子树,通过比较子树之间的相似程度反映图的相似性28。WL 子树图核算法主要过程如下:对于给定节点标签的图,首先,对每个节点邻居进行聚合并排序,节点标签与完成排序后的邻居标签共同构成多重集合(multiset);其次,将每个节点的多重集合映射至一个新的未曾出现的标签,这些标签成为节点的新标签,节点标签的更新意味着一次迭代完成;最后,据此进行节点标签的多轮迭代,直至结束。节点标签的更新映射关系在所有图之间是共享的,若两个图的所有节点标签数量相同,则认为两者同构;

21、否则,标签数量差异越大,同构性越低。定量地,将迭代h次的WL子树核定义为khWL(G1,G1)=hWL(G1),hWL(G2)(1)其中,hWL(G)表示标签出现次数序列,即(c0(G,01),c0(G,0|0|),ch(G,ih),ch(G,h|h|)(2)其中,ci(G,ij)表示第i次迭代中标签j出现的次数。1.2.2主题结构突变指标由上文所述的知识结构观定义可知,新颖知识结构的涌现是学科新兴主题的体现,这种结构性改变的程度与快慢直接反映主题新兴涌现的强烈程度。个体知识网体现了焦点主题的嵌入分布,通过比较不同时期个体知识网的结构差异,构建主题结构突变指标。因网络演化既有节点也有网络连接的

22、增减,故网络结构的比较是具有挑战性的任务。知识网络拓扑结构差异程度可以通过图同构加以刻画。图核方法主要有 3 大类:基于路径图核、基于子图图核以及基于子树图核。其中,作为子树图核经典算法的 WL 子树核应用广泛,获得了学界主流的共识,在图分类及比较的文献中表现不俗29。因此,本文采用 WL 子树核度量知识网络的结构突变程度,并基于此构建主题结构突变性指标。值得注意的是,WL 子树核算法一般流程中并没有明确如何确定节点标签,需要在实际应用中给节点赋予标签。考虑到网络结构是关注点,采用Louvain 社区算法对个体知识网探测社区结构,并将反映结构嵌入的社区编号作为节点标签,用于WL 子树核算法。个

23、体知识网除了以焦点主题词为核心的星型连接之外,其邻居节点之间可能存在相互语义依赖并形成连接,由此形成相对连接稠密的不同知识社区,每个社区代表特定的内涵语义,通过社区结构可以揭示焦点主题的微观知识结构。新兴主题是知识嵌入不断深化的过程,也是向日益复杂的社区结构演化的过程,如图 3 所示。可以看出,稠密、规模化的知识社区动态呈现是新兴主题成长过程的重要特征。Louvain 算法是主流的社区探测方法,通过启发式算法寻找最优的网络社区划分,以实现模块度的最大化目标,模块度已经被证实是衡量社区划分合理性的有效度量,基于模块度寻优的算法能够有效揭示主题的知识社区分布30。首先,基于WL子树核算法,定义主题

24、i相邻两期个体知识网的结构相似性S为 Si(t-1,t)=kWL(Gi,t-1,Gi,t)kWL(Gi,t-1,Gi,t-1)kWL(Gi,t,Gi,t)(3)其中,t 为时间;kWL(Gi,t-1,Gi,t)为采用 WL 子树核度量的网络Gi,t-1和Gi,t的结构相似性,由式(1)计算获得,事实上为通过子树核将知识网络Gi,t-1和Gi,t映射为 Hilbert空间向量后的内积结果。为了比较方便,对相似性进行归一化处理,式(3)采用了余弦公图3个体知识网社区结构演化示意图1021第 42 卷情 报 学 报式形式,其中分母部分的计算与分子部分同理。指标 Si度量了主题 i 个体知识网的邻期同

25、构性,即知识结构相似性。其次,基于指标 Si,构建反映主题 i 涌现程度的结构突变度指标Di,即Di(t-1,t)=1-Si(t-1,t)(4)该指标刻画了知识网络拓扑的跨期差异性,反映了主题 i 发生的结构变化强烈程度,反映个体知识网结构变化强度。指标 D 数值区间为0,1,D=0,说明主题的知识结构保持不变;D=1,说明发生了完全的结构变化。最后,以结构突变度 D 为基础,通过差分运算,构建指标主题结构突变率Di,即Di=Di(t+1,t)-Di(t,t-1)(5)指标 D 度量了主题结构突变度的变化率,反映了主题知识结构变化的加速度,取值为正,说明结构突变呈加速状态;反之,则呈减速状态。

26、结构突变度 D 和结构突变率 D 分别度量了结构变化的不同侧面,前者刻画拓扑变化程度,而后者是拓扑变化的更高阶度量,通过结构突变度 D 的差分运算进一步提升甄别能力,能够更敏锐地揭示结构动态的加减速态势,进而反映主题未来趋势。1.3基于PageRank的主题影响力增长具有决策价值的学科新兴主题不但体现为新颖知识,更要对学科发展具有潜在的重大影响力。主题嵌入整体知识网,通过相互语义依赖,形成学科知识影响力。随着知识网络演化,外部影响力的快速增长是新兴主题的重要特征。基于以上分析逻辑,采用 PageRank算法度量主题在整体知识网的影响力,通过影响力的变化构建新兴主题影响力增长指标。PageRan

27、k 算法依据网络连接拓扑度量节点的相对重要性,在科技情报领域获得广泛应用,是揭示节点网络影响力的经典方法,其分析思想为,若节点连接重要的邻居,则其重要性亦较高31。以整体知识网络为背景,主题 i 在第 t 期的影响力 PR 定义为PRit=j (i)PRjtDjt+(1-)(6)其中,j 为主题 i 的邻居(i);Dj表示主题 j 的度中心性;为取值区间0,1的阻尼系数,本文设定为常见的0.85。基于静态指标 PR,构建影响力动态指标-主题影响力增长率PR,即PR=ln(Nit+Ni,t-12)PRit-PRi,t-1PRi,t-1(7)其中,Nit和 Ni,t-1分别是在 t 期和 t-1

28、期包含主题 i 的学术文献数量;ln(Nit+Ni,t-12)为权重,表示主题出现文献年均数量的对数值。指标的加权设计旨在形成更加平衡的识别能力,期望识别出的新兴主题既呈现较高水平的影响力增长率,又具有一定水平的影响力规模。因为影响力增长率是相对指标,可能会过度倾向于邻居节点稀少的主题,不利于发现真正具有高潜力影响力的新兴主题。通过权重的调节,有助于增强识别分析的鲁棒性。1.4基于拓扑动态的学科新兴主题综合识别方法主题结构突变率和影响力增长率分别从内在结构和外在影响力两个层面揭示了新兴主题涌现动态特征,由此形成学科新兴主题识别的综合研判。以上述两个指标为维度,构建坐标体系,形成二维识别空间,如

29、图 4 所示。按照维度水平的两两组合,大致形成 4 种主题类型,即新兴型、增长型、稳定型和演变型。其中,新兴型主题具有结构突变率和影响力增长率的双高特征,是新兴主题的高发集聚区域;增长型主题表现为稳定知识结构和高增长影响力,是新兴主题的备选区域;稳定型主题具有二维特征的双低表现,内在结构与外在影响力呈现双稳定,该区域出现新兴主题的概率低;演变型主题表现为稳定影响力和较高结构变化率,这类主题通常反映传统主题稳定发展态势下仍蕴藏着持续创新潜力,对于这种具有旺盛生命力的重要主题应给与长期关注。总之,通过二维组合特征的综合考量,能够区分衡量不同主题类型,为研判学科前沿动态提供决策支撑。图4新兴主题二维

30、识别模型1022第 9 期段庆锋等:基于知识结构突变的学科新兴主题识别研究2实证研究2.1数据来源及处理实证以情报学为学科领域,以 Web of Science(WoS)文献数据库为数据来源。情报学是典型复合应用导向学科,尤其是最新信息技术在情报领域深度融合,驱动新兴议题不断涌现。WoS 数据库收录学术文献质量高且覆盖面广,是捕捉学科动态的常用数据源。检索策略为,通过代表性期刊获得学科领域文献,包含 Journal of the Association for Information Science and Technology、Scientometrics、Journal of Inform

31、etrics、Information&Management、Information Processing&Management、Journal of Information Science,这些期刊学科认可度高,所刊载学术文献基本能够代表情报学领域前沿。检索上述期刊在 20182020年发表的文献,从中筛选出类型为 article 的文献,得到查询结果 2508 条;从中抽取指标构建及识别分析需要的主要元数据,包括 DOI(digital object unique identifier)号(DI)、作者关键词(DE)、补充关键词(ID)、标题(TI)、摘要(AB)、年份(PY)。主题词抽取是

32、研究的基础,获取代表性强且覆盖率高的备选主题词集是关键。主题词来源有 3 个途径,包括作者关键词、补充关键词和非结构化文本。作者关键词质量最高,是主题词的首选;补充关键词是数据库的后续补充,准确性不如前者,删除代表性低的词语后,加入主题词集合;为了提高主题词的覆盖率,采用 NLP(natural language processing)方法从文献标题和摘要中抽取命名实体,从中挑出遗漏的重要词语加入主题词集。从 2135个备选主题词中,经过多轮筛选及处理(包括删除偶发性低频主题词、明显高频传统主题词,同类合并),最终获得250个主题词作为重点识别对象。学科知识网络以主题词为节点,共现关系为边,形

33、成无向非加权网络。从整体和个体层面分别得到全局知识网和个体知识网,前者包含所有主题词节点,而后者节点由焦点主题词和其存在共现关系的主题词共同组成。以年份为时间单位构造知识网络时间序列,每年可以得到 250 个个体知识网与1 个全局知识网。选取典型网络指标分析知识网络结构动态,如表 1 所示。节点数和边数反映网络规模,不论是整体还是个体层面均呈现先降后升的波动。网络密度(density)反映了知识网络连接紧密程度,个体知识网密度基本保持相当,而全局知识网网络密度在 2020 年呈现小幅度上升。集聚系数(clustering coefficient)刻画了三角关系嵌入倾向,是社区结构的反映,可以发

34、现两种网络均呈现先升后降的模式。从整体上看,规模性指标(节点数、边数)与结构性指标(集聚系数)呈现相反变化态势,反映知识网络的演化过程复杂性、规模性与结构性特征存在较大差异。值得注意的是,相较于2019年,2020年主题词与外部产生了更多的语义关联,而社区结构嵌入却明显下降,说明稳定的知识语义社区聚集还未形成,新的知识结构耦合在不断尝试,很大程度上是新兴主题蕴藏涌动的体现。2.2指标相关性分析采用知识网络序列数据,依据式(4)、式(5)和式(7)分别构建面向主题的指标结构突变度 D、结构突变率 D 和影响力增长率 PR。厘清这些指标之间关系及表征能力是构建识别方案的基础。由此,通过相关性分析揭

35、示指标特征,表 2 给出了指标间的 Pearson相关系数。为了全面性,表 2还考虑了非加权的影响力增长率 PR和指标文献增长率A。文献增长率 A 反映主题的呈现规模变化,其定义为焦点主题的文献数量增长率,并将关键词包含焦点主题的文献界定为主题文献。通过相关性分析,可以发现以下基本特征:主题知识结构变化与文献增长负向相关。结构突变度D 与文献增长率 A 在 5%水平下显著负相关,两者反映不同层面特征,主题文献增长越多,个体知识网结构变化则越少;反之,亦然。新兴主题出现初期,少数引领文献引发知识结构发生显著变化,随表1主题知识网络描述性统计年份201820192020个体知识网平均节点数72.1

36、5666.13281.622平均边数467.732418.556511.984平均密度0.8680.8690.865平均集聚系数0.2740.2890.224全局知识网节点数250250250边数735569728091密度0.2370.2240.258集聚系数0.7130.7050.6991023第 42 卷情 报 学 报着学界共识加大,主题内涵趋向稳定,后续大量衍生应用文献出现。主题影响力增长与文献增长呈正向相关。主题影响力增长率 PR 与文献增长率在1%水平下显著正相关,说明两者形成正反馈,主题文献增多,意味着更多领域曝光与学界认可,进而产生更多语义联系的可能,形成广泛影响力。主题知识结

37、构变化与影响力增长具有一定程度正向相关。结构突变率 D 虽然与影响力增长率 PR的相关性并不显著,但是与非加权指标 PR在 5%水平下显著正相关。结构突变度D和结构突变率D的刻画能力存在明显差异性。虽然两个指标都以刻画知识结构变化为目的,但相关分析结果相关性并不显著,说明两者事实上反映了知识结构动态的不同侧面,反映了主题的不同动态趋势,这种差异是不同指标内涵定义的体现。综上所述,得到以下基本结论:主题知识结构变化与影响力增长具有一定程度正相关,同时呈现高水平状态的主题应是探测关注重点。结构突变率D是反映主题涌现的新型指标,刻画了主题知识涌现过程的结构动态,与反映主题文献增长的指标具有互补性,丰

38、富拓展了新兴主题的认知途径。结构突变度D和结构突变率D是不同的知识结构动态度量指标,从不同角度反映主题结构变化。为了细粒度地展示指标识别能力,表 3 给出了按照各个指标逆序排名前 15 位的主题。表中指标整体上均展现出对新兴主题的敏感性,尤其是以covid-19 和 bolckchain 为代表的近期新颖主题都排名前列。从指标排序结果比较可以看出不同指标识别偏好的差异性。例如,主题结构突变度 D 与主题结构突变率 D 的排序结果差异大,反映了其对主题动态捕捉能力的差异,结构突变率更利于反映主题知识结构变化的态势。另外,主题影响力增长率的表2指标相关性分析文献增长率A结构突变度D结构突变率D非加

39、权影响力增长率PR加权影响力增长率PR文献增长率A11.590*0.1030.267*0.303*结构突变度D11.7700.1140.039结构突变率D10.136*0.131影响力增长率PR(非加权)10.511影响力增长率PR1注:*表示通过 5%的显著性检验,*表示通过 1%的显著性检验。表3各指标排名前15位主题列表序号123456789101112131415文献增长率Acovid-19deep learningbig datablockchainsocial networksconvolutional neural networkmeta-analysistopic modell

40、ink predictionnatural language processingsocial networkresearch assessmentinternational collaborationsupervised learningsocial media结构突变度Dcovid-19blockchainlink predictionscientific productivitysleeping beautynamed entity recognitionscholarly publishingmeta-analysisdeep learningcrowdsourcingemerging

41、 technologyinformation securityconvolutional neural networkPageRankcontent analysis结构突变率Dcovid-19blockchaing-indexdeep learningtwitteruniversity rankingpatentsaltmetricsnatural language processingcitation networknetwork analysisPageRankjournal impact factorlink predictioncitation analysis影响力增长率PR(非加

42、权)covid-19social sciences and humanitiesconvolutional neural networkcomplex networksnobel prizeinformation securitydeep learningblockchainmeta-analysisscientific productivityemerging technologyscholarly publishingfacebooksemantic analysisinterdisciplinarity影响力增长率PRdeep learningcovid-19complex networ

43、ksconvolutional neural networkresearch assessmentinterdisciplinarityfractional countingtext classificationnobel prizesocial networksinformation securityblockchainself-citationsdata miningmeta-analysis1024第 9 期段庆锋等:基于知识结构突变的学科新兴主题识别研究加权与非加权指标结果差异不大,说明权重的设置只是对指标结果进行了微调,在捕捉影响力增长的同时对数量增长特征给与适度兼顾。例如,通过加权

44、指标,以 deep learning、interdisciplinarity 为代表的文献较多且影响力快速增长的主题得到更高排名,该结果具有合理性。2.3识别分析以结构突变率为横轴,影响力增长率为纵轴,构建新兴主题识别二维空间,如图 5 所示。为了更直观、清晰地展示主题分布模式,坐标轴采用对数形式。本文选择结构突变率作为反映主题结构变化的横轴,而非结构突变度,主要原因在于:结构突变率是在结构突变度基础上的差分计算,对于拓扑结构的细微变动更加敏锐,这对发现处于涌现初期而增长幅度不明显的新兴主题十分重要;新兴主题的战略价值在于未来可能性,不但期望知识结构的新颖变动(结构突变度),更加看重知识结构内

45、涵创新的未来态势,而能够反映突变加减速态势的结构变动率更适于挖掘发展潜力巨大的新兴主题。由图 5 可知,开展识别分析得到以下主题识别结果:第一象限。显而易见,分布于右上角的主题 deep learning、covid-19、blockchain 远离主题群落,指标组合呈现双高特征,是当前学科发展潜力巨大的新兴主题。另外,第一象限的其他主题虽然不如上述 3 个主题的新兴趋势显著,但大多呈现高增长状态,也是新兴主题探测的重要区域。例如,以 convolutional neural network、interdisciplinarity、link prediction 为代表的主题具有较高新颖性,发

46、展势头迅猛,也是重要的新兴主题。第二象限。该区域为增长型热门主题,以热门的模型及方法为主,以 complex networks、research assessment、text classification为代表的模型及方法虽然日益成熟、稳定,但是其探讨及应用日益深入热烈,学科影响力亦不断增长。第三象限。该区域为稳定型主题,指标组合呈现双低模式,这些主题表现不够活跃,出现新兴主题的概率较低,属于低关注区域。第四象限。该区域为演变型主题,大多为情报学领域图5基于二维空间的识别结果1025第 42 卷情 报 学 报传统主题,如 journal impact factor、citation netw

47、ork、PageRank,虽然其相关研究已非常成熟深入,但仍占据学科核心地位,而且随着学科演化其亦不断发展,衍生出新问题、新场景、新方法驱动下的不断创新。例如,g-index 已被提出约 15 年,不再是热门议题,但对其方法改进优化的探讨研究依然持续,这种主题演化在指标上体现为较高的结构突变率。在大范围筛选基础之上,对重点主题开展深入讨论,以进一步检验识别结果。新型冠状病毒肺炎(COVID-19)是出现于 2019 年的全球性重大公共卫生事件,情报学界响应及时,最早于 2020年出现 4 篇相关文献采用科技情报工具对疫情进行了分析 及 预 测,与 research quality、health

48、care policy、forecasting、diffusion models 等主题嵌入形成个体知识网。主题 covid-19 是 2020 年突然涌现的学科议题,表现出最高水平的结构突变率,剧烈的新颖知识结构涌现是识别该新兴主题的重要特征。虽然相关文献不多且个体知识网稀疏单薄,尚处于萌芽阶段,但可以预期该主题会成为近几年科技情报领域的 重 要 议 题。区 块 链(blockchain)技 术 虽 然2008年就已应用于比特币,但最近几年其应用价值才得到广泛共识,情报学领域发表相关文献 1 篇(2019 年)和 5 篇(2020 年),主要对不同场景下采用区块链架构的信息处理机制及架构开展

49、深入探讨,该主题经过两年发展,围绕 fake news、trust management、game theory、decentralization 等关联内容形成独特研究范畴,反映出该技术在情报领域的重要应用前景。深度学习(deep learning)是近年来人工智能领域的重大突破性技术,在情报学领域的应用热度火爆,从 2019年的 5篇猛增至 2020年的 29 篇,结合情报学问题场景形成深入融合创新发展,形成 bert、word embedding、transfer learning、graph neural network 等相关议题嵌入的知识网。作为科技情报领域的重要方法工具型议题,主

50、题 deep learning 表现出最高水平的影响力增长率,广泛深入的学科应用不断提升其学科影响力。值得注意的是,新兴主题呈现不同程度的知识结构突变。图 6 给出了 3 个最具代表性新兴主题的知识嵌入演化过程,通过 20192020年的个体知识网对比,可揭示主题涌现的知识结构动态机制。为了便于清晰展示拓扑形态,图 6 中知识网络为删减低频连接的结果。主题 covid-19 从无到有,短期突然涌现,形成初具社区特征的知识嵌入结构。这种突然的知识网络涌现对学科知识体系形成最为强烈的结构性影响,应给予最高的结构突变率评分,通过结构突变率可以及时敏感地发现这种规模小但新颖度高的学科主题。主题 blo

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服