1、 学 界 观 察32档案管理3/2023总第262期研究热点与前沿的识别有利于学者把握特定领域的现状及未来一段时间的发展方向。罗瑞等的研究显示国内外“研究前沿”相关主题发文自2007年以来步入快速增长期。科学文献是学术界研究成果的重要载体和传播媒介,是学界进行研究热点与前沿识别的基础,例如从特定视域内的期刊发文数据2-5、期刊或学科领域的高被引论文数据6-8、期刊论文的参考文献数据9、基金项目论文0-2、会议论文3-5等角度进行识别,但鲜有研究围绕领域内学者群体进行探究。周琳等6认为精准定位具有高学术影响力的学者可以帮助科研人员迅速了解研究领域的前沿知识以及研究趋势,但并未对此进行实证研究。张
2、丽华和曲建升7,8的研究表明基于核心期刊编委发文进行研究前沿探测具有一定的价值。此外,Daud等9证实了通过探测热点主题来寻找学术新星的可行性,也说明特定学者群体在推动领域研究前进过程中的作用。综上,笔者认为借助重要学者群体识别研究热点与前沿具有一定的理论意义与现实价值,可以丰富识别研究热点与前沿的方法,也可以观察主流群体主动筛选学术信息的行为及其在学术研究中的引领作用。图 基于高关注度学者的领域热点与前沿识别流程1 研究思路与设计笔者尝试根据学者的h指数和阶段性被引情况构建新评价指标,挖掘特定时期、特定领域内得到较多关注者,即本文所称的高关注度学者。然后,基于高关注度学者群体被基于高关注度学
3、者的研究热点与前沿识别*周春雷,杨 昭,王 岩摘 要:本文提出一种借助学术共同体识别领域研究热点与前沿的方法。基于20种图情核心期刊的完整被引数据,构建学者关注度指标以筛选备受关注的学者群体,然后将该群体作为学术共同体的代表,通过挖掘其被引文献和施引文献中的关键词来发现领域研究热点和前沿。经实证,所提方法可有效识别领域研究热点与前沿。关键词:关注度;学者;研究热点;研究前沿;评价指标;被引频次Abstract:In view of the fact that most of the relevant studies focus on the literature itself,the conc
4、ern and preference of core scholars are not fully explored,and the understanding of the ability of the academic groups to appreciate high-value information is not clear enough.Therefore,this paper proposes a method to identify research hotspots and frontiers in the field with the help of academic co
5、mmunities.Based on the complete citation data of 20 core journals,an index of scholars attention is constructed to screen the high profile scholars group.Then,this group is taken as the representative of the academic community,and the research hotspots and frontiers in the field are found by mining
6、the keywords in the cited literature and cited literature.The empirical results show that the proposed method is effective.Keywords:Attention;Scholars;Research hotspots;Research frontiers;Evaluating indicator;Times cited引、施引文献中的关键词词频及共现情况,进行研究前沿与热点识别,具体流程见图。1.1 量化学者所获关注度。当前国内相较于国外缺乏Altmetrics数据整合分析平
7、台,另外数据量较大时,利用学术网络图谱方法进行评价可能会产生较多的信息遮蔽,因此本文仅利用数据库平台提供的引文数据进行学者关注度评价。公式()为笔者构建的关注度指数FL(Focus Level),TC即学者的所有文章在特定时间窗口内获得的被引量。鉴于很难集齐全部样本学者的所有被引数据,本研究以Dh指数(领域内h指数)来代替h指数,该指数由笔者于202年提出并经多年实证检验,可用于表征特定领域内绝大多数研究者的相对学术地位。20Dh指数的值随TC的时间窗口的右边界改变,如计算TC所选时间窗口分别为20205年、2062020年,则利用学者在206年和202年之前的所有文章的被引记录得到其Dh指数
8、。单从公式()来看,FL指数与Dh指数成反比,但科学家的地位和声誉本身就能带来额外的关注和认可,2高Dh指数学者在学界的影响力更有利于TC值的增长,因此FL指标在一定程度上降低了Dh指数对学者TC值的影响,也能够更容易对相同Dh指数的学者进行对比评价。公式()1.2 识别领域研究热点与前沿。依据ESI高被引论文的定义,若一篇论文在年前被ESI收录,但在最近一年获得了极高被引量,这类“睡美人”文献仍不会被归于当期的ESI高被引论文,从而导致重要学术信息的遗漏。基于高关注度学者的被引数据可以有效避免上述情况,本文以受到较高关注度的群体特定时期内的被引文献为基础进行研究热点识别。Persson22利
9、用高频同被引文献关联的施引文献来定义DOI:10.15950/ki.1005-9458.2023.03.014档案管理投稿信箱: 理 论 探 讨33档案管理3/2023总第262期研究前沿,是当前研究前沿识别的常用方法之一。张迪等23基于ESI核心论文的施引数据进行了研究前沿识别。本文利用引用高关注度学者的文献来探究研究前沿,与前两者有异曲同工之处,即都以得到学界广泛关注的对象为基础。鉴于大数据量处理利用可视化聚类容易遮蔽大量信息,本文利用词频分析法识别研究前沿。2 实证分析2.1 数据获取与处理。本文选取的数据来自202版中文核心期刊要目总览与CSSCI(2022022)收录来源期刊目录中的
10、20种图情核心期刊。由于CSSCI只收录998年以后的论文,笔者团队另外采集了979997年的数据,利用自编程序将合计3万余条的文本格式数据转换为被引文献和施引文献,并结合CNKI、万方、维普等数据库,扩充了可用于分析的字段,包括施引文献及被引文献的关键词、作者机构、摘要等诸多信息。在计算学者的Dh指数和时间窗口内的被引总量时,剔除掉Dh指数为、2的学者后,对可能出现重名的作者,结合其在文献中公开的教育背景和机构信息进行人工判断并更正Dh指数和被引数据。选择Dh指数为3及以上的学者,以排除大部分新手,留下有一定学术积累、未来可能推动领域前进的年轻学者。在关键词的处理上,对“数据开放”和“开放数
11、据”“LDA”“LDA模型”“LDA主题模型”等表征相同信息的关键词进行归并处理。2.2 学者FL值的计算与分析2.2.1 2015年高FL值学者分析。笔者认为Dh指数为和2的学术群体更多为领域内的入门群体,且未来有很大可能不会继续推动领域内的研究发展,而Dh指数在3及以上的学者群体是能够稳定在领域内的学者群体,因此本研究以后者为主要研究对象。本节利用20种核心期刊在205年及之前产生的被引数据,共得到6位学者。学者Dh指数的分布状况见表,可以看出Dh指数在0及以上的学者共有38人,占总人数的3.40%,而Dh指数在35之间的领域新秀共946人,占比84.77%,高Dh指数学者更容易得到关注,
12、在低Dh指数学者群体中发现优秀学者对学界的发展有重要作用,这也是本研究选取Dh指数在3及以上学者群体进行研究的原因之一。表 截至205年学者Dh指数分布20205年关注度指数FL值靠前的30位学者见表2,从中可以看出Dh指数较为分散,除了Dh指数为6的学者外,覆盖了表中的各Dh指数水平。表中Dh指数在0及以上的学者共38位,而表2中共有6人,通过梳理数据发现,这些高Dh指数学者在时间窗口内的发文量均在8篇及以上,因此他们的高FL值与其学术研究的活跃程度有一定关系。从Dh指数小于0的学者来看,这些学者可以分为以下几类:()发文量较低的领域内学者,但存在高被引论文。在20205年的时间窗口内,钟伟
13、金2008年发表的3篇关于共词分析法的研究获得了05次引用,该系列文章当前在知网获得一千余次引用;宋恩梅在该时间窗口内的发文量虽仅有3篇,但200年发表的一篇文章在20205年被引56次;杨鹤林与二人情况类似,单篇论文在20205年获得4次引用。(2)多领域学者,但在图情领域发文量较多或被引次数较高。曾润喜当前所在单位为重庆大学新闻学院,除在图情期刊发文外,还在电子政务中国行政管理新闻界等期刊发文;张一文的研究方向为决策理论与决策支持系统,200202年与齐佳音等人合作在图情期刊发表4篇关于非常规突发事件网络舆情的研究论文,截至205年篇均被引9.5次,当前已有2篇在知网被引200余次;俞立平
14、的研究领域包括图书情报与数字图书馆、企业经济、宏观经济管理与可持续发展等多学科领域,20205年在图情领域期刊发文多达25篇;(3)发文量较高的领域内学者,整体被引水平较高。娄策群、刘志辉、刘炜、魏瑞斌、李纲、王晓光、唐晓波、何琳等发文也都在8篇以上,且获得的引用量相对同Dh指数水平的学者更高。另外,通过对FL值前00位的学者Dh指数分布进行统计,结果见图2,有44位学者Dh指数为35,30位学者Dh指数为69,Dh指数在0及以上者共有26人。图2 FL值Top00的学者Dh指数分布 表2 205年FL值TOP30的学者笔者对Dh指数在0及以上但并未出现在表2中的22位学者进行分析,发现6位学
15、者在20205年的被引用次数大都在00以下,发文3篇,在同Dh指数水平学者群体中被引水平和活跃度较低。有6位学者在20205年获得的被引量大于45,年均发文在一篇以上,因此FL值相对较高,排在前75位。剩余0位学者的FL得分排在6位学者中前25%,有9位发文量为59篇,在此期间获得的引用量在880之间,位学者发文23篇,在20205年获得的被引量有2次。理 论 探 讨34档案管理3/2023总第262期从本节可以看出通过FL值可以较好地评价单个学者在特定时期内的学术表现,排除了一部分高Dh学者“吃老本”的现象,除了可以筛选出活跃度和被引量均较高的学者外,还能筛选出在特定时间段内产生较大影响的高
16、被引文献的低Dh指数学者和跨学科背景的学者。2.2.2 2020年高FL值学者分析。从2.2.部分看出FL值对于高关注度学者和热点文献的发现有较好效果。据此,笔者利用2062020年20种图情期刊被引数据共得到Dh指数在3及以上的2976位学者,结合被引数据计算学者的FL值,通过对高FL值学者的分析,对FL值有效性进行验证。2020年FL值TOP30的学者见表3。表3 2020年FL值TOP30的学者表3中仅有9位学者与表2相同,有7位学者在205年时FL值排在3500之间,5位学者排在0300之间,4位学者排在300之后,3位学者当时Dh值小于3,表2中李纲、俞立平、王世伟等在2062020
17、年也得到了更多关注。根据2020年的数据,所有学者中Dh值在0及以上的有76人,结合表2和表3中高FL值学者的变化来看,相较205年时,图情界的主要研究力量发生了较大变动。从表3中低Dh指数学者来看,吴晨生205年提出了“情报3.0”概念,由庆斌在203204年较早关注到Altmetrics研究并率先采用“补充计量学”这种译法,两人的相关文献在此阶段获得了较多引用,安璐关于突发事件下的网络舆情研究获得了较高关注,张一文和钟伟金关于网络舆情、共词分析法的研究在这一阶段仍得到较多引用。由于较高Dh指数的学者研究更为广博,此处不展开分析。但结合两阶段的分析来看,FL值在学者发现方面有良好效果,高FL
18、值学者的研究具有明显的前沿性与代表性。2.2.3 指标相关性分析。两阶段三个指标之间的相关性判断见表4,可以看出三个指标之间存在显著正相关关系。Dh与TC相关系数在0.8左右,二者相关性极强,这也说明了高Dh指数学者更容易获得引用。单纯依据FL值的计算公式,Dh与FL本应呈现负相关,表4中Dh与FL相关系数在0.40.6,中等程度正相关,表明FL值并不会对高Dh指数学者造成较大遮蔽。TC与FL呈强正相关关系,这也与事实相符。综合两阶段的学者分析及相关性验证结果可知,依据FL值可以有效筛选出领域内的高关注度学者,同时在平衡Dh指数方面的效果较为良好,容易发掘领域内的新秀或处于上升期的学者,这为下
19、一步基于高关注度学者的数据进行研究热点与前沿探测打下了良好基础。表4 两阶段各指标值相关性判断2.3 研究热点与前沿的识别发现笔者选取2020年FL值在0及以上的学者共345位,将此群体认定为高FL值学者群体,结合时间因素对其被引文献关键词和引证其文献的关键词进行词频分析,对2062020年这一阶段的研究热点进行呈现。2.3.1 基于高被引关键词的研究热点分析。2062020年内高FL值学者68篇被引文献的部分高被引关键词见表5。表5 被引频次TOP30的关键词由表5可以看出各类图书馆及相关服务等依然是学界关注的热点。“智慧图书馆”“数字人文”等作为20年之后开始出现的新兴研究主题在这一时期得
20、到了极大关注;“情报学”“竞争情报”“图书情报学”“情报”“图书馆学”等主题也得到较高关注度,表明图情界这一时期在积极关注并探索学科发展的方向;“网络舆情”“突发事件”“微博”等关键词的出现,说明突发事件网络舆情研究也是这一时期的热点;205年大数据发展提升到国家战略层面,“大数据”也成为图情界重点关注的研究方向之一,“开放数据”“关联数据”“科学数据”等表明图情界不再局限于知识或文献等的组织和利用,数据思维得到极大发展;另外,“共词分析”“引文分析”“研究热点”的识别、“可视化”等在情报学领域的研究方法得到较高关注。基于345位学者2062020年内被引文献中的高被引关键词,笔者利用Paje
21、k和VOSviewer软件绘制了共现图(见图3)。根据聚类结果,可以看出高FL值学者群体的高被引关键词可以分为0类:()文献计量与学术评价;(2)信息素养教育;(3)信息生态及虚拟学术社区视角下的知识管理或服务等;(4)科学计量学研究方法及工具;(5)图情学科发展及人才培养等;(6)图书馆建设与服务等;(7)大数据相关理念和技术的运用;(8)网络环境下的舆情研究和技术利用等;(9)数据开放管理及数据素养教育等;(0)网络用户信息服务与行为研究等。赵蓉英等24的研究显示,“十三五”时期中文期刊论文研究热点主要包括图书馆资源建设及服务、图情学科理论研究、方法与应用研究及档案管理投稿信箱: 理 论
22、探 讨35档案管理3/2023总第262期技术发展的结合、网络信息资源相关研究、文献计量与科学评价等方面,本研究与其基本上可相互印证。图3 高被引关键词共现图2.3.2 基于施引文献的研究前沿探测。本节中笔者通过在2062020年引用高FL值学者的文献关键词进行词频变化分析,识别在特定时期的新兴研究前沿和热点研究前沿。考虑到一类研究主题或研究方法能够被领域内学术群体关注到,相关关键词在领域内的提及次数需要有一定的积累,笔者选择词频在20及以上的关键词进行分析,即这些关键词至少出现在20篇文章的关键词中,共32个关键词,统计了各个关键词在205年及之前的长时期内在20种核心期刊文章中出现的次数(
23、FC)以及2062020年(FC2)和2082020年(FC3)两个时间段内在引用高FL值学者的文献中出现的次数,并通过各个时间段内的关键词比例变化来识别出的新兴研究前沿和热点研究前沿,比例变化的计算见公式(2)、(3),识别结果见表6、表7。公式(2)公式(3)由于2062020年共5年,时间跨度较长,足够一个研究主题在这期间快速兴起又快速衰落,因此NF指标除了考虑到关键词在领域内长时间跨度的热度外,也考虑到了5年时间窗口内的热度变化。公式(2)中之所以选择计算关键词在2082020年的次数FC3,主要是考察关键词在2062020年的中后期的热度。研究前沿不一定是研究热点,一个主题的研究热度
24、主要受到研究频次的影响,NF指标主要反映单个关键词的热度变化,而HF指标更加考虑到关键词在领域内的热度,如“新冠肺炎”的NF值最高,但频次仅有27次,很难将其认定为图情领域热点,“高校图书馆”的NF值虽低,但其在2062020年内出现频次很高,说明其必然是学界关注的热点。表6 新兴研究前沿识别结果从表6来看,“新冠肺炎”“突发公共卫生事件”“双一流”等有鲜明的时间背景,笔者以其余词语为检索词在知网进行关键词检索,限定学科为“图书情报与数字图书馆”,来源类别勾选CSSCI,发现包含表6这些关键词的研究在205年前后逐渐兴起,可见NF指标识别新兴研究主题或方法效果较好。表7 高热度研究前沿识别结果
25、高热度研究前沿识别结果见表7,与荣国阳、李长玲等25识别的2062020年内的30个热点关键词对比来看,共有4个关键词与表7重合,有6个关键词在笔者计算结果的370之内,也较为靠前,且其识别的8个前沿型研究热点中,除“情报工作”,其余关键词均在表7中。“政府开放数据”“知识图谱”“深度学习”“社交媒体”“智慧图书馆”“用户画像”“LDA主题模型”“Altmetrics”等未在荣国阳的研究中列出的关键词,通过知网进行主题检索,这些研究主题或方法等在近年来都保持着较高热度。总体来看,通过HF值计算出来的2062020年的研究热点与实际基本相符。图4 研究前沿趋势判断 理 论 探 讨36档案管理3/
26、2023总第262期 参考文献:罗瑞,许海云,董坤.领域前沿识别方法综述J.图书情报工作,208,62(23):9-3.2温有奎,乔晓东,张富财.中国情报学期刊论文热点关键词演变轨迹与预测J.情报杂志,2022,4(0):64-69.3余辉,梁镇涛,张羽帆.中国管理科学领域热点主题识别与趋势预测J.中国科技论坛,202(08):45-56.4陈庆,严海琳.基于文献计量法的新工科研究热点预测J.南京师大学报(自然科学版),208,4(04):47-52.5傅柱,王曰芬,陈必坤.国内外知识流研究热点:基于词频的统计分析J.图书馆学研究,206(4):2-2+2.6莫富传,娄策群.高被引论文应用于研
27、究热点识别的理论依据与路径探索J.情报理论与实践,209,42(04):59-63+35.7Cai F,Zheng W J,Zhang X,et al.Comparing selection strategies for engineering research hotspotsJ.PHysica A:Statistical Mechanics and its Applications,209,534:22287.8Ubeda-Sanchez AM,Fernandez-Cano A,Callejas Z.Inferring hot topics and emerging educational
28、 research frontsJ.On The Horizon-The Strategic Planning Resource for Education Professionals,209,27(02):25-34.9马海群,张斌.我国情报学领域研究热点趋势分析:从参考文献角度J.情报理论与实践,2020,43(06):30-36.0马赫,关心惠,沈思.图书情报学项目研究现状与热点:基于“十三五”时期国家社科基金年度与青年项目的分析J.情报科学,2022,40(04):86-92.孙艳红.国家基金项目视域下图情档学科研究现状、热点及趋势分析J.图书馆工作与研究,202(03):93-0.2
29、郭秀晶,房宏君.2世纪我国教育科学研究热点、前沿及其演进探析以国家社科基金和全国教育科学规划资助项目文献为例J.首都师范大学学报(社会科学版),2020(05):72-80.3李跃艳,王昊,邓三鸿,等.近十年信息检索领域的研究热点与演化趋势研究基于SIGIR会议论文的分析J.数据分析与知识发现,202,5(04):3-24.4杨建梁.iConference会议研究热点研究基于2008207年会议论文的文本数据分析J.情报资料工作,209,40(0):52-63.5黄晓斌,罗海媛.国内竞争情报研究主题的演化与热点发展基于中国科技情报学会竞争情报分会年会论文分析J.现代情报,209,39(0):2
30、6-36.6周琳,刘东苏.基于加权模糊分类的高学术影响力学者判别的研究J.情报理论与实践,202,44(09):29-34.7张丽华,曲建升.期刊编委比非编委论文作者能更早探测出研究前沿吗J.情报杂志,207,36(08):3-9.8张丽华,曲建升.基于核心期刊编委所著论文的研究前沿探测方法及实证研究J.情报工程,206,2(06):7-30.9Daud A,Amjad T,Alshdadi A A,et al.Finding Rising Stars through Hot Topics DetectionJ.Future Generation Computer Systems,2020,5
31、:798-83.20周春雷.领域内h指数及其应用研究J.图书情报工作,202,56(0):45-49.2王大顺,艾伯特-拉斯洛巴拉巴西.给科学家的科学思维M.天津科学技术出版社,202:22-3.22Persson,Olle.The Intellectual Base and Research Fronts of JASIS 986-990.J.Journal of the American Society for Information Science,994.23张迪,冷伏海.基于施引论文的研究前沿追踪方法与实证研究J.情报科学,2020,38(04):62-69.24赵蓉英,李新来,张兆
32、阳,等.“十三五”图情档学科进展:中外期刊论文研究热点与趋势解析J.图书情报工作,202,65(05):40-48.25荣国阳,李长玲,范晴晴,等.主题热度加速度指数学科研究热点识别新方法J.图书情报工作,202,65(20):59-67.(作者单位:.郑州大学信息管理学院、郑州市数据科学研究中心 周春雷,博士,教授,博士生导师;2.郑州大学信息管理学院 杨昭,硕士研究生;王岩,硕士研究生 来稿日期:2023-02-20)基于32个关键词的HF、NF值所绘研究前沿趋势判断见图4,关键词越靠近右上方,表明该主题或方法会是领域内未来一段时间的高热度研究前沿,此处仅以少数关键词为例进行说明。近些年来
33、,国内外部分知名高校如中国人民大学、英国伦敦大学学院等新开设了数字人文专业,该领域的关注度在可见的未来还会维持在较高水平。大数据作为国家战略发展方向之一,在学界和企业界都保持着极高热度。处在左下方的“知识服务”“社会网络分析”“高校图书馆”等属于图情界较为成熟的研究主题或方法,HF值均在20以上,明显高于大多数关键词,未来仍将保持一定的热度。结合HF、NF值可以看出关键词在时间窗口内的相对热度,也可为学术界研判领域发展趋势提供参考。3 总结与展望本文从学术群体的关注与选择出发,围绕高关注度学者的被引和施引情况,利用词频分析、关键词共现分析识别2062020年研究热点与前沿,识别结果与利用其他方法进行识别的已有研究相比,有多个主题或方法重合,与实际也较为符合,验证了本方法的可行性,为热点与前沿识别研究提供了新的尝试。另外,提出的新关注度指数FL计算简便、理念简洁,可对不同h指数的学者同时进行关注度评价。本研究仍存在一些局限性,计算关注度指数时仅考虑了第一作者的被引数据,实证研究时仅利用了图情领域的20种CSSCI核心期刊,将在后续研究中对此加以完善。*基金项目:国家社会科学基金项目“学术图书价值揭示方法研究”(项目编号:2BTQ067)。