收藏 分销(赏)

基于文献计量的多种热点识别方法研究.pdf

上传人:自信****多点 文档编号:2341217 上传时间:2024-05-28 格式:PDF 页数:5 大小:3.79MB
下载 相关 举报
基于文献计量的多种热点识别方法研究.pdf_第1页
第1页 / 共5页
基于文献计量的多种热点识别方法研究.pdf_第2页
第2页 / 共5页
基于文献计量的多种热点识别方法研究.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、87TUSHUGUANXUEKAN NO.8,2023研究综述2023年第8 期图书馆学刊基于文献计量的多种热点识别方法研究张茜晴(厦门医学院图书馆,福建厦门36 10 0 1)摘要 研究热点是指在某段时间段内有突出发展潜力的研究主题,研究热点的有效识别对提高科研工作效率至关重要。通过对国内热点识别文献中所使用的文献计量方法进行调研,以CNKI数据库中热点识别研究文献为基础数据,利用内容分析法,从计量要素、计量方法以及热点呈现方式与采用工具这几方面分析基于文献计量的热点识别常用方法的特征。指出文献计量方法是识别研究热点最主要的分析方法,且基于文献计量的热点分析方法呈现多样化趋势;借助可视化分析

2、软件进行热点识别是国内应用研究的主要趋势;不同识别方法的分析侧重点差异明显,应根据数据特征及具体需求选择合适的分析方法。关键词 热点识别方法方法特征分析斤内容分析文献计量分类号 G252.81引言研究热点(HotTopic)这一概念由普赖斯(Price)在19 6 5年提出,是指在某段时间段内有突出发展潜力的研究主题。科技文献呈现出指数级增长的趋势,有针对性地挖掘科技信息中的有效情报,快速了解研究领域的热点话题,有助于把握研究动向,节约科研成本。文献计量学是在对大量文献进行定量化研究需求的基础上应运而生的,利用文献计量手段识别研究领域热点,分析主题演进已成为研究主题分析的基本方法。目前,经过较

3、长时间的探索与发展已形成多种基于文献计量的热点识别方法。早期关于热点识别的研究多集中在西方国家,2 0 世纪90年代起逐渐受到我国学者的关注、研究与应用,并产生了丰硕的研究成果。笔者在调研国内相关文献中的各个分析环节指标的基础上进行研究,旨在梳理基于文献计量的热点识别方法及分析路径,比较不同方法的特征,以期为研究人员提供借鉴和参考。2文献回顾研究热点通常源于某时间段研究领域内受到广泛关注的研究话题或进展,且常伴随着文献发表数量增加、某些主题词数量及涨幅突增、引文网络突变等计量学特征。针对这些计量指标,衍生出多种识别研究热点的方法和技术。关键词作为最能表征文献主题内容的要素之一,将其用于分析识别

4、领域热点由来已久,例如词频分析、共词分析等方法。另外,文献之间的引证关系可以理解为是科学对话的一种形式,基于引文的研究可定量分析科学研究的传播途径和发展脉络,对主题发展和热点趋势都有重要的揭示作用。同时,以文献数据之间的内在关联为纽带,借助计算机图像处理技术将数据转换成图像并进行交互处理的新兴可视化技术为研究热点的识别和呈现提供了更加多样且灵活的途径。通过对国内外相关文献进行梳理和分析,热点识别方法研究可分为以下几类。2.1基于词汇的热点识别2.1.1基于词频的热点识别词频分析以词汇为分析对象,词汇作为表达文献主题内容的最小单位,因其概括性、统计性、链接性等特性,常用于研究热点的识别。词频分析

5、法由Luhn于19 58 年首次提出并应用于自动文摘的研究,该方法基于研究内容的集中与分散性可由关键词的频次与个数的关系加以判断这一原理,研究内容的集中性越强,则表征该内容的关键词所代表的内容在该领域越可能起关键作用(2。除了以词频累积数量为分析依据外,2 0 0 2 年Kleinberg提出了一种突破监测算法,在分析词频时考虑其变化密度,从而识别文献中具有高密度特性的词,即有突然增长特性的词 32.1.2基于词共现的热点识别通常,一个研究主题包含不止一两个词汇,相互关联的一系列词汇凝聚在一起能更全面地表征主题。共词分析法即为典型代表。该方法由法国文献计量学家在2 0 世纪7 0 年代中后期提

6、出,以文献计量和统计聚类为研究手段,按照词间的紧密程度对共同出现的词进行聚类,为定量分析大数据量的文献信息,探究知识演化、热点话题和学科演进提供了一种新的思路4。此外,在共词分析的基础上,利用各种统计学分析方法,结合可视化软件,可将研究热点更加直观地展现出来。如,徐晓华等人利用共词聚类和多维尺度分析方法对艾滋病预防医学领域的文献进88TUSHUGUANXUEKAN NO.8,2023研究综述图书馆学刊2023年第8 期行分析,获得了2 0 13一2 0 15年的4大热点研究领域(5);周丽英等人以SCI收录的3种国际植物营养学期刊为数据源,将共词分析与社会网络分析方法相结合进行了主题领域划分,

7、并研究各领域的发展变化趋势(6 2.2基于引文的热点识别Small将引文关系划分为文献耦合(BibliographicCou-pling)、文献同被引(Co-catation)以及直接引用(Direct Cita-tion)这3种类型。文献耦合分析由麻省理工学院的Kessler教授于19 6 3年提出,其原理是两篇及两篇以上的文献因引用同一篇文献可发生互相关联7,共同引用的文献越多,说明这几篇施引文献之间的联系越为紧密。以此理念为基础,肖明等人以引文耦合为分析方法,在国内首次探讨了学科结构和知识基础,并辅以可视化工具描绘了数字图书馆领域具有相同主题的文献间关系8。同被引分析由美国情报学家Sma

8、ll于19 7 3年提出,反映的是被引证文献之间的关系,他采用同被引的分析方法,对有机薄膜晶体管领域进行了分析,并揭示了该领域主题演化过程中的发展、消亡过程。引文关系的最后一种类型直接引用则是文献引用的一种基本形态,在对文献进行直接引用分析时无需厘清他们之间的耦合或同被引关系。已有研究采用不同的研究方法对各研究领域的热点话题进行识别和展现,为当前研究提供了重要的参考。识别方法的多样性和灵活性在为主题研究提供多种途径的同时,也带来不同方法在过程分析和结果展现方面的差异以及方法选择上的困惑。目前国内尚缺乏较为全面的研究,因此,笔者采用内容分析法,通过文献调研梳理出现有研究中较为常用的热点识别方法,

9、并从各流程角度比较不同方法之间的差异。3热点识别方法应用研究调查3.1相关文献获取笔者主要采用内容分析法,以中国知网(CNKI)数据库中收录的CSSCI、中文核心以及CSCD索引的期刊为数据来源,以“研究热点”为检索词在题名中进行检索,又以“SU=研究热点ANDSU=文献计量”为检索式在CNKI全文数据库中进行检索,剔除重复文献后共获取2 0 59 篇相关文献,经过快速阅读文献题录信息,删除与本研究无关的文献共556 条,最后纳人内容分析的样本文献12 11条。3.2调研过程笔者以热点识别过程的每一个环节为分析要素,共构建文献调研指标4个,分别为数据来源、计量要素、计量方法以及热点呈现方法与采

10、用工具。其中,数据来源是指该篇文献所研究的目标文献来源;计量要素是指该篇文献依据何种文献要素进行研究热点的识别;计量方法是指该文献采用何种计量方法进行研究热点的识别;热点呈现方法与采用工具即该文献将分析出的研究热点以何种形式呈现,以及采用了何种工具对研究热点进行可视化表达。3.2.1数据来源统计结果按照热点识别所依据的论文要素,将调研指标分为基于词汇的热点识别文献和基于引文的热点识别文献两部分分别进行指标统计结果的解读,数据来源见图1,从上图可见,CNKI是以词汇进行热点识别文献分析对象的主要来源,占比高达49%,其次是科睿唯安的WebofScience(W o S)数据库和中文CSSCI索引

11、,占比分别为2 8%和12%。下图所示基于引文进行热点识别的文献分析对象来源中,WebofScience数据库占比最大,高达7 5%,其次是CNKI以及CSSCI来源文献。基于词汇的文献数据来源1%1%2%2%1%1%aCNKI3%aWebof ScienceaCSSCI12%aPubMed其他英文数据库49%其他中文数据库万方28%特定期刊加Scopus基于引文的文献数据来源2%1%1%9%Webof ScienceCNKI12%CSSCI慕特定期刊ScopusA&HCI75%PubMedMedline图1调研结果一数据来源统计3.2.2识别方法统计结果笔者将全部调研样本分为基于词汇的识别方

12、法与基于引文关系的识别方法两类,其中,基于词汇的识别方法又可分为基于词频和基于词共现两种,基于引文关系的识别方法又可分为基于高被引文献和基于文献共被引的分析方法两种,具体到每一种方法的使用情况详见表1。3.3基于调研样本的热点识别路径剖析基于本研究调研的全部文献,建立起“文献来源一分析要素一计量方法一分析工具”的一一对应关系,从多维度剖析当前常用研究热点的分析路径,如图2 所示。图2中圈的大小表示使用频次的高低,如,就“文献来源”这一指标来看,WoS及CNKI是目前国内进行热点识别研究中89TUSHUGUANXUEKANNO.8,2023研究综述2023年第8 期图书馆学刊表1调研结果方法统计

13、基于词汇的热点识别文献基于引文的热点识别文献(16 2 篇)(1293篇)基于词基于词基于文献基于高被频次频次频次频次频共现共被引引文献简单词聚类分467590聚类分析60内容分析42频分析析突破词共现分关键节点突破文献1224381610分析析文献分析分析时序分多维尺引文编年119154时序分析85析度分析分析社会网中心性分1025络分析析因子分多维尺度483析分析战略坐战略坐标492标分析分析中心性46因子分析1分析使用频次最高的数据库;就“分析要素指标来看,基于词汇的分析方法使用频次要高于基于引文的分析方法;就“计量方法”指标来看,基于词共现的计量方法使用频次最高,而基于文献共被引的计量

14、方法则是引文分析中最常用的。图2 中连线的粗细表示共现频次的高低,例如,在以CNKI为文献来源的热点识别文献中,基于词汇的分析方法使用频次要远高于基于引文的分析方法,以WOS为文献来源的文献中,基于词汇与基于引文的分析方法使用频次相差不大;在基于词汇的分析方法中,词频分析与词共现分析的使用频次都较高,而基于引文的分析方法中,文献共被引分析的使用频次则远高于基于高被引文献及基于关键节点文献的使用频次;在基于词共现的分析方法中,聚类分析、多维尺度分析及共词分析的使用频次较高,在基于文献共被引分析方法中,聚类分析、内容分析、时序分析等使用频次较高;聚类分析以SPSS及CiteSpace为主要分析工具

15、,共词分析则主要依靠CiteSpace、SPSS及Ucinet等分析工具。简单河频分析Ucinet突破词分杯voSviewer多维尺度分BlbExcel基于词频CNKI社金网经丝SPSS共现分析CSSCI基于词汇时序分析基于词共璨CiteSpacegCUTO聚类分析WOSGephi基于文献共被引基于关键节色文购EndnoteNEViewer战略坐标分标Pubmed基于引文因子分卖ROSTMedLineHistcite辐于高被引仪戴中心性分析TDABlueMCA&HCISiMAT内音分折Aluvial ftow文编年分析烫被文献芬析ChtNetExplorer图2研究热点识别路径4基于调研结果的

16、常用热点识别方法分析4.1基于词频的热点分析方法在全部调研样本中,基于词频的分析方法共使用7 0 8次,其中,简单词频分析法,即单纯累计关键词或主题词出现频次来判断研究热点的文献有46 7 篇;另外,突现词分析方法共使用12 2 次,该方法利用Kleinberg的突现词算法,借助CiteSpace可视化分析软件可运行计算得出某段时间内具有高突现率的关键词,通过分析这些关键词所表达的研究主题,从而获取该时间段内的研究热点;除了简单词频及突现词分析法,还有119 篇文献使用了时序分析方法,利用分析软件对文献进行处理绘制主题热点演变时区视图,以时间线为横轴,以热点关键词节点之间的连线表达研究热点的演

17、变。4.2基于词共现的热点分析方法笔者通过内容分析对全部调研样本进行了细化分析,基于词共现分析方法共使用142 7 次(由于一篇文献可使用多种分析方法,因此分析方法的使用总次数可能大于调研样本数)。具体到每一种方法,聚类分析使用频次最高,达590次,聚类分析是一种研究“物以类聚”的多元统计方法!,根据关键词(主题词)之间关联强度的大小聚集成簇,把联系紧密、代表相似主题的关键词聚集在一起,从而达到分析热点话题、研究趋势的目的。聚类分析通常需要借助分析工具来完成,调研样本中聚类分析常使用的工具有SPSS(2 51次)、CiteSpace(2 0 2 次)、Bibcomb(36 次)、Ucinet(

18、33次)、VOSviewer(31次)等。SPSS(Statistical Package oftheSocialScience)是目前社会科学领域使用最广泛的一套模块化的统计分析软件,功能包括因子分析、回归分析、相关分析、聚类分析等;CiteSpace是在科学计量学、数据可视化背景下逐渐发展起来的引文可视化图谱软件,以可视化手段呈现科学知识结构、规律和分布情况2)。共现分析方法共使用438 次,这种研究方法以关键词共现网络图谱锁定核心研究领域3,结合关键词词频统计及关键词之间的共现关系厘清研究热点,以CiteSpace的共现图谱为例,每个节点代表一个研究热点,节点的大小表示该关键词出现的频次

19、高低,节点越大则话题越热,节点之间的连线表示热点之间的共现情况,连线越粗则热点间关联越紧密。在共词分析中,分析软件的使用频次依次为:CiteSpace(211次)Ucinet(92次)、SPSS(26次)等。多维尺度分析方法使用频次为154次,主要借助软件SPSS(10 7 次)以及Ucinet(6次)。该方法将观测对象定位到二维或三维空间中一个特定位置,通过测定观测量之间的距离发现各观测量之间的结构4。社会网络分析方法(SNA)的使用频次为10 2 次,它90TUSHUGUANXUEKANNO.8,2023研究综述2023年第8 期图书馆学刊是一种社会学的研究方法,与统计学和心理学等学科联系

20、紧密5),常用的分析工具分别为Ucinet(7 8 次)、SPSS(10次)CiNetExplorer(3次)CiteSpace(1次)以及Thomson Da-taAnalyzer(1次)。战略坐标分析方法使用频次为49 次,该方法是一个二维坐标图,横轴代表向心度(Centrality),纵轴代表密度(Density),使用这两个指标衡量主题类团内部的发展状况和类团之间的互相影响状况6,调研样本中使用的工具主要包括SPSS(2 2 次)、CiteSpace(4次)、Ucinet(1)次。因子分析方法共使用48 次,这是将多个实测变量转换为几个不相关的综合指标的一种多元分析方法17,通过分析多

21、个原始变量,找出对原始变量有潜在支配作用、数量相对较少的因子14。调研样本中在进行因子分析时主要使用SPSS(32 次)、Ucinet(2次)等。中心性分析方法的使用次数为46 次,中心性是指一个点在网络中居于核心地位的程度,是判定网络中节点重要性的指标,调研样本中中心性分析的工具主要包括CiteSpace(2 3次)、Ucinet(7 次)、SPSS(6次)和Gephi(1次)。4.3基于引文的热点分析方法基于引文的热点分析方法以引文类型的不同分为两类,首先是基于文献共被引的分析方法,文献共被引分析是Citespace最具特色的功能,利用Citespace对文献进行共引分析可以提炼该领域的知

22、识基础、研究热点以及新兴趋势(18。在调研样本文献中,基于文献共被引的分析方法共使用7 7 次,其中,聚类分析使用6 0 次,通过对共现网络进行聚类,可将文献根据研究内容的相似程度划分到不同的聚类中进行分门别类分析,分析工具为Citespace(39 次)、vOSviewer(1次);关键节点文献分析是对网络中的关键节点的文献进行内容分析,借此了解领域研究热点,在调研样本中共使用16 次;时序分析的视图显示方式能突出共引网络节点随时间变化的结构关系19),在调研样本中共使用8次;中心性分析通过分析一篇文献在共引网络中与其他文献连接的紧密程度,从而判断其核心程度,中心性越高的文献,其在网络中的影

23、响力越大,调研样本中中心性分析共使用5次,分析工具均为Citespace;多维尺度分析方法使用3次;战略坐标分析方法使用两次。除了基于文献共被引的分析方法外,高被引论文作为被引用频次最高的那部分文献,往往具有较高的影响力,且数量较少的论文较大程度覆盖了某一研究领域的热点主题,调研样本中基于高被引论文进行的分析共使用57 次,其中,对高被引论文的内容进行阅读分析研究热点的方法使用42 次;另外,与突破词分析类似,Citespace同样可对在某一时间段内引用频次突增的文献进行探测,具有高突破性的文献所反映的内容在某段时间内受到了较多关注,因此,突破文献分析可快速了解某领域学者们所共同关注的话题,找

24、到研究热点,这种分析方法使用了10 次;最后,引文编年分析是利用HistCite软件进行的一种基于高被引论文的分析方法,可直观得到引文之间引用与被引的关系,从而反映文献间的关联 2 0 1,样本文献中该方法的使用频次为5次。5结论笔者对国内有关热点识别共12 11篇研究文献进行内容分析,建立各个分析环节的调研字段,通过对调研结果的统计分析,梳理出使用频次高且具有代表性的热点识别分析路径,得出以下结论。(1)文献计量方法是识别研究热点最主要的分析方法,且基于文献计量的热点分析方法呈现多样化趋势,可分为基于词汇的分析方法和基于引文的分析方法两大类。其中,基于词汇的分析方法以能表征研究主题的词汇为对

25、象、以词频或词间共现关系为基础,具有分析数据易获取、分析方法简单多样、分析工具种类多等特点,其使用率远高于基于引文的方法,在调研样本中的文献占比约为88.8%;基于引文的分析方法由于对数据库提供的可计量数据有较高要求、分析过程中算法较为复杂、分析工具单一(绝大多数使用CiteSpace),且对分析工具的依赖性较大,因此使用频次较小,在调研样本中的文献占比仅为11.2%。(2)借助可视化分析软件进行热点识别是目前国内应用研究的主要趋势。调研样本中6 5.7%的文献借助可视化软件进行研究热点的识别与呈现,软件种类多达2 7 种,且不同分析方法常用工具差异明显。例如,SPSS作为一款功能强大的统计分

26、析软件,在基于词共现的聚类分析、多维尺度分析、因子分析、中心性分析等分析中应用广泛;CiteSpace是陈超美教授用Java语言开发的基于引文分析理论的可视化软件,调研样本中的文献共被引分析、突破词分析、共现网络分析等,有6 1%都是借助CiteSpace进行的,可视化分析软件的多样性为研究热点的识别和呈现提供了更多的途径和更丰富的结果呈现方式。(3)不同识别方法的分析侧重点差异明显,应根据数据特征及具体需求选择合适的分析方法。在分析对象选择方面,词汇具有较强的解读性,而引文分析通常需要耗费较多的精力对高被引文献、关键节点文献进行解读,因此词汇的分析结果会更加直观、易读;但文献间的引用关系代表

27、着知识的流动和传承,以引文为对象可探测研究领域的知识基础和研究前沿,相较于词汇能更好地表达研究主题的演进。在计量方法和分析工具的选择上,聚类分析在主题表达方面更为直观,且分析工具多样,但由于算法不同,导致聚类类团也不同,因此在分析主题时仍需人工判断、调试;多维尺度分析图谱中,点与点之间的位置关系91:徐向东。)TUSHUGUANXUEKANNO.82023研究综述2023年第8 期图书馆学刊以及与中心位置的距离远近反映研究对象间的相似性及其核心程度,但通常仍需要综合其他分析方法进行区域划分,且研究者本身需对研究领域有一定了解,SPSS是多维尺度分析中最常用的工具。社会网络分析方法依据中心性指标

28、判断对象在图谱中的地位,Ucinet中的NetDraw绘制的网络图可清晰看到对象间的亲疏关系,是社会网络分析中应用最为广泛的软件。突破词分析基于CiteSpace的突破算法识别出短时间内具有高增长率的关键词,在生成的图谱中使用红色标注并形成突破词检测报告,运算速度快且易于解读,是识别新型热点话题的一种高效途径,但同时也存在着缺乏词间关联、分布较为分散等弊端,需研究人员结合其他网络进行更为宏观的分析。此外,利用CiteSpace进行基于引文共被引的聚类分析,以参考文献为节点,节点文献一般是本领域内被引用频次较高且在引文网络中中心性较高的文献,通过对节点文献的阅读和分析,找出领域内的热点研究话题,

29、这种方法通常用于探测知识基础,但在图谱的解读中较为费时费力,要同时结合节点附近的其他文献对领域内的研究主题进行解读。参考文献:1 邵作运,李秀霞.共词分析中作者关键词规范化研究以图书馆个性化信息服务研究为例 .情报科学,2012(5):731-735.2安秀芬,等期刊工作文献计量学学术论文的关键词分析 J.中国科技期刊研究,2 0 0 2(6):50 5-50 6.3Kleinberg J.Bursty and Hierarchical Structure in StreamsJ.Data Mining and Knowledge Discovery,2003(4):373-397.4冯璐,冷

30、伏海.共词分析方法理论进展 .中国图书馆学报,2 0 0 6(2):8 8-9 2.5徐晓华,绳宇.基于共词分析的国内艾滋病预防医学领域研究热点探究 J.公共卫生与预防医学,2 0 15(5):71-74.6周丽英,等.基于共词与社会网络分析的国际植物营养学发展态势研究 J.中国农业科技导报,2 0 15(6):142-149.7宋艳辉,武夷山.作者文献耦合分析与作者关键词耦合分析比较研究:Scientometrics实证分析 J中国图书馆学报,2 0 14(1):2 5-38.8 肖明,李国俊,杨楠.基于词频分析的国内情报学研究热点(19 9 8 2 0 0 7)J.情报杂志,2 0 0 9

31、(8):2 1-2 5.9Small H,Upham P.Citation structure of an emerging re-search area on the verge of applicationJ.Scientomet-rics,2008(2):365-375.10李纲.公共政策内容分析方法:理论与应用 M.重庆:重庆大学出版社,2 0 0 7.11路枝芳,薛耀文.基于因子聚类分析的奥情风险研究 情报科学,2 0 16(7):7 6-8 0,8 5.12冯帮,邓心仪.五年来国内教育智库研究的热点、趋势及展望一一基于CiteSpace的可视化分析 J.教育理论与实践,2 0 18

32、(1):19-2 4.13常金玲,任照博,裴阳.iConference会议研究热点及其演变 J.情报理论与实践,2 0 19(2):44-49.14储节旺,闫士涛.知识管理学科体系研究(下)一一聚类分析和多维尺度分析 .情报理论与实践,2 0 12(3):5-9.15魏瑞斌.社会网络分析在关键词网络分析中的实证研究 J.情报杂志,2 0 0 9(9):46-49.16白婷婷,郑新奇,赵璐.基于共词分析的复杂网络研究现状分析 J.资源开发与市场,2 0 11(2):12 2-12 6.17俞守华,等.基于因子分析的大学生手机用户信息行为模型构建 J.情报科学,2 0 16(9):7 4-7 7,

33、16 5.18甘静娴,马蕾.开放式创新视域下国际知识产权研究热点、前沿与趋势分析 J.情报科学,2 0 18(2):146-152.19Chaomei Chen.CiteSpacell:Detecting and visualizingemerging trends and transient patterns in scientific lit-eratureJJJournal of the American Society for Informa-tion Science and Technology,2006(3):359-377.20刘春年,陈通.基于共词聚类的能源互联网研究热点及发展脉络分析 J.现代情报,2 0 15(11):12 7-133,137.张茜晴女,19 9 0 年生。硕士,助理馆员。研究方向:高校图书馆工作。(收稿日期:2 0 2 2-10-30;责编

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服