1、科技管理研究Science and Technology Management Research2023 No.62023 年第 6 期doi:10.3969/j.issn.1000-7695.2023.6.005科技前沿识别体系中的机器学习应用问题王 力1,2,曾 文1,张运良1,2,金 辉1,2(1.中国科学技术信息研究所,北京100038;2.富媒体数字出版内容组织与知识服务重点实验室,北京100038)摘要:当前科技前沿识别研究方法难以得到更细粒度的分析结果,同时传统计量方法已不能够满足对当前来自网络的开源信息的情报挖掘需求,而机器学习方法可以实现数据细粒度的知识挖掘,因此成为解决科技
2、前沿识别问题的重要手段。对 20132021 年中国知网和 Web of Science(WoS)数据库收录的机器学习相关文献,在运用文献计量统计方法进行时间分布、研究主题及热点分析基础上,构建包含数据感知与处理层、情报计算和感知层、情报产品刻画层的开源情报环境下的科技前沿识别体系延伸架构,解读机器学习方法在各层次上的应用问题及关联关系,并提出不同层次需求发展的意见和建议;进而以 7 944 篇从 WoS 核心期刊库采集到的“深度学习”主题相关文献作为实验对象,主要针对数据处理中的知识单元构建进行论证。实证结果显示:从应用场景来看,多媒体信息处理的主题热度变化不大,智能机器人的主题热度逐年增高
3、;从机器学习任务来看,目标检测和追踪的主题热度逐年降低,特征工程和数据分类则呈增长趋势。案例分析证明了所提出理论框架的科学性。关键词:开源情报;科技情报;科技前沿;前沿识别;机器学习;文献计量中图分类号:G250.252;TP391;G301 献标志号:A 章编号:1000-7695(2023)6-0027-09Application Problems of Machine Learning in Science and Technology Frontier Recognition SystemWang Li1,2,Zeng Wen1,Zhang Yunliang1,2,Jin Hui1,2
4、(1.China Institute of Science and Technology Information,Beijing 100038,China;2.Key Laboratory of Rich-media Knowledge Organization and Service of Digital Publishing Content,Beijing 100038,China)Abstract:Current science and technology frontier identification research method is difficult to get more
5、fine-grained analysis results,at the same time,the traditional measurement method has been unable to meet the current open source information from network mining demand,and machine learning method can realize data fine-grained knowledge mining,therefore become an important means to solve the problem
6、 of frontier science and technology identification.On the base of analysis through three aspects of time distribution,research topic and hot spots,on the machine learning related literature included in CNKI and Web of Science(WoS)database from 2013 to 2021,by using the bibliometric statistics method
7、,this paper builds the extension architecture of science and technology frontier identification system under the open source intelligence environment,including data perception and processing layer,intelligence computing and perception layer,and intelligence product characterization layer,interprets
8、the application problems and associations of machine learning methods at all levels,and puts forward opinions and suggestions on the development of different needs at different levels.Furthermore,taking 7 944 literatures related to the topic of deep learning from the WoS core journal library as expe
9、rimental objects,mainly demonstrates the construction of knowledge unit in data processing.From the perspective of application scenarios,the theme heat of multimedia information processing has changed little,and the theme heat of intelligent robot is increasing year by year;from the perspective of m
10、achine learning tasks,the topic heat of target detection and tracking decreases year by year,while feature engineering and data classification show an increasing trend.The case analysis proves the scientificity of the proposed theoretical framework.Key words:open source information;scientific and te
11、chnical information;science and technology frontier;frontier identification;machine learning;bibliometrics收稿期:2022-08-06,修回期:2022-11-04 基项:国家自然科学基金面上项目“基于开源情报的科技前沿多维度探测方法及模型研究”(72074201);中国科学技术信息研究所青年项目“基于开源情报的科技敏感事件舆情感知方法研究”(QN2022-10)28王力等:科技前沿识别体系中的机器学习应用问题我国“十四五”规划明确提出要大力建设科技强国,面向新科技革命前沿方向建立先发优势
12、,瞄准前沿领域实施一批具有前瞻性、战略性的重大科技项目,谋划布局一批未来产业。如何让我国在第六次科技革命中拿到国际话语权逐渐成为科技情报工作的重要课题之一。科技前沿是指在某一具体科技领域中具有继承性、未来性特征的研究或技术,继承性是指在以往研究成果的基础上,提出和发展能够代表该领域最领先的科学技术,解决前人还没有解决的问题;未来性是指超越现实,将来某一时期被人类所掌握和使用的科学技术1。科技前沿识别的目的在于精准迅速把握某科学领域研究进展,为制定科技发展战略提供依据。笔者在前期调研的过程中发现,当前科技前沿识别的研究以文献计量的方法为主,难以得到更细粒度的分析结果;同时,开源情报的数据类型越来
13、越复杂,传统计量方法已不能够满足对这些数据的情报挖掘需求。针对以上问题,近年来有学者提出运用机器学习方法实现数据的深层知识挖掘,从而提高科技前沿识别的深度和广度。为此,本研究分析器学习方法在科技前沿识别中的研究现状,并提出未来研究建议,为科技前沿识别研究提供新思路。1相关研究现状1.1文献来源首先采用文献计量对国内外科技前沿识别的研究现状进行宏观分析,中、英文文献分别选自中国知网(CNKI)全文数据库和 Web of Science(WoS)数据库。在检索策略上,首先通过文献调研和专家咨询的方式确定机器学习视角下的科技前沿识别相关关键词,以“准”和“全”为原则,同时考虑中英文表达方式不同,在两
14、个数据库中分别进行多次检索,经领域专家筛选,将最好的结果作为本研究的实验数据。以 SU=(“技术热点”+“颠覆性技术”+“技术预见”+“技术预判”+“技术预测”+“技术预警”+“知识发现”+“前沿识别”+“技术前沿”+“研究前沿”+“科学前沿”+“研究热点”+“科学热点”+“科技前沿”)和 TS=(“disruptive technologies”or“technical predictions”or“technical warning”or“technological frontier”or“research frontier research focus”or“science fronti
15、ers”or“scientific hotspots”or“frontier of science and technology”),分别在 CNKI 数据库和 WoS 数据库进行检索;在此基础上,以“机器学习在科技前沿识别中的应用研究”为主题,通过多次检索实验,剔除不相关的论文,最终得到中文文献共 154 篇、英文文献共 142 篇(以下简称“科技前沿识别机器学习文献”)。检索文献的时间范围为 2013 年 1 月至 2022 年 5 月。1.2文献时间分布首先对样本文献数量进行统计,一方面可以了解科技前沿识别机器学习研究历年来的发展趋势,另一方面也可以发现学术界对科技前沿识别机器学习领域的
16、关注程度。从图 1 可以看出,科技前沿识别机器学习文献数量逐渐增长,其中在 2016 年出现较为明显的增长,在 2018 年和 2019 年更是持续走高。2013 年以来,科技前沿识别机器学习领域得到国内学者们的关注;国际上对该领域的研究则是从2016 年开始持续升高,并在 2021 年呈现爆发式增长。这一变化是因为受到机器学习几次技术革命的影响:2015 年谷歌公司发布了第二代机器学习系统TensorFlow;2017 年脸书(现 Meta 公司)发布了基于 Python 的可持续计算包;2018 年预训练模型 Bert诞生,机器学习迎来了新时代。从整体变化趋势可以发现,机器学习未来将成为解
17、决科技前沿识别问题的热点方法之一。图 1科技前沿识别机器学习献发表数量年度分布1.3相关研究热点研究相关文献主题变迁趋势,能够反映不同时期学者重点研究的方向以及领域内知识的发展历史和现状。利用 CiteSpace 绘制国内外科技前沿识别机器学习文献的时间轴视图,反映出各个聚类发展演变的时间跨度和研究进程。从图 2 可以看出,国内以知识发现、人工智能、数据挖掘等作为科技前沿发现的重要手段。其中,早期的知识发现为主题发现,随着数据源类型的增多,逐渐转向为主题预测、主题关联以及基于语义的主题图谱变迁;深度学习作为机器学习中连接主义学习的代表显著降低了机王力等:科技前沿识别体系中的机器学习应用问题29
18、器学习应用者的门槛,为机器学习技术走向工程实践带来了便利2。同时可以看出,深度学习在关系抽取和分类方面的优势被广泛用于解决科技前沿识图 2科技前沿识别机器学习中献发展时间轴别中新兴技术探测的问题。整体上看,国内普遍注重理论和方法上的创新,研究方向聚焦于解决单一问题,缺乏对应用场景的探究。从图 3 可知,国际上对科技前沿识别的表述较为含蓄,除“颠覆性技术”(disruptive technology)外,未出现其他明显表征科技前沿识别的关键词和主题;但和国内相比,具有更完善、更超前的理论体系和支撑方法。具体体现如下:(1)研究上具有明确的应用场景,重点是对科技前沿技术在子领域的实践和展望,如#1
19、 虚拟物联网(virtual IoT network)、#3 数字供应链(digital supply chain)等;(2)直接以人工智能来表述机器学习,如#0人工智能(artificial intelligence)。说明国际上对科技前沿识别的研究不局限于单一机器学习技术,而是重视整个人工智能产业体系的发展。图 3科技前沿识别机器学习英献发展时间轴1.4小结在开源情报环境下,科技前沿识别体系中机器学习应用的研究现状如下:(1)从文献数量来看,该领域持续得到学者关注,且每一次该领域出现的重大革新都掀起新一波的研究热潮;(2)国内注重理论方法创新,整体还处于研究的成长期,而国际上倾向于满足用户
20、应用场景的需求,已处于一个较为成熟的阶段;(3)均缺少针对机器学习在科技前沿识别问题上的系统性分析。综上,本研究认为,机器学习应用在科技前沿识别符合科技及社会发展趋势,今后将得到更多学者的关注,但该领域的风险性和保密性将成为国内向国外借鉴经验的主要阻碍,因此应进一步剖析国际上对机器学习的理解和表述;此外,该领域整体研究较分散,需要开展有针对性的系统性分析。2科技前沿识别体系中机器学习的应法曾文等1认为,开源情报下科技前沿识别的体30王力等:科技前沿识别体系中的机器学习应用问题系结构包括情报数据层、情报数据感知与处理层、情报计算和感知层、情报产品刻画层,并明确描述了每一层涉及的关键任务和技术。机
21、器学习是一门涉及了统计学、凸分析、概率论、算法复杂度理论、逼近论等多领域的交叉学科,而机器学习算法中以机器学习为目标的算法是人工智能的核心,主要研究计算机模拟或者实现人类学习行为的途径3。本研究将以曾文等1提出的框架为基础,探究机器学习在数据感知与处理层、情报计算和感知层、情报产品刻画层的应用与发展。2.1数据感知与处理层开源情报数据感知与处理层主要实现数据的深度处理,在数据层的数据采集基础上对数据进一步处理,实现数据价值的识别、预判和预处理,涉及的主要关键技术包括语法分析、语义分析、分类聚类以及数据标引1。从现有文献可以发现,机器学习在科技前沿识别数据感知与处理层中的应用主要集中在两个维度(
22、见表 1):一是对知识单元本身进行处理,其中词是机器学习处理的基础,具体包括基于知识元的前沿识别数据处理,研究视角包括知识元的共现、变异和迁移,如孙震等4的研究,研究方法则主要涉及命名实体识别技术等;基于语义特征的前沿识别数据处理,如牛奉高等5、胡佳慧等6分别以语义核模型和语义标注模型为研究视角,研究方法主要涉及潜在语义分析等;基于词向量的前沿识别数据处理,研究方法主要是 word2vec 及其改进模型,如 Gomes 等7的研究。二是通过构建指标的方法来规范领域知识,主要针对特定领域提出并设定每种属性对应的指标,同时结合定量计算方法进行完善,如范少萍等8的研究。当前机器学习在数据感知与处理层
23、的应用大部分是转化为数据预处理问题,有研究将数据感知与处理层的任务分解转化成分类问题构建专业领域数据集9;也有研究将实体之间的关系定义为知识的基本载体,并将关系抽取视为分类问题,实现高层语义特征的提取10。表 1数据感知与处理层机器学习法的主要应开源情报数据源研究任务机器学习方法科技论文(多类别)语义核共现潜在语义向量空间模型(CLSVSM)-K、K-means专业领域专利数据数据检索F-measure、卷积神经网络(CNN)电子病历 数据标注CRF专利摘要词向量WP-Word2vec百科文献关系抽取Bert、BI-LSTM在当前研究的基础上,本研究将机器学习在数据感知与处理层上的应用分解为数
24、据价值评价体系和数据处理两个环节。曾文等1的研究中所构建数据价值评价体系包含3个一级指标和8个二级指标,本研究从机器学习的视角将这 8 个二级指标进一步划分成 3 类,分别是关联类指标、统计类指标和其他指标。其中,关联类指标通过关联规则挖掘算法,提高了指标评价的精度;而统计类指标可以提高评价准确性。在数据处理上可归类为 知识单元构建和 数据标注两大任务。知识单元构建包含数据格式化、语义分析和语法分析,利用机器学习识别词汇间的从属、并列、递进等关系,进而获得较深层的语义信息,以构建良好的知识单元;数据标注包含标引和分类等,核心在于对不同维度的数据过滤,如关键词标注、主题标注和分类标注等。具体如
25、图4所示。图 4机器学习法的数据感知与处理层拓展结构科技前沿识别的数据类型已不单纯只是论文和专利,还包括基金项目、科技报告、图书、科技规划文本、网络舆情、技术标准、会议信息等,航空航天、医学、地质等领域甚至还存在测绘数据、电子病历之类的特殊数据11,涉及大量图片、音频、视频、3D 模型等更复杂高维的数据格式,传统情报方法难以有效挖掘这些数据中的情报价值,但可以通过机器学习,在实践中结合数据的领域特征,针对具体领域制定相关数据处理及评价标准,构建合理的知识单元。2.2情报计算和感知层情报计算的内容包括数据的自动聚类和分类以及统计计算和对比等;而情报感知的内容包括科技前沿挖掘、科技前沿的对比和演化
26、分析等。通过对开源情报数据内容的要素和条件分析,分别建立科技前沿主题、技术趋势等要素的关键变量和语义关系,建立科技前沿识别数据分析模型和动态挖掘模板,实现科技前沿的动态挖掘与感知1。从当前的研究中发现,机器学习在情报计算和王力等:科技前沿识别体系中的机器学习应用问题31感知层任务包括主题抽取、主题关联及主题预测,在方法上一是沿用成熟的单一通用 模型或组合通用模型,二是使用改进的通用模型(见表 2)。前者如用隐含狄利克雷分布(LDA)等单一模型完成主题抽取,或用 LDA、BiLSTM 等组合模型完成主题抽取和关联,如梁继文等12、沈思等13的研究;或是采用 Bert 等提出的单一或组合模型完成主
27、题预测14;后者大部分是基于LDA模型,如吴胜男等15使用了 Q-LDA 等改进的模型,克服了传统 LDA 模型结果可解释性和主题表达能力差以及预测性不足的问题,优化了主题抽取结果。此外,徐路路等16的研究就提高主题预测能力对传统模型进行了改进,使用了 POS-SVM 方法。已有成果表明:一方面,机器学习在科技前沿识别问题上的应用模型较单一,且通用模型占比较高,通用模型虽有其沉淀下来的优点,但对于解决特定领域特定问题的适用性还有待考究;另一方面,部分研究对通用模型进行了改进,但也只是针对单一属性进行了修改,缺少从多属性改进模型。表 2情报计算和感知层机器学习法的主要应开源情报数据源研究任务机器
28、学习方法政策文本主题抽取TF-IDF、LDA论文、专利主题抽取LDA、SVM网络媒体数据主题抽取Q-LDA论文主题抽取及关联LDA、主题词嵌入(TWE)、LSTM、BiLSTM专利数据主题预测Bert、DNN科技规划文本数据、论文、专利、基金项目主题抽取及预测概率潜在语义分析(PLSA)、POS-SVM、改进粒子群算法、社会网络分析情 报计算和感知层建设的目的在于动态识别数据中表达的研究主题、研究趋势和创新内容。结合上述分析可以发现,机器学习在情报计算和感知层重点解决隐性情报挖掘和情报感知与检索两个任务,因此进一步将这两个任务划分为主题抽取、主题关联和主题预测。其中,主题抽取对应隐性情报挖掘;
29、而主题关联和主题预测分别对应情报感知与检索。(1)主题抽取。当前主题模型是进行主题抽取最主流的方法,也是机器学习中发展较为成熟的领域17。一个好的主题模型在合适的数据源上可以最大限度地抽取隐性情报知识。(2)主题关联。主题关联是主题预测的基础,是情 报感知的重要环节。机器学习在主题关联上的最大优势在于可以充分发挥语义信息,实现主题的智能化关联。和主题抽取不同,主题关联对语义分析的要求更高,因此,在选择机器学习算法时,如LDA 模型等单一的概率模型并不一定特别适合,还应结合语境具体问题具体分析;而 LSTM 等深度学习模型在这一点上具有一定有的优势。(3)主题预测。主题预测是在主题关联的基础上,
30、结合一些预测分析方法得到开源情报知识,包括社会网络分析法、链路预测法、粒子群算法、遗传算法、模拟退火算法等。使用预训练模型也可实现主题的有效预测,具体如图 5 所示,其中虚框部分为本研究拓展的体系框架。图 5机器学习法的 情报计算与感知层拓展结构32王力等:科技前沿识别体系中的机器学习应用问题基于以上分析,本研究认为未来要提倡基于智能化细粒度的科技前沿识别 情报计算与感知;同时,推动科技情报研究智能化是应对新时代挑战的必然选择,科技前沿识别作为科技情报研究的重要组成部分,同样需要经历智能化变革。大数据时代下对开源情报的计算与感知提出了更高的要求,这就需要做到以下方面:(1)对研究任务进行细粒度
31、拆分,想做好每一个子任务,须对具体问题进行具体分析;(2)针对每一个子任务,评估其数据源或知识单元的量度,选择或构建能够最大限度挖掘其价值的算法或方法;(3)保持对新知识新方法的敏感性,尝试将其他领域应用良好的模型移植到科技前沿识别问题上来,在巩固基础研究的同时也要发挥创新精神。2.3情报产品刻画层情报刻画的目的是向情报用户提供个性化服务。从机器学习应用的视角下理解,该层直接面向用户,主要作用是对前两层结果的延伸和展示,以便用户可以更好地接收 情报。当前 情报产品刻画层的形式主要分为 3 类:一是知识服务平台,可以提供科技管理及相关的信息环境18;二是领域知识图谱,优势是具有更好的语义性19;
32、三是针对一些具体图 6机器学习法的 情报产品刻画层拓展结构任务开发的模型或工具箱,可以解决一些细粒度的情报产品需求20。开源 情报产品刻画层的本质是一种情境感知。本研究认为,情报产品刻画层可分为认知服务支撑工具和开源情报产品两类,其中认知服务支撑工具又可以从宏观、中观、微观的角度进一步细分(见图 6)。宏观认知服务支撑工具多以知 识服务平台形式出现,提供的功能除包含信息检索等传统知识需求,还包含如科技管理、科技创新等智慧化科技服务,涉及地理空间分析、科学计量分析、科学知识图谱、时空可视化等多项技术21,最大的优点在于可以全面满足用户的情报需求,缺点则是不能保证细粒度的 情报支撑;中观认知服务支
33、撑工具多以领域知识图谱或 APP 的形式出现,提供的功能或偏或全,具有一定的领域约束性,涉及的技术包括机器学习、数据库、可视化技术等;而与宏观、中观相比,微观认知服务支撑工具最大的特点在于可以提供细粒度个性化的知识服务技术支撑,对机器学习算法精度要求较高,在开源情报产品上实现的主要功能包括自动摘要、机器翻译等,最终形成智能化情报产品。综上,本研究认为面向用户场景需求的科技前沿识别 情报产品刻画很重要。在大数据时代,情报学的研究场景更加开阔、研究方法更加多样、实践成果更加丰富,科技情报服务的最终目的是让用户最大限度地接收到可用于科学决策的情报知识,同时保证情报知识的即时性和准确性,因此,提高科技
34、前沿识别情报产品服务质量成为科技情报工作者新的任务。作为科技前沿识别体系直接面向用户的部分,未来还应更多地将传统情报产品和机器学习技术结合,在全面考虑用户需求后,选择符合标准王力等:科技前沿识别体系中的机器学习应用问题33的情报产品,并加强定制化服务能力。3实证研究 3.1数据感知与处理层的应用 在 WoS 核心期刊库采集到与“深度学习”主题相关的论文数据,经人工清洗,共筛选出 7 944 篇论文,并将这些论文的发表时间和摘要作为本研究的实验对象。本研究不对论文数据价值进行过多 地评价,主要针对数据处理中的知识单元构建进行论证,通过词向量作为知识单元表示,同时选择 Bert 预训练模型作为具体
35、算法。首先,对论文摘要进行分词、去停用词等数据清洗操作,接着利用 Bert 预训练模型对清洗后的数据进行词嵌入处理,将词语转换成词向量。BERT 模型使用了前馈 神经网络和多头注意力机制,融入了词向量、文本向量和位置向量 3 种信息,输出任意词语的维向量表现形式。构建词向量的意义在于,一方面实现了数据的格式化处理,转化为机器语言编码;另一方面,可作为 情报计算与感知层的输入,以便实现论文知识的进一步挖掘和处理。本实验输出维度为 512,实验部分结果如图 7 所示。图 7实验对象的词向量意3.2情报计算与感知层的应用主题是判断学科领域前 沿性的核心特征22,因此进一步又可以细分为主题抽取、主题关
36、联和主题预测。主题抽取是指通过主题模型计算抽取出特定领域的相关主题及内容,多以主题词及其权重值表示;主题关联是指对不同阶段的研究主题进行相似度计算或相关性分析,揭示主题的发展变化23;主题预测一般是针对某种技术未来发展方向的预测,不同于热点主题和新兴主题预测,科技前沿主题预测既要考虑时效性,又要考虑新颖性。本研究主要针对主题抽取任务展开,方法上选择 LDA 主题模型,通过将上一层的输出结果与 LDA 优化后的主题进行拼接,实现主题抽取;此外,在获得所有输入数据的文档、主题和主题词的概率分布后,按照其时间属性,将各个文本离散到对应的时间窗口中,研究主题强度随时间推移的发展趋势,并结合 K-mea
37、ns算法实现主题聚类和演化,时间粒度细化到日。结果如表 3 所示。表 3实验对象的主题抽取结果主题主题词及其出现概率主题 1image:1.000;method:0.400;network:0.395;propose:0.360;wit:0.310;hat:0.270;based:0.240;data:0.220;resolution:0.210;deep:0.200;rain:0.180;result:0.180;model:0.170;learning:0.160;set:0.150;neural:0.150;quality:0.140;super:0.140主题 2video:1.000
38、;propose:0.960;network:0.860;model:0.840;data:0.830;method:0.790;wit:0.730;hat:0.730;action:0.720;recognition:0.690;based:0.640;temporal:0.620;motion:0.590;track:0.570;set:0.540;human:0.520;learning:0.490;deep:0.470主题 3object:1.000;detection:0.880;lie:0.700;network:0.609;wit:0.660;image:0.640;propos
39、e:0.640;method:0.610;hat:0.490;data:0.420;set:0.370;based:0.360;rain:0.350;model:0.330;deep:0.320;detect:0.310主题 7model:1.000;wit:0.930;robot:0.880;network:0.860;hat:0.790;propose:0.780;learning:0.680;neural:0.650;method:0.550;based:0.540;control:0.520;data:0.480;deep:0.480;rain:0.400;algorithm:0.34
40、0;result:0.330;performance:0.330;process:0.320;task:0.320主题 14feature:1.000;network:0.580;propose:0.470;method:0.360;wit:0.350;attention:0.300;image:0.300;model:0.280;convolutional:0.270;hat:0.260;extra:0.260;layer:0.260;data:0.240;deep:0.230;multi:0.230;based:0.210;neural:0.210;level:0.190;scale:0.
41、190主题 15data:1.000;wit:0.820;propose:0.680;network:0.680;classification:0.660;method:0.630;hat:0.620;set:0.590;model:0.570;learning:0.540;deep:0.500;neural:0.490;accuracy:0.450;cnn:0.44;based:0.43;result:0.400;performance:0.390主题 16image:1.000;method:0.740;propose:0.730;segmentation:0.710;network:0.
42、650;wit:0.630;data:0.600;model:0.500;hat:0.460;deep:0.390;based:0.380;set:0.380;result:0.360;learning:0.360;diagnosis:0.310;tin:0.260;performance:0.260主题 18graph:1.000;network:0.930;data:0.900;represent:0.820;method:0.800;propose:0.760;model:0.670;hat:0.660;learning:0.600;wit:0.560;deep:0.540;based:
43、0.470;code:0.460;ring:0.440;image:0.430;set:0.400;bet:0.390;relation:0.390注:1)主题 4 至 6、8 至 13、17、19 至 24 因结果不显著予以省略;2)=25。3.3情报产品刻画层的应用情报产品刻画层中的 认知服务支撑工具本质上是一种间接的情报产品,是从使用的角度去定义,用户可根据自身需求实现产品的定制化,本研究将情报计算与感知层的处理结果结合可视化交互技术,以词云图和河流图的方式展示(见图 8 和图 9)。词云图过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨;河流图是堆叠面积图的一种变
44、形,主要用来表示事件或主题等在一段时间内的变化。通过词云图和河流图,可以向用户提供完整全面的科技 情报,实现和用户的友好交互。34王力等:科技前沿识别体系中的机器学习应用问题图 8实验对象的主题词云注:1)图内字体越 大表示相应主题词的重要性越强;2)主题 4 至 6、8 至 13、17、19 至 24 因结果不显著予以省略;3)=25。(a)主题 1(e)主题 7(b)主题 2(f)主题 3(c)主题 16(g)主题 14(d)主题 18(h)主题 15图 9实验对象的主题河流图以上分别从数据感知与处理层、情报计算与感知层、情报产品刻画层依次实证了本研究提出的理论框架,验证了其科学性和实践性
45、。4结论与讨论重视应用多学科方法的情报研究新方法是开源情报环境下科技情报研究方法发展的重要举措24。王力等:科技前沿识别体系中的机器学习应用问题35科技前沿识别作为国家科技战略决策服 务的重要环节,应该得到各个层面专家、学者和组织的重视。机器学习作为人工智能的代表性技术,为科技前沿识别研究方法带来了前所未有的发展机遇。在开源情报环境下构建条理明确、结构完整的科技前沿识别机器学习应用体系,对于科技情报事业的发展具有重要意义。该体系区别于传统的科技 情报体系,具有开源的数据源,并以人工智能作为辅助技术手段和以科技前沿识别作为应用场景的特点。该体系优点在于充分考虑数据底层逻辑结构和顶层用户设计,做好
46、全流程、多方位、细粒度的科技情报服务。开源情报下的科技前沿识别,要考虑多源、多模态数据自身的数据价值,同时也要考虑之间的关联需求,要平衡数据和具体实现方法的匹配性,要最大限度地满足场景需求。科技前沿识别作为科技情报的重要组成部分,正在经历着潜移默化的变革。本研究剖析了机器学习在开源情报数据感知与处理层和开源情报计算和感知层上的应用,分析了与开源情报产品刻画层之间的关联关系,提出了机器学习应用视角下科技前沿识别体系框架,并结合案例进一步论证了理论框架的科学性,为该领域学者深入了解科技前沿识别问题的发展脉络和研究任务,从情报方法的角度进一步优化开源情报环境下科技前沿识别体系的建设提供参考。未来可以
47、从其他视角对开源情报下科技前沿识别问题进行探究。参考献:1曾文,李辉,樊彦芳,等.开源情报环境下的科技前沿识别体系研究J.情报理论与实践,2019,42(7):30-34.2周志华.机器学习M.北京:清华大学出版社,2016:13.3陈龙,王子杨,林鹏.机器学习算法在数据分类中的应用价值分析J.电子世界,2019(24):80-81.4孙震,冷伏海.一种基于知识元迁移的 ESI 研究前沿知识演进分析方法J.情报学报,2021,40(10):1027-1042.5牛奉高,张亚宇.基于共现潜在语义向量空间模型的语义核构建J.情报学报,2017,36(8):834-842.6胡佳慧,方安,赵琬清,等
48、.面向知识发现的中文电子病历标注方法研究J.数据分析与知识发现,2019,3(7):123-132.7GOMES D S M,FABIO C C,BRTNARDO S C,et al.Portuguese word embeddings for the oil and gas industry:development and evaluationJ.Computers in Industry,2021,124(10):33-47.8范少萍,安新颖.基于多属性规则的生物医学语义关系研究J.数字图书馆论坛,2021(1):18-23.9陈悦,宋凯,刘安蓉,等.基于机器学习的人工智能技术专利数据集构
49、建新策略J.情报学报,2021,40(3):286-296.10彭博.融合知识图谱与深度学习的文物信息资源实体关系抽取方法研究J.现代情报,2021,41(5):87-94.11 马红岩,陈峰,曾文.科技情报中多源信息融合的模式构建 J.中国科技资源导刊,2022,54(3):1-8.12梁继文,杨建林,王伟.政策对科研选题的影响:基于政策文本量化方法的研究J.现代情报,2021,41(8):109-118.13沈思,孙豪,王东波.基于深度学习表示的医学主题语义相似度计算及知识发现研究J.情报理论与实践,2020,43(5):183-190.14邵浩,刘一烽.预训练语言模型M.北京:电子工业出
50、版社,2021:8715吴胜男,田若楠,蒲虹君,等.基于社交媒体的医药领域关联主题预测方法研究J.数据分析与知识发现,2021,5(12):98-109.16徐路路,王芳.基于支持向量机和改进粒子群算法的科学前沿预测模型研究J.情报科学,2019,37(8):22-28.17韩亚楠,刘建伟,罗雄麟.概率主题模型综述J.计算机学报,2021,44(6):1095-1139.18 张莉 曼,张 向 先,吴 雅 威,等.基 于 语义 主 题 图谱 的 学术 APP 用户信息需求发现研究J.情报理论与实践,2021,44(12):133-140.19张肃,许慧.基于知识图谱的企业知识服务模型构建研究J