收藏 分销(赏)

新兴技术识别与演化路径分析...研究——以集成电路领域为例_高楠.pdf

上传人:自信****多点 文档编号:465124 上传时间:2023-10-12 格式:PDF 页数:10 大小:1.91MB
下载 相关 举报
新兴技术识别与演化路径分析...研究——以集成电路领域为例_高楠.pdf_第1页
第1页 / 共10页
新兴技术识别与演化路径分析...研究——以集成电路领域为例_高楠.pdf_第2页
第2页 / 共10页
新兴技术识别与演化路径分析...研究——以集成电路领域为例_高楠.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、新兴技术识别与演化路径分析方法研究以集成电路领域为例高楠1,2,高嘉骐2,陈洪璞2(1.中国科学技术信息研究所,北京 100038;2.北京大学 信息管理系,北京100871)摘要:【目的/意义】通过综合使用论文和专利数据源,开展新兴技术的识别与演化路径方法研究,期望以此提高学科领域新兴技术探测研究的准确性和科学性。【方法/过程】首先,针对集成电路这一特定领域使用Word2Vec语义相似度与字符串相似度相结合的方法构建词袋,并利用LDA主题模型发现并识别集成电路领域隐含的技术主题,构建新颖度、强度和热度等多维指标对新兴技术进行对比和甄别。其次,划分时间窗,采用余弦相似度算法计算相邻时间窗内主题

2、间的相似性,以可视化路径的形式将筛选结果进行呈现,以此判断主题演化关系类型。【结果/结论】研究发现,集成电路领域呈现学界与业界研究成果相互促进的良好态势,结合论文与专利数据的新兴技术识别方法,可以有效且清晰的发现集成电路研究领域的热点型、增长型、成熟型和潜在型技术主题,并通过新兴技术演化路径的构建,揭示了领域科学与技术间知识的交互与转移。【创新/局限】本研究创新性采用Word2Vec语义相似度与字符串相似度相结合的方法构建词袋,提高了词袋构建质量,为后续基于LDA主题模型识别隐含的技术主题奠定了基础,但在数据源的多样性、时滞性问题,以及模型阈值设置的客观性上还存在局限性,需要进一步加强相关研究

3、。关键词:LDA模型;集成电路;新兴技术识别;Word2Vec;演化路径中图分类号:G250.2;TM73DOI:10.13833/j.issn.1007-7634.2023.03.015收稿日期:2022-03-05基金项目:社科基金青年项目“基于多源数据的新兴技术识别方法与演化路径研究”(21CTQ038)。作者简介:高楠(1992-),女,山西临汾人,博士研究生,馆员,主要从事专利分析、前沿识别研究;高嘉骐(1997-),男,河北石家庄人,硕士,主要从事学习路径自动生成、教育数据挖掘研究,通讯作者:gjq_;陈洪璞(1998-),男,江西鹰潭人,硕士,主要从事知识计量、数据挖掘研究。从欧

4、盟“地平线2020”计划到德国“工业4.0”战略计划,再到中国的“十四五”国家科技创新规划,世界各国都在积极制定科技发展战略并加强科技创新部署。在这样的社会大背景下,技术的增长和更新迭代的速度在持续提升,同时技术之间的组合性、交叉性、变化性和依赖性也在不断占据越来越重要的地位,而如何快速、准确地识别出具有较大发展潜力的新兴技术成为了各国关注的热点。从国家角度来讲,新兴技术的预测与识别有助于国家技术的总体布局与发展规划;从企业角度来讲,发现并识别具有潜力的新兴技术有助于提前规划、快速研发、节约成本和降低风险,更有助于确定研发重点和投资方向;从研究人员个人的角度来讲,识别新兴技术可以帮助研究人员了

5、解领域新动向,使得关键的早期投资能更好地获得回报,促进产学研的结合。因此,拓展新兴技术识别方法,提高新兴技术识别准确性,缩短新兴技术预测周期,深入把握技术领域适用性,描绘技术演化路径,对于新技术在未来的发展布局具有重要战略意义,也是迫切的现实需要。然而,目前学界对新兴技术的研究往往采用单一的数据源,如单一的论文数据或专利数据,这在一定程度上影响了新兴技术识别的科学性和准确性。专利文献完整记录了专利活动,同时包含了技术属性和市场属性,是世界上反映科学技术发展最迅速、最全面、最系统的信息资源,是技术的实用性结果体现;科学论文是一个领域技术发展的另一个重要显性表征,是技术酝酿与萌芽的科学土壤。因此,

6、本文旨在综合使用论文和专利数据源,开展新兴技术的识别与演化路径构建研究。1 相关研究1 1.1 1 新兴技术概念与特征新兴技术概念与特征新兴技术最早由宾夕法尼亚大学商学院提出了被广泛认可的定义:建立在科学基础上的技术革新,可能创造一个新行业或改变某个老行业【1】;Cozzens【2】认为新兴技术是有巨大潜力但尚未证明其价值或还未达成任何共识的技术;Rotolo【3】认为新兴技术作为一种全新的、相对快速发展的技术,其特点是具有一定程度的持续性,并有可能对社会经济领域产生相当大的影响,其最突出的影响在于未来,因此在情报科学20232023年第年第3 3期期(第第4141卷卷)业务研究-127现阶段

7、仍有些不确定和模糊性。总的来说,所谓的新兴技术就是一种新出现的、快速发展的,依托高科技技术且可能引领或开创新的科学领域,具有较大的市场与经济潜力,可能改变某个老行业,但目前仍然具有不确定性的技术。尽管研究者对新兴技术的概念看法不一,但均可提炼出以下特征【3-5】:一是激进的新颖性,该技术新近涌现或正在发展,这种“新”反映在时间和内容上,会对行业形成创造性毁灭;二是相对增长性,即与同一领域中的其它技术相比时,新兴技术发展速度往往更快;三是发展的连贯性,新兴技术是在其他成熟技术的基础上衍生、融合和发展而来,是对原有技术的继承与超越;四是不确定与模糊性,这种不确定性代表着新兴技术的复杂性,新兴技术可

8、以是多个学科领域交叉融合的结果,其发展态势、演化方向和影响力等都是不明确的;五是显著影响性,新兴技术会对其所属行业以及社会、经济产生重要影响。1 1.2 2 新兴技术识别方法新兴技术识别方法新兴技术识别主要分为定性分析法和定量分析法,本文主要关注定量分析方法,主要分为基于引文分析的探测方法和基于内容主题的探测方法【6-7】。(1)基于引文分析的探测方法又可划分为直接引文分析、共被引分析、耦合分析、混合分析等,其核心思想为基于文献之间的直接引用、共被引、耦合等关系构造关联网络,采用社会网络分析中的社团发现算法(如KL算法、GN算法、Fast Newman算法、Louvian算法等)与谱聚类算法等

9、划分团簇,从而发现潜在的主题。例如,学者Wang【8】基于文献之间的直接引用关系对其进行聚类,以此发现石墨烯领域中的技术主题,并结合一系列特征指标开展新兴技术的识别与分析。Small【9】将两个基于大规模科学文献的直接引用和共被引模型聚类结果进行结合,通过差异函数来筛选技术主题,该函数能有效识别新的、快速增长的主题集群,最终识别出2007-2010年每年的top25个新兴技术主题。这类识别方法的问题包括引用行为偏好无法避免,对高质量的引文数据库依赖性较大,过多的关注于高被引文献,使得低被引文献的研究内容被忽略等。(2)基于内容主题的探测方法。该方法以文本词汇分布特征为依据,主要包括词频分析、共

10、词分析、主题模型、机器学习等。相较于引文分析法,基于文献内容开展主题分析能够在更加微观的层面,揭示科学知识体系内部的各个实体关系特征,对文献资料的挖掘更深入【10】。词频分析是主题探测中最基础的方法,虽然能够在一定程度上揭示目标领域的研究内容特征,但无法用于挖掘科研领域中潜在的技术主题,也无法揭示主题词之间、主题与文献之间的语义关联及相似性。共词分析法通过构建主题词共现矩阵,然后进行聚类得到新兴技术主题。共词分析的缺陷在于对前期数据清洗要求较高,且受限于关键词间的关联关系,如当新兴研究主题与其它传统领域的关联度不高时,很难通过共词分析来识别出来。主题模型能够实现以非监督机器学习的方式,对文献中

11、隐含的语义结构进行揭示。在新兴技术识别中最常用的主题模型即 LDA 及其各种衍化版模型,如 DTM、cDTM、DIM、PLDA等。LDA模型将每一篇文档表示为一些特定主题所构成的一个概率分布,而每一个主题又被表示为很多词所构成的一个概率分布,以此构建并揭示出文档与技术主题之间的关系【11】。董放等【12】使用LDA主题模型和SVM分类模型相结合的方式共同处理论文的摘要数据,实现了对一定数量的论文按照特定技术主题进行分类的任务,并使用ARIMA模型预测未来论文数量变化的趋势,从而判断新兴技术领域未来的发展潜力;D.Choi等【13】利用LDA主题模型确定特定领域的主题,同时计算每个主题的专利份额

12、以及该主题专利份额随时间的变化率,以此识别潜在的技术主题并对其进行分类,得出物流领域主导、新兴、饱和和衰退这4种不同的技术主题。此外,也有学者采用深度学习算法进行新兴技术识别,如Liang等【14】首先采用深度神经网络中的LSTM和NNAR,结合9种计量指标来对技术主题的热度分值进行预测,该指标以时间序列的方式反映候选技术主题的影响力和增长性;其次,从高热度候选技术主题中筛选出新颖性高的新兴技术主题。但此类基于监督的机器学习模型,需要大量人工标记的训练样本,才能保证训练结果的质量,且学习门槛较高,因此不作为本文方法的首选。综合考虑主题识别效果、数据集特点、研究目的、学习门槛等众多因素,最终选择

13、LDA主题模型进行本研究的主题识别。1 1.3 3 新兴技术演化方法新兴技术演化方法目前,关于新兴技术演化方法主要包括以下4种:(1)基于曲线拟合的演化方法,该方法主要基于领域文献数量的历史增长情况描绘出其在未来的数量变化曲线,一般用于预测技术主题的研究热度在未来的演化趋势,或辅助判断新技术出现的时机,常用的曲线拟合模型包括Logistic、密函数、对数函数、AR、MA、ARMA、ARIMA、ARCH、GARCH等【15】。传统的曲线拟合方法已发展的很成熟,没有太多突破性进展。(2)基于引文网络主路径的演化方法。“主路径”的一词最早由Hummon等【16】于1989年提出,其基于网络结构的连通

14、性提取了引文网络的主路径,认为知识从被引节点流向引用节点,从而追踪领域的技术发展轨迹。常用的路径搜索算法有 SPC(Search Path Count)、SPNP(search pathnode pair)、SPLC(search path link count)、NPPC(node pair projectioncount)【17】。如Liu等【18】提出了一种综合的主路径分析方法,即提供了全局主路径、溯源局部路径、多重主路径和关键主路径分析,从多种角度补充基于原始主路径分析的不足。该方法由于仅关注主路径网络,会导致其他非主路径网络上的信息被忽略,且不适于大型网络的分析。(3)基于多元实体关

15、联的演化方法。该方法对不同类型Information ScienceInformation ScienceVol.41,No.3 2023-128的实体关系进行整合,以弥补基于单一实体关系进行演化分析的不足。Jensen等【19】通过论文、作者、关键词、期刊这4种实体,以及实体间的5种直接关系、3种衍生间接关系来构建基于元路径的主题演化树,并为链接节点的边赋予归一化非零权值,从而揭示主题演化的来源路径和演化路径。该方法的难点在于多元关系的表达和整合,以及实体间关联权重的计算,由于复杂性较高,目前应用仍然较少。(4)基于时序主题关联的演化方法。该方法首先将数据集划分为时序子集,然后在每个时间窗口

16、下分别进行主题识别或网络聚类,再基于相邻时间窗口的主题关联性确定技术演化路径,以研究新兴技术在其整个生命周期中的酝酿、产生、发展和演化的过程。如Cobo等【20】基于时序共词网络聚类来探测主题演化路径,主题关联性由相邻时间窗口的主题对所包含的相同词元素来衡量,并结合h指数等计量指标来反映主题的影响力。这类演化方法是目前新兴技术演化分析中应用最广泛的一种方法,也是本文将采用的方法。2 研究方法本文旨在借助LDA主题模型识别集成电路领域的新兴技术主题,并希望以此来揭示其细致的动态演化过程,从而进一步提炼出集成电路领域未来的发展特征和发展方向。研究过程主要包括:前期集成电路领域专利与论文数据收集与预

17、处理、基于LDA主题模型与多维指标的新兴技术甄别、新兴技术演化路径构建等环节(见图1)。2 2.1 1 数据预处理与词袋构建数据预处理与词袋构建新兴技术主题识别与演化分析最重要环节之一即数据预处理,后续主题聚类结果的准确度及效率都与其有着密不可分的关系,因此对论文以及专利数据的信息提取、分词、去除停用词,进行词规范等数据预处理工作必不可少。首先,对于论文数据,将文献的关键词作为词袋元素,并对关键词进行了必要的格式处理,包括将词汇全部转化为小写格式,并剔除括号中的缩写、注释性文本。其次,由于专利文献没有关键词的元数据字段,因此可从其题名与摘要中抽取关键词作为词袋元素。本文将清理后的全部论文关键词

18、添加到nltk第三方库的分词词典中,利用nltk提供的分词工具对专利的题名与摘要文本进行分词处理,并过滤停用词、标点,以及词性为连接词、介词、人称代词、感叹词等无实际含义的其他词汇,随后采用TF-IDF算法从每篇专利的摘要文本中抽取了专利的关键词(关键词数量为清理后的摘要文本的总词汇数量的1/10),将其作为每篇专利文献的词袋元素。此外,本文采用Word2Vec语义相似度与字符串相似度相结合的方法对词袋中的词汇进行了同义词归并操作,以提升LDA模型的效果。其中,Word2Vec模型能够利用神经网络的方法将文本中的单词以词向量的形式表示,词向量的每个维度代表了词汇的一个语义特征【21-22】,通

19、过两个词汇的特征向量余弦相似度表示二者之间的语义相似度(sim1),sim1的数值大小刻画了两个词汇在语义上指代相同内容的可能性。字符串相似度则利用编辑距离表示,即将一个字符串转换成另一个所需的最少编辑操作次数(假定为n)【23】,假定两个字符串中较长的字符数为N,则利用(1 n/N)表示二者之间的字符相似度(sim2),sim2的数值大小刻画了两个词汇在字面含义上指代相同内容的可能性。进一步,研究利用语义相似度(sim1)与字符相似度(sim2)的加权平均值表示两个主题词之间的综合相似度,如公式(1)所示:sim=sim1+sim2(1)其中,为人工赋予的权重值,用于调整两部分相似度数值的重

20、要性。对于给定的阈值,若两个词汇的综合相似度满足sim,则将其归并为同一词汇。2 2.2 2 主题识别主题识别LDA(Latent Dirichlet Allocation,LDA)模型【24】是一种非图1 新兴技术识别与演化框架图Figure 1 Emerging technology identification and evolution frame diagram高楠,高嘉骐,陈洪璞.新兴技术识别与演化路径分析方法研究以集成电路领域为例J.情报科学,2023,41(3):127-135,172.-129监督机器学习技术,通过生成文档-主题矩阵和主题-词汇矩阵,以文本-主题-词语的结构来

21、识别文档中主题,将文档转化为词向量,可以识别出大规模语料库中潜藏的主题信息。LDA模型具体的数学化描述如下:针对每个文档d D,依据dDr(),获得文档d中主题的多项式分布参数d。针对每个主题z K,依据zDr(),获得主题z中词汇的多项式分布参数z。针对文档d中的词汇wd,j,依据多项分布zd,jMult()z,获得主题zd,j;依据多项分布wd,jMult()d,获得词汇wd,j。其中,和为预先设置好的常数;w为观测参数;、z为需要进行推断的3个潜在参数。模型训练中,如何科学地确定主题参数K是研究的关键。本文采用评价指标Perplexity(困惑度)来确定LDA模型的最优主题数。困惑度公式

22、如式(2),其中Dtest为测试集;D为文本数量;wd为文档d中的可观测单词序列;Nd为文档d的单词数目。PerPlexity()Dtest=exp|d=1Dlog P()wdd=1DNd(2)困惑度能够衡量LDA主题模型预测样本的精确程度,困惑度值越小,预测精准度越高。2 2.3 3 多维指标体系构建多维指标体系构建本文通过主题强度、主题新颖度、主题热度3个特征指标,来进行新兴技术甄别、评估和分析。其中,新颖度体现了技术主题的时效性,强度是衡量技术主题领域重要性的量化指 标,而 热 度 则 反 映 了 技 术 主 题 在 领 域 中 的 受 关 注程度【25-26】。(1)主题强度(Tzt)

23、研究利用t时间段内主题z在所有文献中的权重总和来表示主题的强度值(记为Tzt),该值可通过主题概率模型给出的文档-主题矩阵得到。进一步,研究定义平均主题强度计算公式如下:ATt=1NTztN(3)其中,Tzt表示z的主题强度值,N表示t时间段内所识别到的主题数量,ATt表示t时间段内分析数据源所有主题的平均主题强度值。平均主题强度是判断某一主题强度值高低的基线,TPt的计算公式为:TPt=TztATt(4)(2)主题新颖度(Nz)研究利用某主题所包含论文的平均发表年或专利的平均申请年来反映每个主题的新颖性,其计算公式为:Nz=i=1nyin(5)其中,Nz表示主题z的新颖度,n表示主题z涉及的

24、论文或专利的数量,yi表示论文的发表年或专利的申请年。(3)主题热度(Hz)研究利用某主题内所包含的文档数量与所有主题所含平均文档数量的比值来刻画主题的热度,其计算公式为:Hz=Nnzt1Nnzt(6)其中,Hz表示主题z的热度,N表示t时间段内识别到的主题数量,nzt表示主题z涉及的论文或专利的数量。2 2.4 4 新兴技术甄别新兴技术甄别通过对比论文与专利识别出技术主题,可以将其分为共同存在主题和非共同存在主题,再结合新颖度和技术强度可将识别出的技术主题进行分类。其中,如何识别论文与专利中的共同存在与非共同存在的技术主题是新兴技术甄别的关键。本研究将从论文与专利中挖掘到的技术主题的主题词概

25、率分布作为其特征向量,计算了两类文献中任意两个主题之间的余弦相似度数值,并将主题相似度超过特定阈值的主题对定义为共同存在主题,其他主题则为非共同存在主题。对于共同存在的技术主题,可进一步根据主题的技术强度、新颖度数值将其划分为热点型新兴技术、增长型新兴技术、成熟型新兴技术;对于非共同存在的技术主题,则可以将其划分为成熟型新兴技术和潜在型新兴技术【25】(见图1),各类新兴技术的特点如下所示:(1)热点型新兴技术:近期出现的、具备较高领域影响力与研究热度的技术主题,受到研究者广泛关注,具有较高的新颖度与技术强度。(2)增长型新兴技术:这类技术主题的活跃年份相对较新,在学界与业界开始逐步占有一席之

26、地(表现为同时出现在两种数据源中),具有重要的战略意义和发展潜力,在未来有望进一步对所属领域带来影响,具有新颖度高、技术强度低的特点。(3)成熟型新兴技术:该类技术主题一般已经发展成熟,早期受到广泛关注但相关研究在近期内呈现出衰弱趋势,具有新颖度较低的特点。(4)潜在型新兴技术:这类技术主题仅出现在一种数据原中且表现出较强的新颖性,但尚未在全领域引起研究者们的广泛关注,未来可能进一步发展为增长型或热点型技术主题。2 2.5 5 新兴技术演化新兴技术演化首先,对多源数据进行数据源整合,按照时间窗进行划分,利用LDA主题模型生成各个时间窗的技术主题;然后,采用余弦相似度算法,计算识别出的新兴技术与

27、不同时序区间内生成的技术主题相似性,遴选新兴技术在不同时序区间内的前向关联主题和后向关联主题。之后,设置主题关联过滤规则,对因两个主题相似度过低而形成的无效关联的情况进行过滤,并以可视化路径的形式将筛选结果进行呈现,以GAO Nan,GAO Jiaqi,CHEN Hongpu.Emerging Technology Identification Method and EvolutionPathTake the Field of Integrated Circuits as an ExampleJ.Information Science,2023,41(3):127-135,172.-130此判

28、断主题演化关系类型,具体包括新生、继承、融合、分裂、消亡中5种。3 集成电路领域实证分析本文的论文数据来源于Web of Science(WOS)核心合集的 Science Citation Index Expanded(SCI-E)和 Conference Proceedings Citation Index-Science(CPCI-S)数据库,检索时间范围为2016-2021年,经过筛选去重后,共得到22372篇集成电路领域相关SCI论文。专利数据来源于DII(Derwent Innovation Index)国际专利数据平台,经过筛选去重后,共得到57672件相关专利。3 3.1 1

29、数据预处理与词袋构建数据预处理与词袋构建按照前文方法,分别利用从专利题名、摘要文本中抽取出的关键词和论文的作者关键词字段构建词袋模型,并对词汇进行了相应的预处理操作。在同义词归并操作中,本文利用人工标注的训练数据进行了测试。在对、的权值进行连续赋值,并对比测试结果的准确率、召回率、f0.5-score数值后发现,当设置为0.13,阈值设定为0.9时,该方法在同义词归并任务上具有最好的效果(由于在同义词归并任务中准确率的重要性高于召回率,因此以f0.5-score作为决定标准【27】)。将同义词归并后的主题识别结果与未进行同义词归并的主题识别结果进行对比后发现,前者具有更好的可解释性,表明该预处

30、理操作能够一定程度上优化LDA模型的主题识别效果。3 3.2 2 技术主题识别技术主题识别本文采用LDA主题模型进行技术主题的挖掘与识别,并基于Perplexity斜率变化趋势确定专利技术主题与论文技术主题的数量。根据前序研究【25,28-31】与奥卡姆剃刀准则,并结合两类文献主题数目的Perplexity值和主题挖掘结果的可解释性后,选择Perplexity数值变化由较快变为平缓时的转折点(即斜率趋于0,可将其近似视为最低点)作为最优主题数量,最终确定论文的技术主题数目为15、专利的技术主题数目为13。限于篇幅,仅显示论文的主题困惑度数值随主题数目的变化情况如图2所示。技术主题识别结果表明,

31、专利文献中的有效主题为13个,代号分别记为DII_1、DII_13,专利技术主题如表 1所示,受限于篇幅仅展示前3个专利技术主题。论文中的有效主题为15个,代号分别记为WOS_1、WOS_15,论文技术主题如表2所示,受限于篇幅仅展示前3个论文技术主题。3 3.3 3 多维指标分析多维指标分析根据前文提出的主题强度、新颖度与热度的计算方法,本文分别对从专利与论文中挖掘得到的技术主题进行多维指标计算,结果如表3、表4所示。基于相关研究中设定指标阈值的经验【25-26,32-34】,通过对各主题的内容进行分析,将主题强度数值大于1的主题标记为“强度高”,主题强度数值不大于1的标记为“强度低”;将表

32、1 专利技术主题识别结果Table 1 Identification results of technical topics from patents主题代号DII_1DII_2DII_3技术主题命名电介质层与半导体相关技术金属氧化物半导体相关技术集成电路加工生产相关技术主题词(主题概率)layer(0.035)|dielectric layer(0.028)|semiconductor device(0.027)|conductive(0.018)|semiconductor(0.013)|material(0.011)|dielectric material(0.01)|conductor

33、(0.009)gate structure(0.019)|nmos transistor(0.019)|gate(0.018)|drain region(0.017)|semiconductor device(0.016)|gate electrode(0.015)|source region(0.012)|metal oxide semiconductor(0.01)wafer(0.026)|frame(0.023)|ring(0.014)|valve(0.01)|bracket(0.01)|cylinder(0.009)|welding(0.009)|cooling(0.009)表2 论文

34、技术主题识别结果Table 2 Identification results of technical topics from papers主题代号WOS_1WOS_2WOS_3技术主题名称超大规模集成电路相关技术与应用集成电路技术在大数据与深度学习领域的应用碳化硅在集成电路领域中的应用主题词(主题概率)vlsi circuits(0.053)|input offset voltage(0.04)|integrated circuit modeling(0.009)|front-end electronicsfor detector readout(0.009)|memristors(0.00

35、9)|integrated circuits(0.008)|mathematical model(0.008)|embedded system(0.007)|computational modeling(0.006)|cloud computing(0.005)graphics processing unit(0.11)|binary decision diagram(0.024)|parallel processing(0.013)|deep learning(0.011)|biological neural networks(0.009)|cuda(0.007)|compute unifi

36、ed device architecture(0.006)|machine learning(0.005)|finite element method(0.004)sic mosfet(0.104)|mosfet(0.057)|silicon carbide(0.037)|power mosfet(0.029)|sic(0.015)|wide bandgap semiconductors(0.007)|silicon carbide mosfet(0.006)|silicon compounds(0.005)|igbt(0.005)高楠,高嘉骐,陈洪璞.新兴技术识别与演化路径分析方法研究以集成

37、电路领域为例J.情报科学,2023,41(3):127-135,172.-131每类文献中的技术主题按照新颖度降序排列,位于前80%的结果标记为“新颖度高”,否则标记为“新颖度低”;将热度数值大于1的主题标记为“热度高”,主题热度数值不大于1的标记为“热度低”。图2 论文技术主题困惑度数值随主题数量变化曲线图Figure 2 The change curve of the value of perplexity of technical topics with the number of topics表3 专利技术主题多维指标计算结果Table 3 Multi-dimensional inde

38、x of technical topics from patents主题DII_1DII_2DII_3DII_4DII_5DII_6DII_7DII_8DII_9DII_10DII_11DII_12DII_13主题强度1.53960.77160.72990.72821.25190.84271.05481.10991.18371.33770.91440.95170.5839主题新颖度2018.12392018.10422018.18012018.00482018.19292018.09462018.05772018.09832018.07642018.53612018.10382018.1063

39、2018.1845主题热度1.37330.80110.79230.79181.21500.91311.07101.11941.15031.19990.95030.96950.6529表4 论文技术主题多维指标计算结果Table 4 Multi-dimensional index of technical topics from papers主题WOS_1WOS_2WOS_3WOS_4WOS_5WOS_6WOS_7WOS_8主题强度0.90220.98981.63510.51641.53910.63021.04740.7314主题新颖度2017.09352018.12722017.4628201

40、8.15082018.76752018.08352018.05112018.1925主题热度1.81920.94331.40150.53621.50430.61940.98080.7671WOS_9WOS_10WOS_11WOS_12WOS_13WOS_14WOS_150.52330.61041.88431.44861.01260.65440.87482015.36282015.80192018.03812018.11692018.34492018.19292017.96130.50670.63821.59201.28830.99360.65240.77593 3.4 4 新兴技术甄别新兴技术

41、甄别在识别共同存在主题时,研究计算了专利文献主题与论文文献主题间的余弦相似度,将主题对按照相似度大小倒序排列后,绘制了如图3所示的主题相似度下降趋势图。图3 专利与论文任意两个主题间相似度下降趋势图Figure 3The declining trend of similarity valuesbetween any two topics from patents and papers研究假设大多数主题对的内容是彼此无关的(即多数主题对为非共同存在主题),这些无关主题对之间的相似度低于某个阈值且较为接近(即倒序排列后所呈现出的曲线较为平滑);而根据图3可观察到,当主题对之间的相似度小于0.05时

42、,其下降趋势迅速变缓,各主题对之间的相似度趋于接近,因此可将该阈值可作为区分共同存在主题与非共同存在主题的标准。根据前文提出的共同存在技术主题的识别方法,研究把相似度在该阈值以上的主题作为两类文献中共同存在的技术主题,结果如表5所示。表5 共同存在技术主题相似度数值Table 5The similarity values between commontechnical topics专利技术主题DII_8DII_8DII_9DII_10DII_13DII_13DII_13论文技术主题WOS_11WOS_15WOS_2WOS_14WOS_5WOS_10WOS_13余弦相似度0.46290.3587

43、0.05910.10010.06050.08070.0655进一步,根据本文定义的新兴技术类别甄别标准,对各GAO Nan,GAO Jiaqi,CHEN Hongpu.Emerging Technology Identification Method and EvolutionPathTake the Field of Integrated Circuits as an ExampleJ.Information Science,2023,41(3):127-135,172.-132技术主题进行了归类整理,结果如表6所示。3.4.1 热点型新兴技术主题在共同存在的技术主题中,高新颖度、高技术强度

44、的热点型新兴技术主题包括 DII_8、DII10、WOS_5、WOS_11、WOS_13。以主题 DII_8为例,现场可编程门阵列(FPGA)是一种新型可编程逻辑器件,可根据设计需求自主对其功能进行定义,具有“可编程、高集成度、高速和高可靠性”的优点【35】,被广泛应用于通信与数字信号处理、视频与图像数据处理、汽车电子、工业控制、航空航天、人工智能与大数据等各个领域,对科技进步具有重要推进意义。而如何让充分发挥FPGA的价值和优势、使其服务于各技术领域如今成为业界关注的重点问题,因此基于FPGA的技术开发成为了专利文献中的热点型新兴技术主题。3.4.2 增长型新兴技术主题在共同存在的技术主题中

45、,高新颖度、低技术强度的增长型新兴技术主题包括DII_13、WOS_2、WOS_14。以主题DII_13为例,光子集成电路与传统的集成电路概念相似,但在元件类型上,光子集成电路是将各种不同的光学器件(例如激光器、调制器、放大器、滤波器等)进行集成,待发展成熟后能够为通信行业中的容量紧张等问题提供有效的解决方案,其代表了“光通信网络的发展方向”,具有极高的应用价值,但光电子器件的集成难度也远高于传统电子芯片【36】,业界正在积极尝试和探索,因此目前在专利文献中属于增长型新兴技术主题。以主题WOS_2为例,大数据与深度学习是近年来计算机科学领域饱受关注的热点研究议题,而集成电路能够为海量数据的高效

46、处理提供坚实的硬件设备支持,GPU、FPGA、CUDA等为深度学习提供了重要的加速技术,现已成为学界所关注的增长型新兴技术主题。3.4.3 成熟型新兴技术主题在共同存在的技术主题中,低新颖度的成熟型新兴技术主题包括DII_9、WOS_10、WOS_15;在非共同存在的技术主题中,低新颖度的成熟型新兴技术主题包括 DII_4、DII_7、WOS_1、WOS_3、WOS_9。以主题WOS_10为例,数字集成电路也已经成为集成电路领域非常成熟的研究议题,相关内容已经被广泛讨论,在近一段时间内处于低研究热度阶段(主题新颖度和强度数值均非常低)。需要注意的是,主题WOS_15的主要研究内容为现场可编程门

47、阵列相关技术,该主题在专利文献中属于热点型新兴研究主题,而在论文文献中则处于成熟状态,其主要原因在于学界对技术的研究和探索相较于业界更快,因此在学术论文中学者们对FPGA相关技术的研究已趋于成熟、关注热度逐渐降低,但在业界相关的专利发明正处于蓬勃发展的状态。3.4.4 潜在型新兴技术主题在非共同存在的技术主题中,高新颖度、高技术强度的潜在型新兴技术主题包括DII_1、DII_5、WOS_7、WOS_12。以主题DII_5为例,该主题的主要内容为集成电路的封装相关技术,属于实践性和应用性较高的技术主题,是集成电路生产过程中所涉及的重要问题,在业界被持续广泛关注,但在学界的科研价值暂时相对较弱,科

48、研论文中并没有与之明显相对应的技术主题,但不排除在其研究价值能够被进一步开发并发展成为新热点。以主题WOS_7为例,光子集成电路本身是专利文献中典型的增长型新兴技术主题,而金属氧化物半导体在该领域的应用如今正在被学界积极尝试和探索,未来有望进一步以专利发明的形式在业界落地,成为研究热点。3 3.5 5 新兴技术演化分析新兴技术演化分析研究进一步以2年为时间切片对专利与论文数据集进行了划分,采用上文所述的技术主题最佳数量确定方法与主题内容挖掘方法,得到了每个时间段的专利与论文技术主题,并对技术主题的演化趋势进行了分析。其中,不同时间阶段识别出的主题数量不同,2016-2017年共识别出19个专利

49、技术主题和 17个论文技术主题,2018-2019年共识别出18个专利技术主题和16个论文技术主题,2020-2021年共识别出12个专利技术主题和13个论文技术主题。由于不同类型文献的关键词粒度、关键词选用倾向性、词频分布等均有所差异,所以将不同类型技术主题之间的演化关系相似度阈值设置为不同数值。通过计算相邻两个时间切片内任意两个技术主题之间的相似度,综合考虑演化结果的可解释性,研究将两个论文技术主题之间的演化关系相似度阈值设置为0.7,其他情况下技术主题演化关系相似度阈值设置均为0.3。进一步,研究绘制了集成电路领域技术主题演化趋势图(如图4所示,只展示了存在演化关系的技术主题)。由结果可

50、知,存在演化关系的技术主题中一大部分与现场可编程门阵列(FPGA)技术相关,包括2016-2017年期间的技术主题DII1_7、WOS1_4等5个,2018-2019年期间的技术主题WOS2_2、WOS2_3等5个,2020-2021年期间的技术主题DII3_6、WOS3_9、WOS3_13。位于相邻时间切片的这些主题之间的演化方向以继承、融合为主,演化强度(即技术主题之间的相似度)也相对较表6 技术主题类型识别结果Table 6 Technical topic type identification results新颖度高新颖度低共同存在主题主题强度高DII_8、DII10、WOS_5、WO

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 品牌综合 > 临存文档

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服