收藏 分销(赏)

融合专利计量指标和文本特征的侵权无效宣告预警.pdf

上传人:自信****多点 文档编号:721203 上传时间:2024-02-22 格式:PDF 页数:11 大小:2.42MB
下载 相关 举报
融合专利计量指标和文本特征的侵权无效宣告预警.pdf_第1页
第1页 / 共11页
融合专利计量指标和文本特征的侵权无效宣告预警.pdf_第2页
第2页 / 共11页
融合专利计量指标和文本特征的侵权无效宣告预警.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 29第19卷 第4期2023年8月Vol.19 No.4Aug.2023竞争情报Competitive Intelligence摘 要:基于机器学习算法,对专利无效宣告构建多模态特征融合预测模型,探究专利无效宣告预警指标体系。将文本数据和指标数据进行降维融合,建立基于机器学习中集成学习模型和单个分类模型的专利无效分类预测模型,对新兴产业中信息技术产业的专利侵权案件进行无效宣告分类预测。构建的5种模型在测试集上的平均F1值均在0.8以上,其中逻辑回归随机森林模型表现最优(F1=0.982 1)。关键词:专利无效宣告;预警体系;集成学习;word2vec;PCA降维融合专利计量指标和文本特征的侵

2、权无效宣告预警*Research on the Construction of Patent Early WarningModel Based on Multi-modal Feature FusionPENG Qining1,LIU Bingxiang1,2,FU Zhenkang3,FENG Guangyu1,BEI Wenyu11.Intellectual Property Information Service Center,Jingdezhen Ceramic University,Jingdezhen 333001,China;2.School of Information Eng

3、ineering,Jingdezhen Ceramic University,Jingdezhen 333403,China;3.School of Information Management,Nanjing University,Nanjing 210023,China彭启宁 女,景德镇陶瓷大学知识产权信息服务中心硕士研究生,研究方向为专利情报分析与文本挖掘。柳炳祥 男,景德镇陶瓷大学知识产权信息服务中心博士,教授,研究方向为数据挖掘、群智能算法、竞争情报分析。通信作 者电子邮箱:1093624070 。付振康 男,南京大学信息管理学院硕士研究生,研究方向为专利情报分析与文本挖掘。冯广宇

4、男,景德镇陶瓷大学知识产权信息服务中心硕士研究生,研究方向为专利情报分析。贝汶瑜 女,景德镇陶瓷大学信息工程学院硕士研究生,研究方向为专利情报分析。彭启宁1 柳炳祥1,2 付振康3 冯广宇1 贝汶瑜11.景德镇陶瓷大学知识产权信息服务中心,景德镇 333001;2.景德镇陶瓷大学信息工程学院,景德镇 333403;3.南京大学信息管理学院,南京 210023*本文为2022年度文化和旅游部提质培优计划专业研究生重点扶持项目(MLIS类)“中小型文化创意企业知识产权创造能 力影响因素研究以景德镇陶瓷文创企业为例”(编号:Mlis-003)、江西省研究生创新基金项目“江西省新材料产业 核心专利识别

5、研究”(编号:JYC202207)的研究成果之一。Abstract:Based on machine learning algorithm,a multi-modal feature fusion patent invalidation prediction model is constructed to explore the patent invalidation early warning index system.The text data and index data are reduced and fused,and then the patent invalidation cla

6、ssification prediction model based on random forest algorithm and decision tree algorithm in machine learning is established.Finally,the invalidation classification prediction of patent infringement cases in biological industry in emerging industries is carried out.The average F1 values of the five

7、models constructed in this paper are all above 0.8 on the test set,among which the random forest model performs best,with an average F1 value of 0.982 1.Keywords:declaration of the patent right invalid;early warning system;ensemble learning;Word2vec;PCA dimension reduction0 引言 专利是反映科技创新成果的主要客体,是知识产权

8、的重要部分之一。专利无效宣告是保护自身知识产权的重要手段,企业相互提起专利侵权诉讼和专利无效宣告请求已经成为产业竞争的常态。同时,专利侵权诉讼与无效宣告请求已成为学术界和实务界共同关注的热点,对于加强专利诉讼和专利侵权研究具有重大意义。近几年来,国内专利申请数量不断增加,专利侵权和专利无效宣告发生的案件数量也随之不断增长。刘蕾认为无效宣告制度有助于纠正专利审查机关的不当授权1。与此同时,相关程序和制度方面的问题较以往更加凸显。倪静认为目前我国专利无效宣告程序仍然存在程序拖延、冗长,权利无法得到及时救济等问题2。李新芝等认为我国对专利无效程序中专利文件修改的规定不利于专利权人充分完善其专利文件3

9、。因此,构建一套科学的专利无效宣告预警体系,对于促进新兴产业技术的发展、识别易发生无效宣告的专利,以及提高我国相关创新主体的创新能力、研判产业技术发展方向等具有重要意义。本文以专利侵权诉讼背景下的无效宣告为切入点,提出构建专利预警指标体系;在综合分析专利诉讼风险特征影响因素的前提下,结合专利无效宣告的特点,从专利计量指标和文本特征2个方面,构建多模态融合的专利无效宣告的风险识别模型,建立较为精准的专利无效宣告预警指标体系。1 研究现状1.1 无效宣告相关研究 经阅读文献可以发现,目前国内对于专利无效宣告的研究主要集中在以下几方面:首先,在专利法视角下,主要有针对专利无效宣告制度特点进行的讨论。

10、李晓鸣认为相关法律法规对专利无效宣告各类程序的期限规定不够完善,并提出一系列建议4,王瑞龙指出侵权诉讼中专利权无效抗辩制度的弊端,认为专利无效抗辩制度导致了专利侵权诉讼周期的冗长,并提出了解决方式5。不过,上述文献主要涉及无效宣告判别的各类程序,未涉及导致无效宣告发生的指标研究。其次,在创新经济学视角下,主要有针对专利无效宣告对市场份额影响进行的研究。国外学者Alessandro认为专利无效宣告与专利市场份额增长率呈正相关,专利的市场份额越高,专利发生无效宣告的可能性越大6。上述文献主要探讨了专利无效宣告与市场价值的关系,未涉及各类指标对无效宣告结果的影响。最后,在情报学视角下,在竞争情报学中

11、将申请宣告竞争对手的专利无效视作企业竞争情报中较为重要的内容和手段。李睿等指出在技术市场权益的争夺中,优质专利通常是竞争对手请求无效宣告的主要目标7。此外,专利无效宣告在不同技术领域所表现的程度不尽相同。国外学者Patel等发现专利异议率在不同的领域所占比例不30竞争情报第19卷 第4期 31实践与应用彭启宁,等.融合专利计量指标和文本特征的侵权无效宣告预警同,如在电气工程领域的异议率为5.3%9.7%左右8。上述文献并未系统地构建一套完整的无效宣告识别体系;目前国内外学者对于无效宣告的研究,主要集中在专利无效宣告制度的合理性方面,或是专注在专利无效宣告对不同领域的影响,对于影响专利无效宣告的

12、特征因素方面的研究较为欠缺。1.2 特征识别模型相关研究 现如今,随着学科的进一步融合发展,针对专利不同特征的识别模型也在增加。对于专利识别的研究主要集中在2个方面:利用传统的数学统计分析方法进行研究。国内学者孙玉艳等利用市场法、成本法、收益法和修正收益法,对专利价值进行线性和非线性组合预测,得到加权算术平均值组合预测和加权调和平均组合预测这2种评估模型9,徐晨倩采用量化研究与案例研究相结合的方法,构建了诉讼专利特征与“337调查”的回归模型,并将模型运用至其他专利侵权诉讼案件中,达到专利情报预警的目的10,王子焉等利用文献计量、社会网络分析方法,从专利价值的内涵、评估指标体系、评估方法3个方

13、面对专利价值进行评估11。利用数据挖掘方法,例如深度学习、机器学习等,对专利各类特征进行识别。国内学者张杰等采用AdaBoost算法对诉讼专利的专利质量进行评价12,李静采用深度学习算法模型对新兴主题进行分析,了解新兴主题的发展趋势13;国外学者Jee等利用人工神经网络方法对制药技术领域专利进行分类,达到识别高质量专利的目的14,Kang等提出建立聚类模型检索侵权专利,建立侵权专利的特征模型15。上述研究均未涉及利用专利特征构建识别,目前的专利识别模型主要集中在对专利价值的特征识别和挖掘,而对侵权专利和无效宣告专利的文本特征识别等方面的研究较为欠缺。本文基于传统侵权专利分析的研究,在侵权专利的

14、基础上对于该专利的无效宣告风险特征进行识别,创新性地进行国内侵权专利通过机器学习算法构建专利指标体系的研究;通过数据挖掘研究专利诉讼产生的条件,区别分析专利诉讼风险特征,不仅具有重要的学术价值,而且对解决我国企业在国内外市场竞争中的专利纠纷冲突、预防专利侵权风险等都具有十分重要的现实意义。2 特征选取与研究设计2.1 特征因素选取 特征因素的选取,包括语义特征提取和计量指标选取这2个方面。2.1.1 语义特征提取 学术界对于专利文本的选取方法各不相同,主要包含专利摘要、专利权利要求书和专利说明书等,本文主要选取专利摘要进行语义特征提取。专利摘要是对是专利说明书内容的概述,主要包括发明或实用新型

15、专利的名称、专利所属的技术领域、需要解决的技术问题、发明或实用新型涉及的主要技术特征和用途等。在专利摘要研究方面,国内学者缪建明在专利摘要的基础上,采用类中心向量分类算法对专利进行快速自动分类16,吴洁利用专利摘要生成的专利的核心词汇网络,搭建基于图卷积网络的高质量专利自动识别模型17,谷俊利用摘要对中文专利的新技术术语进行识别18。因此,在语义识别方面,本文利用自然语言识别中的Word2vec模型对文本内容进行词语向量化处理,利用CBOW模型(Continuous Bag-of-Words Model)或Skip-gram模型(Skip Gram Model)将文本数据转换成计算机能识别的数

16、据,抓住所选取文本的上下文、语义,衡量词与词的相似性;其次利用负采样(negative sampling),将各个词向量用直接平均的方式生成整句所对应的词向量,具体训练方法为:使用夹角余弦来反映词语间的关联程度。夹角余弦计算方式如式(1)所示,空间中的2个词的语义越相似,它们的夹角余弦值也就越接近于。Sim(W1,W2)=(W1i)2 ni=1 (W2i)2 ni=1 (W1i W2i)ni=1(1)竞争情报第19卷 第4期322.1.2 计量指标选取 学术界对于专利各类特性的评估指标的选取方式各不相同。袁任远等在对企业风险进行预警时,从宏观、微观以及综合指标因素3个维度选取科学评定风险等级1

17、9,郭青等从专利的经济、法律、技术3个方面,选取相应的专利质量评价指标,构建了三位一体的专利质量评价指标体系20。由于国内对专利风险识别相关计量指标的研究较少,故本文结合专利质量评价相关的研究选取了影响专利侵权风险的指标。基于前人的研究,本文的特征指标选取主要从经济质量、技术质量和法律质量的维度分别选取3个指标,构建较为完整的侵权专利无效宣告风险特征识别体系,如表1所示。在技术层面,本文主要选取6个计量指标。在专利技术层面,涉及单价专利的“IPC个数”,此类指标主要体现了专利的技术覆盖范围。Josh等提出用专利文件中的IPC(国际专利分类号)小类的数量来衡量专利覆盖的技术范围21。在专利引证层

18、面,主要涉及单件专利的“引证次数”“家族引证次数”。张娴指出根据专利的引证关系可以看出专利之间的累积与继承关系22。在专利的被引证层面,主要涉及单件专利的“被引证次数”和“家族被引证次数”。李春燕等指出如果专利的被引用次数越高,则该专利越能代表该领域的基础技术,可以反映出该专利的技术先进性23。在专利的“审查时长”层面,主要反映专利申请日与提出实质审查日之间的差值。冯仁涛指出价值越高的专利,申请文件撰写质量通常也越高,越容易满足专利授权条件,审查过程中需要与审查员文件往来的次数越少,授权也越快24。在市场层面,主要选取“同族个数”“PCT申请”“申请人反映目标专利的技术应用广度反映目标专利的技

19、术影响力目标专利文献的被引证次数同族专利中引用其他专利文献的总和同族专利中被引用专利文献的总和专利申请日与提出实质审查日之间的差值目标专利的维持年限反映目标专利的布局国家数量有间接相同关系优先权号的专利个数一个发明在不同的国际(国家)专利局的申请个数专利是否向世界知识产权组织递交了国际专利申请目标专利发明人总数反映目标专利是不是合作申请目标专利发生转让的次数目标专利发生诉讼的次数目标专利的独立权利要求字数目标专利的法律保护范围和权利稳定性目标专利法律保护范围目标专利所引用的前述权利要求和需要进一步说明的内容目标专利文献的总页数IPC个数引证次数被引证次数家族引证次数家族被引证次数审查时长专利寿

20、命(月)简单同族个数扩展同族个数DocDB同族个数PCT申请申请人数量发明人数量转让次数诉讼次数首权字数权利要求数量独立权利要求数量从属权利要求数量文献页数技术层面市场层面法律层面指标名称指标含义指标维度表1 专利特征指标33 数量”和“发明人数量”,在“同族个数”中,主要包括“简单同族个数”“拓展同族个数”和“DocDB 同族个数”。杨秀财认为同族专利数量可以反映专利家族学术影响力25。PCT申请主要反映了专利是否向世界知识产权组织递交了国际专利申请。张杰认为PCT国际专利申请数量是考核企业创新能力和专利质量的重要指标12,付振康指出发明人数量以及申请人数量越多,则证明目标专利的研发投入较大

21、,专利质量较高26。在法律层面,主要选取“权利要求数量”“转让次数”“诉讼次数”和“首权字数”,主要涉及专利权法律效力所涉及的发明创造的范围。郭青等认为权利要求数量越多,专利的保护范围越广20。“转让次数”反映专利的交易次数。刘强认为重大技术的专利转让会给企业带来大额的经济效益,极易发生转让合同生效与解除、合同权利与义务等法律问题27;“首权字数”反映专利保护的技术特征数量。袁晓东等指出专利诉讼倾向与产品类型、公司所在国家和诉讼持续时间等都有相关性28。2.2 模型选取2.2.1 研究设计 图1为专利无效宣告预测模型。首先,通过大量阅读国内外文献,对专利无效宣告进行概念界定,结合指标的可获取性

22、、科学性等因素,选取影响专利无效的文本内容和数据指标;通过文献检索的方法,获取影响专利诉讼的指标数据和文本数据,建立样本库。其次,对文本数据和指标数据进行降维数据融合,形成新指标特征。最后,通过机器学习的监督学习算法中的决策树和随机森林模型,对样本库中的侵权专利进行分析,对影响专利无效宣告的指标进行分类训练,对比2种模型诉讼专利特征识别的各类性能,构建基于机器学习的诉讼专利特征识别模型,并对算法的结果进行参数调整,使得算法模型达到最优效果;通过特征重要程度的对比,对特征的各项指标的重要程度进行对比,获得在不同领域专利无效宣告风险识别的最优选算法指标,得出导致专利发生无效宣告的指标影响程度排序,

23、进而建立较为精准的专利预警指标体系。2.2.2 模型选取(1)模型降维融合 在模型数据降维融合方面,选取目前较为常用的降维方法PCA(Principal Component Analysis)主成分分析法。PCA是一种非监督的机器学习算法,一般使用方差(Variance)来定义样本之间的间距,计算公式如下。实践与应用彭启宁,等.融合专利计量指标和文本特征的侵权无效宣告预警图1无效宣告预测模型专利预警模型构建评价指标incoPat数据库数据采集文本特征提取数据指标选取指标特征融合分类算法1分类算法2分类算法3分类算法4分类算法5平均精确率平均召回率平均准确率平均F1值特征影响程度排序建立专利预警

24、指标体系竞争情报第19卷 第4期 34(2)训练模型选取 在数据模型建立方面,选择机器学习中常见的单个学习模型和集成学习模型对所选取的数据指标进行分类,再进行指标结果对比。在单个模型中选取3个模型:逻辑回归(Logistic Regression),主要运用极大似然函数的方法,对数据进行二分类的算法;决策树(Decision Tree),也称作判定树,这是一种典型的分类学习方法,主要是利用给定的训练数据集学习一个模型,再将新的数据放入模型进行分类预测;支持向量机(Support Vector Machine),通过计算学习样本求解的决策边界,达到数据二分类目的。集成学习模型主要选取以下2种:随

25、机森林(Random Forests),一个以决策树模型为基础构建的Bagging集成模型,主要将多个决策树的分类器并行,再由个别树输出的类别的众数决定其输出的类别;XGBoost,一种基于机器学习单个决策树模型而改进的集成机器学习算法,适用于分类和回归问题,优点在于速度快、效果好、能处理大规模数据、支持多种语言、支持自定义损失函数。2.3 模型性能度量 采用多模态模型最终完成的任务是专利无效宣告的二分类问题,故本文采用准确率(Accuracy)、平均精确率(Precision)、平均召回率(Recall)、平均F1值(F1)以及ROC曲线下方的面积(Area Under ROC the Cu

26、rve)5个指标对模型的性能进行评价。对于二分类问题,将样例数据根据机器学习的预测类别与实际类别相结合,分为真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)这4种情况。准确率是指模型分类正确的专利样本数量与所有的专利样本数量的比值,其计算公式如下。精确率是指检测出某类特征的数量与检测出的所有特征数量之间的比率,衡量的是模型的查准率,其计算公式如下。平均召回率是指检测出的某类特征的数量和数据集中所有的该类特征数量的比率,衡量的是检索系统的查全率,其计算公式如下。F1是基于查准率与查全率的调和

27、平均(harmonic mean)定义的,一般情况下,当F1较高时则说明试验方法比较有效,其计算方式如式(6)所示。AUC可通过ROC曲线下各部分的面积求和而得,假定ROC曲线(Receiver Operating Characteristic)是由坐标为(x1,y1),(x2,y2),,(xm,ym),ROC曲线的y代表“真正准确率”(True Positive Rate),x代表“假正例率”(False Positive Rate),其计算公式如下。3 实验及结果分析3.1 数据来源 “十四五”规划中提出:“要着眼于抢占未来产业发展的先机,重点关注和培育先导性和支柱性产业,聚焦新一代信息技

28、术、生物技术、新能源、新材料、高端装备、新能源汽车、绿色环保以及航空航天、海洋装备等新兴产业。”29基于此,本文主要聚焦“新一代信息技术”领域,利用该领域侵权专利数Accuracy=TP+TNTP+PN+FP+FN(3)(2)Var(x)=1mi=1(xi-x)2mP=TP TP+FP(4)R=TP TP+FN(5)(6)(7)AUC=12i=1(xi+1-xi)(yi+yi+1)m-1F1=2 P R 2 TP P+R+TP-TN样例总数35 据集,构建侵权专利无效宣告预警模型31。利用北京合享智慧科技有限公司incoPat数据库,构建检索式为:“INDUSTRY1=1 AND ACTION

29、-TYPES=侵权案件”(INDUSTRY1=1为新兴产业中“新一代信息技术”检索代码,“ACTION-TYPES=侵权案件”为专利案件类型),筛选新兴产业技术中“新一代信息技术”领域的专利侵权案件,检索时间截至2022年9月,检索范围为在中国公开并且获得授权的发明专利以及实用新型专利。通过数据筛选,得到包含共1 255条数据的专利文献数据集。3.2 无效宣告特征识别3.2.1 特征转化融合 首先,利用2.2.2节所述的文本向量模型对专利摘要进行词向量处理,将专利摘要转化为一个300维的特征向量用以表征专利文本特征;其次,将文本向量和数据指标横向拼接后得到特征矩阵,再利用PCA成分分析法对特征

30、向量矩阵进行降维处理,利用PCA算法对所构建的特征矩阵进行融合重组,得出解释方差比例和主成分个数之间的关系。如图2所示,可以看出,当主成分个数在50左右时,解释方差的比例开始趋近于稳定。因此,在模型构建时,将主成分个数设定为50进行特征合并。3.2.2 专利预警模型构建 首先,使用机器学习word2vec对专利摘要进行文实践与应用彭启宁,等.融合专利计量指标和文本特征的侵权无效宣告预警图2 解释方差比例-主成分个数关系Logistic RegressionDecision TreeSupport Vector MachineRandom ForestXGBoostpenalty=l2,C=0.

31、3,max_iter=400,tol=1e-4,solver=lbfgscriterion=“entropy”,random_state=30,splitter=“random”,max_depth=5,min_samples_leaf=30,min_samples_split=30decision_function_shape=ovo,gamma=0.1,probability=Truen_estimators=250,max_depth=5,min_samples_split=80,min_samples_leaf=10,max_features=7,oob_score=True,rand

32、om_state=10learning_rate=0.2,n_estimators=18,max_depth=5,min_child_weight=5,gamma=0.2,subsample=0.75,colsample_bytree=0.75表2 各分类器的参数组合算法名称参数组合解释方差比例主成分个数0.30.40.50.60.70.80.91.0050100150200250300本词向量化转换,再利用PCA主成分分析法对数据进行数据融合,将融合后的数据分别建立逻辑回归(Logistic Regression)、决策树(Decision Tree)、支持向量机(Support Vecto

33、r Machine)、随机森林(Random Forests)、XGBoost这5种机器学习模型,利用“留出法”(hold out),按照8 2的比例,将数据划分为训练集和测试集。在训练集上进行单独训练,采用交叉验证结合网格搜索以及学习曲线的方式寻找最优超参数组合,各个分类器的参数组合见表2。由表2可以看出,集成学习的模型参数划分相较于单个学习模型划分要更加细致,这主要是由于集成模型会对原始数据进行有放回的随机采样,所以在模型参数上的划分更加细致。36竞争情报第19卷 第4期 3.3 模型评估3.3.1 模型参数评估 为了评估本文构建的机器学习模型的性能,采用2.2.3节所述的评估指标,对逻辑

34、回归(Logistic Regre-ssion)、决策树(Decision Tree)、支持向量机(Support Vector Machine)、随机森林(Random Forests)、XGBoost这5个模型在测试集上的Accuracy、Precision、Recall、F1以及AUC在测试集上的表现进行评分对比。为了形成更加具体的对比,将是否添加文本特征作为对比项,不包含文本特征评分结果见表3,包含文本特征模型评分结果见表4。经过综合实验分析可以发现,本文构建的多模态特征融合分类模型,在该数据集上表现的拟合度较优,整体性能均较为准确。通过对比表3和表4可以看出,在加入本文特征后,各类模

35、型的整体评估分数有一定程度的提高,其中Random Forest模型的评分提高最为明显,准确率由0.833 6提高到0.933 0,精确率由0.751 3提高到0.912 4。由此可以得出,融合了专利计量指标和文本特征的模型在一定程度上会比单一计量指标所构建的模型更加准确和全面。由表4可以看出,在测试集中,Random Forest的Accuracy、Precision、Recall、F1以及AUC的评分是所有模型当中最高的,均在0.9以上。由此可以看出,Auc0.974 80.764 20.996 70.820 00.798 9Accuracy0.914 50.773 80.996 70.9

36、93 50.798 9Precision0.913 50.746 80.950 00.976 70.782 1Recall0.880 90.702 30.954 50.590 90.726 1F10.896 90.723 90.976 71.000 00.753 1模型名称Logistic RegressionDecision TreeSupport Vector MachineRandom ForestXGBoost表5 其他领域模型运用评估Auc0.852 50.758 90.869 90.862 10.857 9Accuracy0.822 10.758 80.815 10.833 60.

37、840 6Precision0.774 10.772 40.750 30.751 30.762 8Recall0.912 40.737 30.947 41.000 00.991 2F10.837 60.754 40.837 40.858 00.862 1模型名称Logistic RegressionDecision TreeSupport Vector MachineRandom ForestXGBoost表3 无文本特征模型评估Auc0.977 00.632 70.859 50.984 80.913 3Accuracy0.953 10.634 40.792 80.933 00.834 9Pr

38、ecision0.930 10.578 30.710 10.912 40.779 1Recall0.965 90.619 00.890 90.946 90.862 2F10.947 70.598 00.790 30.929 30.818 5模型名称Logistic RegressionDecision TreeSupport Vector MachineRandom ForestXGBoost表4 加入文本特征模型评估37 实践与应用彭启宁,等.融合专利计量指标和文本特征的侵权无效宣告预警图3 模型混淆矩阵本文构建的数据在随机森林集成模型上的表现相较单个模型表现更优,在将计量指标和文本特征进行

39、融合后,对专利无效宣告预警模型的涉及更加全面。另外,本文数据主要来源于新兴产业“新一代信息技术”的专利侵权无效宣告案件,根据上述5种模型的运行和评估情况,均可以将模型运用在新兴产业不同的技术领域,识别不同领域对于专利的无效宣告倾向。如表5所示,本文将模型运用在新兴产业“数字创意产业”技术中,从而了解模型在其他技术领域的应用情况。从表5可以看出,模型的整体表现依旧较为稳定,由此可以提出一种关于侵权专利的无效宣告风险预警的新模型,从而对专利发生无效宣告风险的可能性给予客观以及科学的判别。3.3.2 模型应用评估 为进一步选择最优专利预警模型,本文主要利用机器学习中混淆矩阵(confusion_ma

40、trix)评估模型的应用情况,混淆矩阵主要涉及4项指标:TP,真实值是positive,模型认为是positive;FN,真实值是positive,模型认为是negative;FP,真实值是nega-tive,模型认为是positive;TN,真实值是negative,模型认为是negative的数量。图3为机器学习模型的混淆矩阵,本文主要选取逻辑回归(Logistic Regression)、支持向量机(Support Vector Machine)、随机森林(Random Forest)、XGBoost这4个整体评分较为良好的模型构建混淆矩阵。通过smote不平衡数据的处理后,测试集数据总

41、数为944件,其中positive数量为499,negative数量为495。由图3可以看出,在逻辑回归模型中,positive的数据被判定为TP的专利为477件,而被判定为FN的专利为22件,negative数据被判定为TN的专利为11件,而被判定为TN的为434件,整体有3%左右的数据判断错误,可应用价值较高,准确率较优。在支持向量机模型中,positive的数据被判定为TP的专利为329件,而被判定为FN的专利为170件,negative数据被判定为TN的专利为23件,而被判定为TN的为472件,在positive数据中有34%的数据判定错误,在negative数据中有4.6%的数据判定

42、错误,因此,整体可应用价值不高。在随机森林模型中,positive的数据被判定为TP的专利为460件,而被判定为FN的专利为39件,negative数据被判定为TN的专利为40件,而被判定为TN的为455件,整体有7.8%左右的数据判定错误,可应用价值一般。在XGBoost模型中,positive的数据被判定为TP的专利为336件,而被判定为FN的专利为163件,negative数据被判定为TN的专利为59件,而被判定为TN的为436件,在positive数据中有27%的数据判定错误,在negative数据中有11.9%的数据判定错误,因此,整体可应用价值不高。综上所述,根据模型的参数和应用情

43、况评估可以看出,在构建融合专利计量指标和文本特征的侵权无效宣告预警模型中,逻辑回归模型整体情况表现较为优异,可应用价值较高;随机森林模型情况一般,可应用价值一般;支持向量机和XGBoost模型整体情况,相较逻辑回归和随机森林模型,可应用价值较低。因此,在后续多领域的应用中可以选择逻辑回归和随机森林模型进行专利无效宣告预测。400300200100221149447700114504003503002502001501005017023472329001145040035030025020015010050394045546000114003503002502001501001635943633

44、60011(a)逻辑回归(b)支持向量机(c)随机森林(c)XGBoost真实标签真实标签真实标签真实标签模型预测标签模型预测标签模型预测标签模型预测标签38竞争情报第19卷 第4期4 结果与讨论 本文主要是基于前人对于专利无效宣告指标体系的相关研究,首先提出了基于文本和数据相结合的多模态专利无效宣告预警指标体系;其次,利用Word-2vec对文本进行数据转换,再采用集成学习模型和机器学习中的二分类模型,对专利无效宣告倾向进行分类、模型对比验证;最后,选取新兴产业中的信息技术专利数据库对模型进行实验分析,验证本文构建的专利无效宣告预警体系的有效性及准确性,得出以下结论。第一,在对文本和数据的处

45、理上,由于形成了较多的数据向量,需要对融合向量进行数据合并和降维处理。第二,在模型分化时,为了防止模型的过拟合,包含过多的不必要信息,需要计算模型的最佳节点和分化方法,对模型进行剪枝处理,提高模型准确率的稳定性。第三,从模型的评估结果可以看出,随机森林模型在无效宣告预测中的效果较好,准确率为0.93左右,集成学习模型的整体表现要优于单个模型的训练。第四,本文是在之前的单个决策树模型专利预警识别研究上的改进,将专利的文本特征和数据计量指标特征相结合。在加入文本特征后,对于构建的专利无效宣告预警体系更加全面和准确,涉及层面更广,识别更加精确。因此,根据模型的分枝规则以及特征指标的识别,可以建立一套

46、较为完整的专利无效宣告预警体系,应用于多个产业技术领域,快速定位专利的侵权和无效宣告,达到很好的专利预警效果。综上所述,本文构建的专利无效宣告预测模型以及专利无效宣告的预警体系对我国专利的研究具有一定的理论及现实意义,可以为企业及其他创新主体对于自身专利的情况提供一定的判断依据,为保护自身专利的稳定性提供相应的数据支持。但是,本文构建的预测模型和预警体系也存在一定的局限性:一是在数据识别指标的选取上,主要选取了部分定量指标进行模型构建,并未充分考虑其他外部因素指标对于无效宣告预测的影响,同时识别预测指标体系也需进一 步完善。二是在文本类别的识别上,本文主要选取摘要作为本文数据,并未涉及专利的说

47、明书和权利要求书,对于专利文本的提取不够全面。三是在模型的选取上,本文仅采用集成学习中随机森林和XGBoost以及单个决策树、支持向量机、逻辑回归模型对无效宣告进行预测的构建,模型选择较为单一,并未尝试利用数据挖掘中其他模型对无效宣告预测进行构建。且由于文本特征的融入,导致机器学习模型不能很好地对识别过程路径进行可视化分析,存在一定的“黑盒模型”情况。在后续的研究中,将根据以上不足进行更加深入的研究,不断完善专利预警预测模型,进而构建更加精准的专利侵权无效宣告预警体系,进一步改进模型,使分析结果更为准确。参考文献:1 刘蕾.论专利无效宣告制度的防御功能J.知识产权,2014(12):33-38

48、.2 倪静.论我国专利无效宣告程序的完善:美、日、德三 国制度比较及启示J.江西社会科学,2013,33(6):175-179.3 李新芝,谭红.专利无效宣告程序中专利文件的修改J.法律适用,2012(8):89-91.4 李晓鸣.我国专利无效宣告制度的不足及其完善J.法 律科学(西北政法大学学报),2021,39(1):149-159.5 王瑞龙.侵权诉讼中专利权无效抗辩制度弊端及解决 路径J.中南民族大学学报(人文社会科学版),2018,38(2):126-131.6 STERLACCHINI A.Trends and determinants of energy innovations:

49、Patents,environmental policies and oil pricesJ.Journal of Economic Policy Reform,2020,23(1):49-66.7 李睿,徐璇.宣告无效专利的引文特征及其情报学意义 J.情报理论与实践,2019,42(2):25-30.8 PATEL P A,HALL A,AUGOUSTIDES J G T,et al.Dynamic shunting across a patent foramen ovale in adult cardiac surgery:Perioperative challenges and mana

50、gementJ.Journal of Cardiothoracic and Vascular Anesthesia,2018,32(1):542-549.9 孙玉艳,张文德.基于组合预测模型的专利价值评估研39 实践与应用彭启宁,等.融合专利计量指标和文本特征的侵权无效宣告预警 究J.情报探索,2010(6):73-76.10 徐晨倩,朱雪忠.基于诉讼专利情报的美国337调查风 险预警研究J.情报杂志,2021,40(9):37-44.11 王子焉,刘文涛,倪渊,等.专利价值评估研究综述J.科技管理研究,2019,39(16):181-190.12 张杰,孙超,翟东升,等.基于诉讼专利的专利质

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服