收藏 分销(赏)

基于梯度提升回归树的高新企业创新能力评估.pdf

上传人:自信****多点 文档编号:2348083 上传时间:2024-05-28 格式:PDF 页数:5 大小:1.14MB
下载 相关 举报
基于梯度提升回归树的高新企业创新能力评估.pdf_第1页
第1页 / 共5页
基于梯度提升回归树的高新企业创新能力评估.pdf_第2页
第2页 / 共5页
基于梯度提升回归树的高新企业创新能力评估.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 年第 8 期计算机与数字工程收稿日期:2023年2月20日,修回日期:2023年3月12日基金项目:国家自然科学基金重点项目(编号:U1811263);广东省普通高校“人工智能”重点领域专项(编号:2019KZDZX1027);广东高校省级重点平台和重大科研项目(编号:2017KTSCX048);广东省公益研究与能力建设项目(编号:2018B070714018);广东省中医药局科研项目(编号:20191411);广州市大数据智能教育重点实验室项目(编号:201905010009)。作者简介:郑泳智,男,硕士,研究方向:人工智能。吴惠粦,男,研究方向:大数据。朱定局,男,博士,教授,博

2、士生导师,研究方向:人工智能。宋东情,女,硕士,研究方向:人工智能。总第 406期2023 年第 8 期计算机与数字工程Computer&Digital EngineeringVol.51No.81引言十八大明确要求,要把创新驱动视为经济发展新的动力源泉,科学技术能力和劳动质量在社会发展中的作用不应孤立地看待,而应联系起来以促进社会进步1。政府政策扶持力度与资金投入对企业创新能力是相关联的。张莉芳2根据部分新兴产业数据研究分析也验证了这一观点;胡本田3根据数据分析发现政府补助对创新绩效产生直接正向调节效应;Sun J等4以PSM-DID模型为工具,发现研发费用相关政策的实施对企业创新行为有正向

3、影响。因此审计部门关注企业创新能力发展,并安排相关审计专家根据企业相关业务信息、环境条件、创新投入、创新产出、财务成长等数据,设计不同的创新指标分析企业创新能力变化,为政府部门提供决策依据,优化资金投入结构等。徐立平等5归纳总结了九类企业创新能力评价体系,提出其不足之处,基于梯度提升回归树的高新企业创新能力评估郑泳智1吴惠粦2朱定局1宋东情1(1.华南师范大学计算机学院广州510631)(2.广州国家现代农业产业科技创新中心广州510520)摘要近年来,随着创新驱动发展战略的提出,各地审计厅积极响应,安排审计专家根据企业信息评估企业创新能力,研究政策实施对高新企业创新指标的影响,希望精准实施政

4、策扶持企业,带动区域发展。传统人工评估方式效率低,且存在人为干扰等问题。使用梯度提升回归树模型构建评分预测模型,代替人工评估方式,可保证准确率与效率。实验结果表明,该预测模型优于随机森林回归等其他模型,能保证预测准确性。关键词梯度提升;集成学习;回归预测;机器学习中图分类号TP391DOI:10.3969/j.issn.1672-9722.2023.08.001Evaluation of Enterprise Innovation Ability Based on GradientBoosting Regression TreeZHENG Yongzhi1WU Huilin2ZHU Dingj

5、u1SONG Dongqing1(1.College of Computer Science,South China Normal University,Guangzhou510631)(2.Guangzhou National Modern Agricultural Industry Technology Innovation Center,Guangzhou510520)AbstractIn recent years,various audit offices have actively responded by arranging audit experts to evaluate co

6、rporate innovation capabilities based on corporate information,and to ascertain how the policy affect the high-tech companies,hoping to accurately implement policies to support companies and drive regional development.Traditional manual evaluation methods are inefficient and have obstruction.A scori

7、ng prediction model is built with the use of gradient boosting regression tree model instead of manual evaluation can ensure accuracy.Experimental consequence indicates that the prediction model is capable of promising the highaccuracy of prediction.Key Wordsgradient boosting,ensemble learning,regre

8、ssion prediction,machine learningClass NumberTP3911687第 51 卷尤其是消除人为因素干扰方面存在较大问题。孔祥纬6首次提出使用基于支持向量机的方法构建创新能力评分预测模型,虽可消除人为因素影响,但是预测效果存在提升空间。栗晓云7提出使用随机森林等算法构建模型预测创新政策对企业创新能力的影响,可有效帮助政府在企业补助等问题上做出决策。因此,依靠机器学习方法对企业创新能力进行评分预测,有利于审计部门分析企业创新能力变化。在微观上,有利于发现其创新能力的不足,为决策者提供依据,加强创新管理,完善创新机制,提高竞争优势。在宏观上,符合条件的创新型企

9、业可受益于政府政策扶助,推动区域繁荣发展并形成区域优势。预测企业创新能力评分问题,实际上是回归问题。Friedman8指出回归的关键在于优化函数,目的是求出因变量关于自变量的函数,使损失函数期望最小。近年来,回归预测广泛应用于各领域,如Pandey G等9提出基于SEIR和回归模型预测新冠疫情;Quan Q等10提出使用改进的支持向量机结合太阳辐射的水库水温,对我国西部大型高海拔水库的水温进行了分析;Jiang L等11提出使用贝叶斯回归模型预测港口吞吐量。关于企业创新能力预测,作者构建不同预测模型进行实验,实验结果发现传统的单一回归模型存在精度低与泛化性不足等问题。例如,支持向量回归(Sup

10、port Vector Regression,SVR)、线性回归(Linear Regression,LR)等模型在关于企业创新能力预测问题中,效果均不理想。集成学习12为了降低泛化误差,可以将多个个体学习器合并,得到更合理边界,降低整体错误率、提高模型性能13。本文提出运用梯度提升回归树(Gradient Boosting Regression Tree,GBRT)算法进行企业创新能力的回归预测,GBRT属于集成学习算法中的一种,结果表明模型能拟合出与审计组专家评分相似的结果,优于其它模型。2集成学习算法2.1集成学习集成学习已遍及各行业各领域,特征选取、回归预测等问题都能见到它的身影。如图

11、1所示,集成学习依靠某一策略有机组合多个学习器。其中,BP算法14、SVM算法15等学习算法往往会被用于构建个体学习器。而集成学习则通过某种策略将所有个体学习器产生的结果整合,如平均法、投票法、学习法。因此通过集成学习算法构建模型在结果上会比单一模型更加稳定,泛化能力更强。图1集成学习原理示意图主流的集成学习方法按基学习器间独立程度划分为两种类别。即基学习器必须依次生成的Boosting提升算法16与基学习器可并行生成的Bagging装袋算法17。除了基学习器间依赖性强弱不同,二者在样本选择和权重调整上也有所区别。Boosting可根据错误率调整权重使得Boosting精度往往高于Baggin

12、g。2.2梯度提升回归树提升树算法中残差计算较复杂,导致训练速度较低,Friedman 最早提出使用梯度提升回归树GBRT,将损失函数负梯度值表示为残差,以提高训练速度。GBRT属于 Boosting算法中的一种泛化,近年来广泛应用在各个领域,Samadi等18提出利用GBRT近似分析预测生物质材料较高的热值,效果优于其他模型;Pan等19提出利用GBRT估算天然气公交车的排放量,为移动等排放模拟工具提供理论支持;Deng等20利用GBRT预测蛋白质-RNA结合亲和力,取得较好的效果。算法1梯度提升回归树GBRT算法输入:训练数据集(xiyi)ni=1,损失函数L(yf(x)输出:强学习器fM

13、(x)初始化模型:f0(x)=argmini=1nL(yi)(1)for m=1 to M:M棵回归树被迭代构建,记m为第m棵树:记N为样本数,求残差值rmi,i=12N:rmi=-L(yif(xi)f(xi)f(x)=fm-1(x)(2)使用训练集(xiyi)ni=1拟合近似残差值rmi;计算hm(x)重系数m:m=argmini=1nL(yifm-1(xi)+hm(xi)(3)更新模型,其中v代表学习率:fm(x)=fm-1(x)+vmhm(x)(4)end for输出模型fM(x)由式(4)可知树的数量M和学习率v影响模型的预测精度。回归树数量M也称为最大迭代次数,郑泳智等:基于梯度提升

14、回归树的高新企业创新能力评估16882023 年第 8 期计算机与数字工程设置不当容易出现过拟合或欠拟合;学习率v也称步长,学习率设置恰当将有利于防止过拟合。回归树数量M和学习率v往往需要结合起来调整,其优化过程将在后文进行论述。3实验3.1实验环境及参数设置本文实验所用实验环境如表1所示。表1实验环境实验环境类别CPU内存机器学习软件编程语言操作系统参数描述AMD Ryzen 7 3700 x32GBscikit-learnPythonWindows 103.2实验数据集实验采用广东省审计厅提供的2016年度2510家广东省高新企业数据作为训练数据,其中包括企业74项特征数据和对应的审计专家

15、组评分。专家组评分为各审计专家根据企业数据进行企业创新能力评分后的均值,取值为0100的浮点值。部分企业特征如表2所示。表2部分企业特征特征种类基础信息环境信息财税数据创新投入数据创新产出数据特征注册资本、规模等所属行政区域、行业等销售收入增长、利润增长等科研人员数、研发费用等专利数、高技产品收入等3.3数据预处理本文对企业数据的预处理主要有:1)数据去重。若有相同企业编号的企业数据,则删除。2)数据标准化。按比缩放企业数据,将各类企业数据统一映射同一区间有助于提升训练效率。3)空值填补。样本中存在少量企业数据缺失,使用同一列不为空的数值平均值对缺失值进行填补。3.4实验设计为使GBRT模型效

16、果更佳,实验一使用平均绝对 百 分 误 差(Mean Absolute Percentage Error,MAPE)作为评价指标,通过网格搜索与交叉验证法对超参数进行调整优化,并研究分析超参数对误差的影响。为验证梯度提升树预测效果由于其他模型,实验二训练Adaboost、Bagging、GBRT、SVM、RF、LR等模型,记录其误差值并进行对比。其中,本次实验参考当前广泛使用的误差评价指标,选取平均绝对百分误差(Mean Absolute Percentage Error,MAPE)与均方根误差(Root Mean Squared Error,RMSE)作为评价指标。3.5实验一结果与分析GB

17、RT模型的超参数最大迭代次数 M 和学习率v对模型预测精度有较大影响。实验一设计不同M值与v值,以MAPE作为模型评估指标,结合网格搜索与交叉验证求得最佳M与v的组合。不同组合下的预测结果如表3所示。表3不同最大迭代次数和学习率下模型的平均MAPE均值M20501002003004005006007008009001000v0.0047.5048%7.3206%7.0851%6.7614%6.5685%6.4458%6.3661%6.3079%6.2644%6.2317%6.2038%6.1792%0.0087.3776%7.0843%6.7598%6.4455%6.3063%6.2292%6

18、.1759%6.1478%6.1347%6.1271%6.1204%6.1196%0.017.3191%6.9876%6.6542%6.3654%6.2458%6.1765%6.1419%6.1271%6.1166%6.1151%6.1140%6.1132%0.0147.2151%6.8263%6.5012%6.2633%6.1668%6.1350%6.1227%6.1175%6.1134%6.1114%6.1135%6.1113%0.0187.1241%6.7019%6.4020%6.2072%6.1448%6.1301%6.1274%6.1203%6.1192%6.1232%6.1191%

19、6.1273%表3中,第一列从201000的M值为式(2)中的最大迭代次数,即创建的 M棵回归树。第一行从0.0040.018的v值为式(4)中的学习率,即更新模型的步长。实验利用K折交叉验证方法进行模型训练K次,对K个平均绝对百分误差值求平均,作为超参数调优的评价指标,其中 K取值为 10。当M 取值大于 600,v取值大于0.014时,随着M与v值增大,模型效果提升越不明显。当最大迭代次数和学习率分别为 1000 与 0.14 时,模型效果最好,MAPE均值为6.1113%,优于其他参数组合。由算法1可知,调整超参数时,不可以孤立的看待问题,既不能只调整最大迭代次数M,也不能只调整学习率

20、v,否则将陷入局部最优化的困境。实验根据表2数据,画出如图2所示三维图像,以平均绝对百分误差作为Z轴。可以观察到曲面随着M与v的增长,逐渐收敛为一个平面,平均绝对百分误差无明显变化,即模型效果没有明显提升。当回归树棵树取值为1000与学习率取值为0.14时,该超 参 数 组 合 下 训 练 得 到 的 模 型 MAPE 值 为1689第 51 卷6.1113%,该模型效果最优。7.507.257.006.756.506.25平均绝对百分误差/%0.0050.0100.0150.020学习率02004006008001000最大迭代次数图2最大迭代次数与学习率对模型的影响如图3所示,实验使用上述

21、最佳超参数组合构建模型后,预测100个企业创新能力得分。仅有少量预测值与实际值相差较大,如图3中第64个样本值,模型预测效果不理想。大部分预测值均接近于实际值,如图3中第15和16等样本值,均能拟合出与实际值近似结果。因此,GBRT模型能较好拟合审计专家对企业创新能力的评分。95908580757065企业创新能力得分020406080100第N个企业预测值实际值图3预测值与实际值对比图3.6实验二结果与分析为对比分析不同模型在预测企业创新能力评分问题上的效果,实验二使用AdaBoost、Bagging等算法进行模型训练,以MAPE与RMSE作为模型评价指标,训练集与测试集划分比为4 1。表4

22、不同模型MAPE与RMSE对比模型RFGBRTAdaBoostBaggingSVMLRMAPE5.8154%5.7675%6.0153%6.2746%7.0606%6.9747%RMSE5.74625.67865.91626.17436.99106.8720如表 4 所示,在预测企业创新能力问题上,GBRT 训 练 得 到 的 模 型 效 果 更 好,MAPE 达 到5.7675%,RMSE 为 5.6786,优于其他模型。其中,RF与GBRT的模型效果接近,但GBRT在该回归问题上稍微优胜。其原因在于RF对异常值不敏感,而GBRT根据错误率采样,会对异常值较敏感。因此在该回归问题上,对比其他

23、预测模型,GBRT能更好的拟合审计专家组对企业创新能力的评分。4结语随着创新驱动发展战略的提出,政府审计部门越来越重视企业创新能力评估,希望通过量化创新能力,发现企业不足之处,协助决策部门调整政策扶持力度与方向,精准提高某区域或某行业的竞争力。但审计专家组根据企业相关数据评估企业创新能力的工作量较大,同时容易出现误判,为提高审计厅对企业创新能力的评估效率与能力,本文提出使用GBRT算法构建企业创新能力得分预测模型,借助GBRT具有对输出空间中离群点的鲁棒性等优点,拟合出于审计专家组相似的评分效果。经过验证,该模型效果优于Adaboost等五类算法构建的模型。参 考 文 献1苏源泉,陈寒凝,孙晓

24、娜.基于十八大精神的陕西创新驱动发展战略路径研究 J.陕西行政学院学报,2013,27(04):89-94.SU Yuanquan,CHEN Hanning,SUN Xiaona.Research onStrategy Path of the Innovation-Driven DevelopmentBased on 18th Chinese Communist Party National Congress in Shaanxi J.Journal of Shaanxi Academy of Governance,2013,27(04):89-94.2张莉芳.政府补贴、国际化战略和企业创新能

25、力基于中国战略性新兴产业的经验研究 J.商业研究,2018(06):151-160.ZHANG Lifang.Government subsidies,internationalizationstrategiesandcorporateinnovationcapabilities:based on the empirical research of Chinas strategic emerging industriesJ.Commercial Research,2018,6:151-160.3胡本田,高珲.政府补助行为对创新型企业高质量发展的影响 J.区域金融研究,2020(09):70-7

26、8.HU Bentian,GAO Hui.The influence of government subsidies on the high-quality development of innovative enterprises J.Journal of Regional Financial Research,2020(09):70-78.4Sun J,Long J.Will R&D Expenses and Deduction Policies Promote Company Innovation?J.World ScientificResearch Journal,2019,5(9):

27、147-152.(下转第1701页)郑泳智等:基于梯度提升回归树的高新企业创新能力评估16902023 年第 8 期计算机与数字工程J.黑龙江工业学院学报(综合版),2020,20(09):90-93.WU Feilong,GUO Shiyong.AGV path planning basedon improved A*algorithmJ.Journal of HeilongjiangInstitute of Technology(Synthesis Edition),2020,20(09):90-93.14崔岩,刘兴林,李育强.基于改进 A*算法的移动机器人路径规划方法 J.计算机应用研究

28、,2020,37(S1):118-119.CUI Yan,LIU Xinglin,LI Yuqiang.Mobile robot pathplanning method based on improved A*algorithmJ.Application Research of Computers,2020,37(S1):118-119.15Duchon F,Babinec A,Kajan M,et al.Path planning withmodified a star algorithm for a mobile robot J.ProcediaEngineering,2014,96:59

29、-69.16李冲,张安,毕文豪.单边矩形扩展A*算法 J.机器人,2017,39(1):46-56.LI Chong,ZHANG An,BI Wenhao.A*Algorithm forSingle Side Rectangular ExpansionJ.Journal of Mechanical Engineering,2017,39(1):46-56.5徐立平,姜向荣,尹翀.企业创新能力评价指标体系研究 J.科研管理,2015(S1):122-126.XU Liping,JIANG Xiangrong,YIN Chong.Research onthe Evaluation Index Sy

30、stem of Enterprise Innovation AbilityJ.Scientific Research Management,2015(S1):122-126.6孔祥纬.基于支持向量机的我国家电企业创新能力评价指标体系研究 D.北京:北京交通大学,2009.KONG Xiangwei.Based on Support vector machine theStudy on Innovative Capacity Evaluation Index System ofHousehold Appliances Enterprises in China D.Beijing:Beijing

31、Jiaotong University,2009.7栗晓云.影响我国企业创新能力的若干创新政策的研究 D.北京:对外经济贸易大学,2020.LI Xiaoyun.Research on Serveral Innovation Policies Influencing the Enterprise Innovation Capability in ChinaD.Beijing:Foreign Economic and Trade University,2020.8Friedman J,Hastie T,Tibshirani R.Additive logistic regression:a sta

32、tistical view of boosting(with discussionand a rejoinder by the authors)J.The annals of Statistics,2000,28(2):337-407.9Pandey G,Chaudhary P,Gupta R,et al.SEIR and Regression Model based COVID-19 outbreak predictions inIndia J.ArXiv Preprint ArXiv:2004.00958,2020.10Quan Q,Hao Z,Xifeng H,et al.Researc

33、h on water temperature prediction based on improved support vector regression J.Neural Computing and Applications,2020:1-10.11Jiang L,Wang J,Jiang H,et al.Prediction model ofport throughput based on game theory and multimediaBayesian regression J.Multimedia Tools and Applications,2019,78(4):4397-441

34、6.12Dietterich T G.Ensemble learning J.The Handbook ofBrain Theory and Neural Networks,2002,2:110-125.13Zhou Z H.Ensemble methods:foundations and algorithms M.CRC Press,2012.14 Whittington J C R,Bogacz R.Theories of errorback-propagation in the brainJ.Trends in CognitiveSciences,2019,23(3):235-250.1

35、5Cortes C,Vapnik V.Support vector machineJ.Machine Learning,1995,20(3):273-297.16Freund Y.Boosting a weak learning algorithm by majorityJ.Information and Computation,1995,121(2):256-285.17Breiman L.Bagging predictorsJ.Machine Learning,1996,24(2):123-140.18Samadi S H,Ghobadian B,Nosrati M.Prediction

36、ofhigher heating value of biomass materials based on proximate analysis using gradient boosted regression treesmethod J.Energy Sources,Part A:Recovery,Utilization,and Environmental Effects,2021,43(6):672-681.19Pan Y,Chen S,Qiao F,et al.Estimation of real-drivingemissions for buses fueled with liquefied natural gasbased on gradient boosted regression treesJ.Scienceof the Total Environment,2019,660:741-750.20Deng L,Yang W,Liu H.Predprba:Prediction of protein-rna binding affinity using gradient boosted regression trees J.Frontiers in Genetics,2019,10:637.(上接第1690页)1701

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服