收藏 分销(赏)

PPP社会资本参与度预测研究:基于14038个项目的大数据分析.pdf

上传人:自信****多点 文档编号:885103 上传时间:2024-04-02 格式:PDF 页数:13 大小:9.10MB
下载 相关 举报
PPP社会资本参与度预测研究:基于14038个项目的大数据分析.pdf_第1页
第1页 / 共13页
PPP社会资本参与度预测研究:基于14038个项目的大数据分析.pdf_第2页
第2页 / 共13页
PPP社会资本参与度预测研究:基于14038个项目的大数据分析.pdf_第3页
第3页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、79PPP社会度预测研究科技与社会PPP社会资本参与度预测研究:基于140 38 个项目的大数据分析张经阳12,沈俊鑫,李晓颖,沈冰亮(1.昆明理工大学管理与经济学院,云南昆明650093;2.北部湾大学经济管理学院,广西西钦州535000)摘要:提升PPP社会资本参与度,对激发有效投资具有重要意义。考虑到影响社会资本参与PPP项目因素的多重复杂性,以CPPPC库140 38 个PPP项目为研究对象,选取项目本身、地方政府、市场环境、宏观经济四个维度6 1个特征变量,构建基于集成学习的PPP项目社会资本参与度预测模型,并探究不同特征组合对社会资本参与度预测性能的影响。实验结果表明:经蜻蜓算法完

2、成特征降维有效提升了模型预测准确性,ADASYN+XGBoost模型的预测性能最佳;从特征组合来看,项目本身、地方政府以及宏观经济三种特征组合下的预测性能优于其他特征组合,其中项目本身对社会资本参与PPP的影响最为显著,其次是地方政府,市场环境的加入反而会降低除项目本身外其他特征组合下的模型准确性。地方政府应重点从提高财政透明性、提升清廉程度、优化公私合作机制等方面吸引社会资本积极投资。关键词:政府与社会资本合作;社会资本参与度;集成学习;XGBoost;特征组合中图分类号:F840.612;F282文献标识码:A文章编号:10 0 5-0 56 6(2 0 2 3)0 6-0 0 7 9-1

3、3Research on PPP social capital participation prediction:Based on big data analysis of 14038 projectsZHANG Jingyang-2,SHEN Junxin,LI Xiaoying,SHEN Bingliang(1.Faculty of Management and Economics,Kunming University of Science and Technology,Kunming 650093,China;2.Faculty of Economics and Management,B

4、eiBu Gulf University,Qinzhou 535000,China)Abstract:Enhancing the participation of PPP social capital is of great significance to stimulate effective investment.Select 61 characteristic variables in four dimensions of the project itself,local government,market environment,andmacroeconomics,build a pr

5、ediction model of social capital PPP participation based on an ensemble learning algorithm,and explore the influence mechanism of different feature combinations on social capital participation in PPP.Theresearch results show that:1)Dragonfly algorithm effectively improving the accuracy of the predic

6、tion models withfeature dimensionality reduction.2)The prediction model based on ADASYN+XGBoost achieves the best performanceunder the combination of the characteristics of the project itself,local government and macroeconomics.3)Among them,the project itself has the most significant impact on socia

7、l capital participation in PPP,followed by local government;the收稿日期:2 0 2 3-0 1-0 5修回日期:2 0 2 3-0 6-0 6基金项目:国家自然科学基金项目(7 19 6 40 18);云南省省院省校合作项目(SYSX201911);云南产业发展研究项目(2 0 2 2 Z06)。作者简介:张经阳(19 6 9 一),男,贵州遵义人,博士,北部湾大学经济管理学院高级经济师,硕士生导师,研究方向为大数据应用。通信作者:沈俊鑫。80中国软科学2 0 2 3年第6 期addition of market environm

8、ent will reduce the accuracy of the model under other characteristic combinations except theproject itself;local governments should focus on attracting active investment from social capital by improving fiscaltransparency,improving integrity,and optimizing public-private cooperation mechanisms.Key w

9、ords:public-private partnership;social capital participation;ensemble learning;XGBoost;feature crosses随着城镇化的发展,社会公众对公共基础设施服务需求日益渐增,但承担公共基础设施建设融资功能的地方政府融资平台存在过度举债、融资渠道单一、运营效率偏低等问题 。在这一背景下,国家出台多项政策推广、规范公私合作模式(p u b l i c-p r i v a t e p a r t n e r s h i p,PPP),从而推进公共基础设施投资主体多元化,解决基础设施建设面临的资金短缺问题,推进我国

10、PPP高质量可持续发展 2 。但由于PPP本身具有的参与主体成分复杂、投资规模大、投资回收期长、盈利空间小以及投资风险大等特点 3-5】,使得社会资本尤其是民间资本参与PPP项目的积极性较弱,不少项目由于再融资难导致停工或提前终止,“落地率低”、有效投资不足、地方政府财政压力骤增、相关诉讼事件频发等问题也逐渐暴露 2 。虽然从总体看来,政府更有能力为私营部门参与公共基础设施发展创造有利环境,但PPP项目的成功实施极大地依赖于社会资本的参与 6-7 。社会资本股权占比反映了其参与PPP项目的积极性 。据财政部政府和社会资本合作中心(ChinaPublic-Private Partnership

11、Center,CPPPC)数据显示:在14038个PPP项目中,落地项目社会资本股权比例分布范围为50%10 0%,且股权比例超过8 0%的占多数,但存在行业、区域异质性(见图1)。通过构建基于集成学习的PPP社会资本参与度预测模型,达到对社会资本参与情况进行预测预警的目的,一方面可以将关注重点转移到社会资本参与度较低的项目上,提醒相关政府部门及时采取激励措施来提升社会资本的参与度,保证项目的顺利实施。另一方面可以根据可能出现的参与结果对PPP项目进行风险评估,把PPP项目建设过程中因社会资本参与不足导致的项目停工、终止等问题造成的公私双方的时间和成本损失最小化。为了实现这一目标,本文比较了3

12、种不同的集成学习模型来预测PPP项目中社会资本参与度的可能性。首先使用蜻蜓算法实现特征降维,然后应用ADASYN算法对社会资本参与度样本数据进行非平衡样本集处理,最后利用交叉验证和网格搜索的方式对比评估了RF(r a n d o mforest)、G BD T(g r a d i e n t b o o s t i n g d e c i s i o n t r e e)、XGBoost(extreme gradient boosting)3种模型的预测性能,并将项目本身、地方政府、市场环境、宏观经济四个维度的特征分成9 个特征组合,探究不同特征组合下模型的预测效果。605040%/13020

13、100市政交通生态城镇教育水利旅游政基林业医疗文化安居科技能源其他体育农业养老社保50%60%60%70%70%80%80%90%90%100%图1PPP各行业社会资本参股比例81PPP社度预测研究科技与社会一、文献综述及特征选取(一)文献综述如何引导社会资本积极参与PPP项目也成为国内外学者的研究重点:一方面,项目相关的合作机制是影响社会资本参与PPP项目的主要因素,项目期限、项目类别、付费方式、回报机制等均会对社会资本参与PPP项目产生影响 8 。另外,社会资本作为逐利主体,参与PPP的主要目标是实现利润最大化。因此,会着重考虑项目带来的收益。具体而言,PPP项目的盈利能力 9 包括投资回

14、报率 10 、合理利润率 1 以及激励机制 12 ,对于吸引社会资本参与PPP项目至关重要;合理的风险分配方式则能够实现项目管理过程中的风险最小化,实现利益共享,从而吸引社会资本投资11.3。其次,政府作为PP项目的发起人,其选择偏好 11,14、扶持 1,14 以及担保 15 政策、腐败程度 12,1-1 ,、政府级别 18 、相关PPP经验 9.12 、财政实力 19-2 0 、财政透明度 2 1、管理能力与公信力 2 2-2 3 等均会影响社会资本参与P项目的积极性。再次,宏观经济稳定性 12 以及经济发展水平 18,2 4 也是影响私人资本参与PPP项目的主要因素。一般来讲,经济发展欠

15、佳的地区对私人投资者的吸引力往往较低 19 ,但是随着宏观经济状况的改善,政府能够吸引更好的供应商和更多的融资 9 。最后,市场的存在则使得PPP有了更大的盈利的空间而吸引社会资本的投资 2 2 。就目前来看,学者多倾向于探究市场规模 9.12 、市场需求 2 4以及市场化程度 对社会资本参与PPP项目的促进作用。由于现有学者在探索影响社会资本参与PPP项目因素中主要使用计量经济学模型,其受限于数据维度的影响,且随着维度增加,会导致非参数估计的准确性下降,从而陷人维度灾难 2 5;传统的计量经济学模型主要用于因果推断无法实现有效预测,现有的社会资本参与度研究仍停留在影响因素分析阶段。大数据时代

16、,机器学习作为一种可靠的预测分析方法,广泛应用于管理、金融、医疗等领域。目前,机器学习在PPP领域中的应用仍处探索阶段:Owolabi 等 2 6 、Wan等 2 7 分别使用随机森林和支持向量机方法对PPP风险进行预测;Wang等 2 8 使用机器学习模型预测PPP项目的成败并确定导致PPP合同失败的因素;沈俊鑫等 2 基于集成LightCBM-Blending算法,对中国PPP项目可融资性进行评价,证明了机器学习方法可有效应用于不同行业PPP可融资性评估。随着机器学习技术的不断深人,传统的单一模型已经不能满足现有的预测需求,集成学习模型通过综合多个基学习器可以提升模型的泛化能力并达到最佳的

17、预测性能,越来越受研究者青睐。(二)特征选取PPP作为合作伙伴关系重要治理工具,涉及公共利益、国家责任以及管理、融资、效率、治理、技术等。提升社会资本参与PPP意愿,应基于PPP项目治理、公共治理及双边匹配理论。社会福利最大化视角下社会资本参与意愿受项目属性、付费模式、运作方式、项目结构等内部特征,以及宏观环境、市场化水平、公共财政以及政府治理能力等外部特征影响。本文将影响社会资本参与PPP项目的主要因素归纳为地方政府、宏观经济、市场环境、项目本身4个维度,其中前3个维度属于外部因素,具体特征如表1所示。除表1中显示的特征指标以外,本文从CPPPC项目库中爬取了PPP项目相关信息,基于项目数据

18、的完整性最终选取的项目本身因素如表2 所示。表1和表2 中的“*”均表示构造特征,其中类别型变量的构造方法包括:行业壁垒参照冯净冰等 1的方法,根据PPP项目所处行业划分为低壁垒以及高壁垒行业,如市政工程属于高壁垒行业,旅游、养老属于低壁垒行业;政府级别根据PPP项目发起的政府单位,划分为省级、市级、县级3个等级,涵盖31省(自治区、直辖市)、346 个地市、2286个县区,宏观经济、人口规模、地方政府为项目所在县区数据,其他市场环境为项目所在地市数据;地区经济水平参照中国区域经济高质量发展研究报告,根据PPP项目所在省份划分为要素缺乏、中低质量、中等质量、中高质量、高质量5个经82中国软科学

19、2 0 2 3年第6 期表1PPP项目外部因素所属特征名称特征解释GDP地区生产总值 9,12,2 8 GDPGrowthVolatility近5年GDP增速的标准差PerCapitaCDP人均 GDP1,8-9,18-20,24PPI生产者价格指数CPI消费者价格指数 2 1RPI宏观经济零售物价指数生产者价格指数近5年浮动的标PPIGrowthVolatility准差消费者价格指数近5年浮动的标CPIGrowthVolatility准差零售物价指数近5年浮动的标RPIGrowthVolatility准差PerCapitalncome居民人均可支配收人PerCapitaExpenditure

20、居民人均消费支出ecnoDivision地区经济水平Population人口规模:潜在消费需求 9,2 4,2 9 MarketizationProcess市场化进程相对指数 1,17,2 9 市场环境GovernmentMarket政府与市场关系指数 1,17,2 9 RelationshipNonStateOwnedEconomy非国有经济发展指数 1,17,2 9 ProductMarket产品市场指数 1.17,2 9 FactorMarket要素市场指数 1,17,2 9 GeneralPublic一般公共预算收入:财政实力 1,19 BudgetRevenueGeneralPubl

21、icBudget一般公共预算支出 1ExpenditureFinancialTransparency财政透明性 2 1Corruption腐败程度 12,16-17 GovConsumExpenditure地方政府政府消费支出 2 4政府对基础设施建设的支持GovSupport力度 12,2 4LocalGovernmentDebtBalance地方政府债务余额 9 FiscalSelfFinancing财政自给率 2 0 DeficitRatio赤字率 12 LiabilityRate负债率 9 govLevel*政府级别 19 projExperience政府PPP项目经验 9,12 济级

22、别。数值型变量的构造方法包括:审批耗时表示从项目发起到本级政府财政承受能力审核通过所隔天数;社会资本招募耗时表示项目本级政府批准拟签署的PPP合同与项目发起时间所隔天数;政府PPP项目经验表示项目发起单位之前负责的PPP项目个数;所耗时间与所处阶段比例表示项目从发起至今耗费天数与项目目前所处阶段的比值;合同透明性由CPPPC项目库中项目必填信息完整程度以及非必填信息完整程度按照8:2的比例计算得出,二、数据来源及预处理(一)数据来源及特征分析CPPPC项目管理库收录了我国所有通过物有所值评价和财政承受能力论证的PPP项目,并按要求公开了相关项目信息,为研究PPP项目提供了数据源。本文采用爬虫技

23、术获取CPPPC项目库中的项目相关信息,基于数据完整性原则选取了20132022年140 38 个项目作为研究对象,宏观经济、市场环境、地方政府相关特征数据来源于万德数据库、统计年鉴、政府工作报告以及中国分省份市场化指数报告中国市级政府财政透明度研究报告等。研究发现,项目数据的特征表现如下。1.标签离散化本文依据冯净冰等 1的方法,采用注册资本中社会资本的占比,即股权占比衡量PPP项目中表2 PPP项目本身因素特征名称特征解释特征类型特征名称特征解释特征类型investCount项目总投资 项目规模数值型industryRequiredName所属行业类别型capitalProject资本金数

24、值型cooperationTerm合作期限数值型socaillnvestAmount社会资本总投资数值型operateMode运作方式类别型userPayAmt使用者付费收入数值型returnMode回报机制类别型capitalRecepits资本性收益数值型socialPurchaseWay采购方式类别型discountlnputPay政府配套投人现值数值型tradeBarriers*行业壁垒类别型discountRiskPay政府自留风险现值数值型geogDivision*所属地理区域类别型discountOperationSubsidy政府运营补贴现值数值型timelnterval*项目

25、耗时与所处阶段比例数值型beforeTaxIRR全投资税前内部收益率数值型evalRate物有所值指数数值型afterTaxIRR全投资税后内部收益率数值型socialBearRiskCount社会资本承担风险种类数值型discntRate折现率数值型SocIRR社会资本收益率数值型transferRiskCost社会资本承担风险现值数值型cnaValue竞争性中立调整值现值数值型vfmValue物有所值现值数值型approvalTime审批耗时数值型netProfit净利润现值数值型capitalRecruitmentTime社会资本招募耗时数值型constructionInterest建设

26、期利息现值数值型projStatus所处阶段类别型projRiskCost项目风险现值数值型contrTransparency*合同透明性数值型83PPP社度预测研究科技与社会社会资本的参与情况,其中财政部财金 2 0 14 156号关于规范政府和社会资本合作合同管理工作的通知的PPP合同指南中明确规定,政府的持股比例应当低于50%,故社会资本的实际股权范围为50%10 0%。社会资本在PPP项目中股权占比呈离散化分布,本文根据先验经验将标签值以股权8 0%为界限划分为两个区间,其中社会资本股权占比高于8 0%的项目标记为社会资本具有高参与度,社会资本股权占比低于8 0%的项目标记为非高参与度

27、。2.数据噪声大在国家政策的支持下,大量项目分批进人CPPPC管理项目库中,由于项目开始时间不同,导致项目信息完整性参差不齐,存在关键特征数据缺失等情况;人为向PPP管理项目库中输人数据,存在一定的输人错误,造成了数据异常的情况;不同特征数据的尺度相差大,在分类过程中会影响模型收敛速度以及准确性。为了消除噪声信息,需要对数据进行相关处理。(二)数据预处理1.异常值检测异常数据的存在不利于观察实验对象的变化规律,并对结果分析造成一定干扰,对异常值进行检测与处理可以保证原始数据的可靠性,提高模型准确性。基于明树数据关于PPP项目投资回报率的统计结果,本文首先剔除全投资税前内部收益率(afterTa

28、xIRR)、全投资税后内部收益率(b e f o r e T a x IRR)、社会资本收益率(socIRR)、折现率(discntRate)4列中小于等于0 或大于等于15的值,然后利用箱型图检测保留数据的异常状态,最终的检测与处理结果如图2 所示;对于物有所值指数(evalRate)则保留0 10 0 范围内的值。另外,根据国发 2 0 19 2 6 号国务院关于加强固定资产投资项目资本金管理的通知所示PPP项目最低资本金比例为2 0%,且项目资本金经验值维持在50%以内,故资本金(capitalProject)范围设置在项目总投资的2 0%50%;其余与PPP项目投人以及花费金额相关特征

29、属性需保证值大于等于0,并且最大值不能超过项目总投资50%。2.缺失值填充不同特征列的缺失值需要采用不同的方法,相关数据缺失情况如图3所示。具体来讲,beforeTaxIRR、a f t e r T a x IRR与soc IRR通过所属行业以及项目规模等字段填充均值;transferRiskCost、discountRiskPay先按照项目类型分类,采用不同项目类型中相关风险占项目投资比例的众数计算并填补缺失值;constructionInterest根据项目运营方式的不同,将不存在建设期的项目填充为0,其他缺失值利用项目运营方式、项目类型、项目规模等字段填充均值;discountOpera

30、tionSubsidy根据项目回报方式不同,将回报方式为使用者付费的项目填充为0,其他缺失值根据不同的回报方式按照项目规模填充均值;discntRate根据项目类型所属区域以及发起时间填充均值;cnaValue填补方法与风险类字段相同;capitalRecepits列利用均值填充。14141014-10-8-10129-1212-127-1088-10-8-10-10-6-78-86-8-8-65-6-66-66-5-4-4-4-44一444-3-2-2-2-2-213-2-21111afterTaxIRR(a)afterTaxIRR(b)beforeTaxiRR(a)beforeTaxiRR

31、(b)SocIRR(a)SOcIRR(b)discntRate(a)discntRate(b)图2箱图异常值检测与处理84中国软科学2 0 2 3年第6 期21-18.4617.9218.17.32151514.49%/早1211.1510.8498.63630.50.060SOCIRRafterTaxiRRdiscntRatecnavaluebeforeTaxiRRdiscountRiskPaytransferRiskCostcapitalRecepitsconstructioninterestdiscountoperationSubsidy图3数据缺失占比3.类别型变量具体的类别型变量的数

32、据描述如表3所示,不同类别型变量编码依据如下:项目所处阶段、行业壁垒、政府级别、地区经济水平均为有序变量,故依据变量值的顺序使用序列填充的形式编码。财政部相关文件将PPP运作方式分为委托运营(O M)、管理合同(MC)、转让一运营一移交(T O T)、改建一运营一移交(ROT)、建设一运营一移交(BOT)和建设一拥有一运营(BOO)等6 种。本文考虑到PPP模式应用的复杂性将其重新归纳为三大类,即外包类、特许经营类、私有化类。相关研究发现随着私有化程度的增高,地方政府让渡给社会资本的权利就越大,项目对于社会资本的吸引力也逐渐增加 30 。因此,项目运作方式根据私有化程度使用序列填充的形式编码,

33、私有化程度越高,编码越大。袁竞峰等 31 分析了不同回报机制下社会风险爆发情况,认为使用者付费、可行性缺口补助、政府付费三种机制下社会风险等级会依此降低。对于社会资本来讲,风险等级越低越容易获取稳健的投资回报,从而激发其投资积极性。因此,回报机制根据社会风险等级进行编码,社会风险等级越高,编码越小。财政部发布的财库【2 0 14】2 15号政策和社会资本合作项目政府采购管理办法中明确规定PPP项目采购方式包括公开招标、邀请招标、竞争性谈判、竞争性商和单一来源采购。其中公开招标的对投标人的要求相对宽松;邀请招标由于采购项目的特殊性,虽然中标率高但投资效益不佳;竞争性谈判和竞争性商对于投标人的具体

34、要求和适用范围相似;单一来源采购是为应对紧急情况而采用的采购方式,由于涉及金额巨大一般不采用此种方式。因此,采购方式按照社会资本进入PPP项目的难度:单一来源采购 邀请招标 竞争性谈判=竞争性商采购方式 公开招标的顺序进行编码,其中,公开招标占比高于2/3,且5种采购方式的公开透明性存在逐渐上升趋势,透明性低的采购方式更容易发生违法违规操作 32 ,因此编码就越小。所属地理区域以及所属行业的取值不存在先后优先级关系,因此使用one-hot编码处理。表3类别变量数据描述变量变量值频数百分比/%编码准备阶段2455.291projStatus采购阶段104222.492(项目所处阶段)执行阶段33

35、4672.223tradeBarriers低壁垒76016.41(行业壁垒)高壁垒387383.62县级357477.141govLevel市级97721.092(政府级别)省级821.773要素缺乏区96920.920中低质量区3968.551ecnoDivision中等质量区166936.022(地区经济水平)中高质量区105422.753高质量区54511.764其他4148.940operateMode外包类40.091(运作方式)特许经营类417290.052私有化类430.933使用者付费1713.691returnMode可行性缺口补助300864.932(回报机制)政府付费14

36、5431.383单一来源采购400.861socialPurchaseWay邀请招标120.262(采购方式)竞争性商、竞争性谈判68714.833公开招标389484.0544.数据标准化由于数据集中各特征的单位尺度相差较大,在分类过程中,高数值水平的特征可能会削弱低数值水平特征的作用,从而降低模型精度。因此,为了保证模型预测结果的可靠性,需要消除各特征之间因数量级不同造成的影响。数据的标准化处理通过将数据按比例缩放当一定的区间,可以把原始数据转化为无量纲、无数量级差异的标准化数值,达到去除数据单位限制的目的。本研究采用标准分数(Z-score)来标准化原始数据,标准化后的数据符合标准正态分

37、布,Z-score的计算公式如下:85PPP社会度预测研究科技与社会x=(1)式中,为所有样本数据的均值;为所有样本数据的标准差。三、模型构建与结果分析(一)模型构建流程PPP社会资本参与度大数据预测模型构建流程如图4所示,共分为4个模块:数据采集、数据处理、模型构建与模型评估与结果分析。1.数据采集分为项目外部因素数据以及项目本身因素两个部分,将项目外部因素数据根据PPP项目发起年份的滞前一期以及所处地区与项目本身因素匹配整合成完整的数据集合。2.数据处理包括标签、异常值、缺失值、类别变量以及数据标准化处理,同时还根据文献以及相关经验构造了少量特征列,例如审批耗时、合同透明性、政府的PPP经

38、验等。3.模型构建中首先使用蜻蜓算法实现特征选择,然后使用ADASYN算法处理非平衡样本集问题以提升模型性能,最后利用交叉验证和网格搜索的方式选择最优参数下的最佳模型。4.模型评估与结果分析通过对比相同特征不同模型以及相同模型不同特征的预测结果,选出最佳性能模型下的最优特征组合。数据采集数据处理模型构建模型评估与结果分析DA特征降维处理异常值检测与处理模型对比评估与分析数据标准化处理CPPPC项目缺失值处理特征构造库ADASYN非平衡样本集处理评估指标:AUC、数据集ACC,F1-score、合统计年鉴、政Specificity、G-m e a n府工作报告、RF、G BD T、XG Bo o

39、 St研究报告特征对比评估与分析网格搜索、交叉验证图4预测模型(二)DA特征降维蜻蜓算法(dragonfly algorithm,DA)是由Mirjalili在2 0 16 年提出,具有结构简单、易于实现且鲁棒性强的特点,主要用于解决小样本、高维度、不平衡的数据预测问题 33。此算法借鉴蜻蜓群体静态群体和动态群体两种行为模式,在静态群体中,蜻蜓会分为几个不同的子群体在不同区域中搜寻食物,对应着群智能算法中的全局搜索;动态群体中,群体则会聚集成一个大群体沿着一个方向迁,对应着群智能算法中的局部开发。影响社会资本参与PPP意愿包括6 1个特征,需要进行特征降维,具体步骤如下。1.对于给定特征集F=

40、fi,f2,fn,N为特征数量,则特征子集为S=s1,s2,,s,,其中s;=0,1,i=1,2,n,,s;=0 表示第i个特征J不被选择,反之则被选择。2.创建初始化蜻蜓种群数量X,,其中i=1,2,n,X为步长向量,X为位置向量,初始化个体单位步长X;。X+1=(s S,+a A,+c C;+f F,+e E,)+w X,(2)式中,w、s、a、c f 分别为五种行为权重,为惯性权重;S、A,、C、F、E;分别蜻蜓的避撞、结队、聚集、觅食和避敌行为向量,t为当前的迭代次数,X,为当前t代种群的位置。3.计算转换函数并更新蜻蜓个体位置。当有邻近蜻蜓时X+1=X,+Xt+1;当周围无邻近蜻蜓时

41、,蜻蜓采用随机游走策略:X,+1=X,+Leuy(d)X,。式中,4X1为t+1代位置更新步长,Xt+1为t+1代种群的位置;d为位置向量维数,Leuy为设定的飞行函数(三)ADASYN非平衡数据处理采样优化作为解决非平衡数据集问题有效方法之一,通过不同的抽样方式调整数据集样本分布以实现样本集平衡,主要包括过采样或欠采样。ADASYN是一种不平衡学习的自适应综合采样方法 34】,通过引人密度分布函数I,计算每个少数86中国软科学2 0 2 3年第6 期类样本需要生成的新样本数量,然后再利用SMOTE算法合成新样本。具体而言,社会资本非高参与度类样本数据的合成步骤如下。1.计算样本数据的不平衡度

42、d:d=Smin/S,(3)minmaj式中,d(,1,Smi n 为社会资本非高参与度类样本总量,Smaji为社会资本高参与度类样本总量。2.计算需要合成的社会资本非高参与度类样本数量G:G=(Smaj-Smin)(4)式中,E0,1;当=1时,合成数据后的社会资本非高参与度样本和高参与度样本数量达到平衡。3.计算每个社会资本非高参与度类样本x;需要生成的样本数量g;:4./Kg;=I,G,T;=(5)Z式中,为x;样本的K个近邻中多数类样本的数量,Z为规范化因子。4.利用SMOTE算法合成新的社会资本非高参与度类样本:在每个待合成的社会资本非高参与度类样本x;的K个近邻中随机选取若干样本,

43、对于每一个选中的样x,在;、;之间的连线上随机选一点作为新合成的社会资本非高参与度类样本,样本,的合成公式为:xj=x;+rand(0,1)|x;-x,l(6)(四)集成学习模型集成学习模型通过将多个单一机器学习算法集成融合的方式,可以有效地降低单一模型的偏差和方差,从而使模型在准确度、泛化能力、鲁棒性等方面得到优化。其中,Bagging和Boosting是两种常见的集成学习方法。在Bagging方法中,使用随机抽样的方法获取到多个相互独立的训练集,每个训练集并行的训练模型,各基学习器之间互不干扰且具有相同权重,可以有效降低方差,代表算法随机森林。在Boosting方法中,各基学习器采用同一个

44、训练集,通过串行训练的方式使得新生成的基学习器都用来修正上一轮训练中的误差,各基学习器通过其分类误差来分配权重。这种方法通过迭代的方式可以降低模型偏差,代表算法CBDT。因此为了更好地对比两种集成方法,本文分别选取了其代表算法进行研究,另外XGBoost在GBDT的基础上引人了正则化和特征子采样,在降低模型偏差的基础上可以防止模型过拟合,达到降低方差的目的。1.RFRF是一种Bagging集成学习算法,在分类问题中通过投票的方式统计训练的K棵决策树的预测结果作为最终的结果。通过引人两个“随机性”“随机选择样本集”和“随机抽取特征子集”,以防止模型陷人过拟合状态,提升模型抗噪能力。单棵决策树的生

45、长机制为:对于给定的社会资本参与度训练集样本N,利用自助法重采样技术从训练集中抽取N个样本作为每颗决策树的训练样本;对于每个社会资本参与度样本拥有的M个属性,在决策树的节点需要分裂时,从M个属性里随机选取m个属性,且mM,然后从这m个属性里使用信息增益策略选择最优属性进行分裂;每棵树都按照步骤进行分裂,直到该节点到达叶子节点时分裂结束,整个分裂过程无需剪枝。重复上述决策树的成长过程直至建立起K棵决策树,可以得到如下的分类决策:KH(x)=arg max)ZIh(x)=y)(6)k=1式中,h,表示第k棵决策树,Ih()=y为示性函数,当h()=y为真时I()=1,为假时I()=0。2.GBDT

46、GBDT作为一种以决策树为基分类器的Boosting模型,通过多轮迭代降低残差来提高最终分类器的精度,要建立社会资本参与度的GBDT预测模型,首先要初始化学习器,对于第一颗分类决策树F。()。其初始化规则为:F(x)=log-P(=11 X)P(y=1 I X)(7)式中,P(y=1IX)表示对于给定的训练集X中,社会资本高参与度所占的比例。然后进行迭代优化,即通过使用梯度提升方87PPP社会参与度预测研究科技与社会法分析残差来拟合模型,在第k次迭代中(共迭代K次),对于每一个样本,其损失值的负梯度(残差估计值)计算公式为:aL(y;,F(x;)=y;-F(x,)(8)aF(x)在确定了残差估

47、计值之后,利用CART回归树拟合数据,则第k课树对应叶子区域Rk,的最佳拟合值计算公式为:Tk,XERCk.j(9)Z(y.-n.)(1-y:+r.)X.ER式中,j=1,2,Jk,J表示第k课决策树的叶子节点个数。经过送代优化后的学习器可以表示为:JFk(x)=Fk-I(x)+Ch.jn(10)i=1式中,为学习率。最终可以得到基于GBDT的社会资本参与度预测模型:KJFk()=Fo(x)+Ch.jn(11)kj=13.XGBoostXGBoost是一种Boosting集成学习算法,基本思想是通过不断地进行特征分裂来生成树,利用每轮中学习的新树,去拟合上一轮模型预测值与实际值之间的残差,通过

48、迭代上述过程对目标函数进行优化。在给定的社会资本参与度数据集中,对于第t棵树,f(x)为第t棵树的预测结果,则第i个社会资本参与度样本x;的预测参与度为(t)yi2f(x)=j(-1)+f(x.)(12)k=1社会资本参与度模型训练的目标函数为:0bj()(yi,y.)+Q(fi),whereQ2(f)=YT+(13)2正则项Q(f)中Y,入表示惩罚系数,T表示给定一颗树的叶节点数,表示每颗树叶子节点上的输出分数的平方,(f)主要是用来控制决策树的复杂度,有利于防止过拟合,从而提高模型的泛化能力。(五)结果与讨论本文分为两个阶段测量和验证预测模型的评估效果。第一阶段,对比多种模型的预测结果,选

49、出性能最佳的模型;第二阶段,验证多种特征组合下的模型最佳预测效果,获取最优的特征组合。1.模型对比评估对于不同的模型均使用网格搜索(GridSearchCV)实现自动化调参以确定最优参数(见表4),并采用以下5项评价指标评估模型性能:准确率(ACC)、特异度(Specificity)、F1-s c o r e、G-me a n、和AUC值,性能对比结果如表5所示。表4算法参数设置RFGBDTXGBoost参数名参数值参数名参数值参数名参数值n_estimators107learning_rate0.19leaning_rate0.1max_depth7n_estimators50n_estim

50、ators420max_features12max_depth14max_depth5min_samples_leaf6min_samples_split15min_child_weight2min_samples_split60subsample0.9subsample1表5各分类模型性能对比算法名称ACCSpecificityF1-scoreG-meanRF0.86630.10.927 20.316 2CBDT0.85640.30.91880.5348XGBoost0.85640.266 70.919 20.5058ADASYN+RF0.865 10.840.90.864 70.8655A

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服