基于高维变量选择的中国人口增长影响因素研究.pdf

资源描述

1、人口统计统计理论与实践基于高维变量选择的中国人口增长影响因素研究杨双双王亮李兴平（云南师范大学数学学院，云南昆明6 5 0 5 0 0)摘要：影响我国人口增长的因素是社会关注的焦点。运用相似性分析方法、灰色关联分析方法、随机森林方法、正则化方法和集成方法，对政治、经济、文化、社会、生态和人口层面下影响人口增长的92 个因素进行筛选。将各方法选出的变量输入机器学习模型KNN、R F、SV R 和MLP中，依据模型性能指标综合评估得到较优的变量选择方法，并形成几种较优的变量选择方案。最后，用每种变量选择方案下选出的变量建立多元线性回归模型，选出统计意义和理论意义上较好的模型进行预测分析。实证结果表

2、明：(1)置换重要性和距离相关系数的变量选择效果较好；(2)就业问题是导致我国人口出生率下降的核心因素。关键词：人口增长；就业；高维变量选择中图分类号：C924.2D01:10.13999/ki.tillysj.2023.09.006一、引言人口问题是国家的全局性、长期性、战略性问题，关乎民生大计、发展大局以及国家和民族前途命运。近年来我国人口出生率持续下降，人口增长数量不断减少，出现人口负增长。国家统计局数据显示，2 0 2 0 年我国人口出生率为8.5 2%o，人口自然增长率为1.45%o，人口净增长2 0 4万人；2 0 2 1年人口出生率下降到7.5 2%o，人口自然增长率下降到0.3

3、4%o，人口净增长48 万人，有11个省（区、市）的人口出现了负增长；2 0 2 2 年人口出生率降到6.7 7%o，人口自然增长率降到-0.6 0%o，人口净增长-8 5 万人。人口长期负增长会造成内需不足、经济增长乏力、社会老龄化等一系列问题，给经济社会发展带来很多危害。因此，呕须对引发人口增长持续下降的因素进行全面、系统挖掘，在此基础上对人口增长进行合理规划。影响人口增长的因素众多,各因素之间关系错综复杂。随着信息技术的快速发展，数据的采集、存储和处理能力不断提高,影响人口增长的因素数据呈现“高维小样本”特性。当从高维小样本变量数据中选择出分辨力较好的变量时，普通变量选择方法需消耗高昂的

4、时间成本，有时其结果并不佳，而高维变量选择方作者简介：杨双双（1998 一），女，云南呈贡人，硕士，研究方向为社会经济统计；王亮（198 3一），男，陕西西安人，博士，教授，研究方向为可靠性分析；李兴平（197 6 一），男，云南昆明人，博士，副教授，研究方向为统计模型推断。文献标识码：A经济、消费、就业、教育、收人、通信7 类指标共5 3个因素，用相关性检验和格兰杰因果检验，挖掘出教育、经济、人口是影响北京市人口增长的主要因素。刘丽萍(2 0 18)选择经济、人口层面下的7 个变量，用LASSO分析得出GDP、人均薪酬和少儿抚养比与出生率正相关的结论。张夏雨（2 0 2 1)3选取经济、社会

5、、人口层面下的16 个变量，用LASSO、MCP、SCA D、自适应LASSO分析，发现教育、抚养负担和婚姻对出生率影响较大。李华炯和尹喆轩等(2 0 2 2)4通过灰色关联分析，从8 6个因素中选出43个与出生率强相关的因素,采用回归分析法，得出养老保险、储蓄率、性别比等因素对出生率影响较大的结论。郭良(2 0 2 2)5 选取经济、社会维度下与出生率相关的因素，建立线性回归模型，得出GDP、人均支配收人与湖北省人口出生率正相关的结论。只采用一种或一个系列的高维变量选择方法对2023年第9 期（总第5 33期）文章编号：2 0 96-8 6 47(2 0 2 3)0 9-0 0 39-0 5

6、法可以快速从海量数据中选择出分辨力较好的变量。现阶段采用高维变量选择挖掘人口增长影响因素的文献较少，运用相关性分析、因果检验、正则化方法和灰色关联分析方法等对我国人口增长影响因素进行分析的相对较多。沈巍和武鑫（2 0 13)选择人口、39人口统计STATISTICALTHEORYANDPRACTICE人口增长的影响因素进行研究，不能合理评估各方法的变量选择效果。因此，本文首先运用多种高维变量选择方法对我国人口增长影响因素进行系统、全面挖掘，接着对挖掘出的重要影响因素进行定量分析，得到最终的变量选择结果，对改善当前严峻的生育形势具有重要的现实意义，对今后选择合适的高维变量方案以及解决类似问题，具

7、有借鉴意义。二、人口增长影响因素实证分析当高维数据的自变量相关性较高时，会导致难以抓住重点、费时费力，还可能造成后续建模过拟合等问题。因此,对于高维数据，通常需要对数据进行处理,筛选出重要且独立性好的自变量。基于此,对我国人口增长具有重要影响的因素，应该是独立性较好且具有显著重要性。本文变量选择的主要思路是将高维人口增长影响因素降至低维人口增长影响因素，并使用线性回归模型定量分析低维人口增长影响因素，得到最终变量选择结果。其分析步骤为：首先,运用Pearson相关系数、Spearman相关系数、距离相关系数、灰色关联度、最小深度、根节点的分裂频次、置换重要性、节点纯度增加的重要性、岭回归、LA

8、SSO、弹性网络回归、ALASSO、SC A D、MC P和集成方法对人口增长影响因素进行重要性排序。其次，选取各方法下重要性较大的变量过滤掉余变量。再次，将各方法选出的变量输人主流机器学习模型KNN、R F、SV R 和MLP中，依据回归模型性能指标的平均值,综合评估各方法的变量选择效果，形成几种较优的变量选择方案。最后，用一级指标政治(1)政策规定：生育政策。(1)国民经济：国民总收入、国内生产总值、人均国内生产总值、第一产业增加值、第二产业增加值、第三产业增加值；(2)财政收支：一般公共预算收人、一般公共预算支出；(3)国际汇率：人民币对美元汇率、人民币经济对欧元汇率；（4)缴税纳税：个

9、人所得税；（5)消费价格：商品零售价格指数、居民消费水平、居民消费价格指数；(6)居民收支：城镇单位就业人员平均工资、居民人均可支配收人、居民人均可支配支出；(7)贫富差距：基尼系数；（8)住房价格：商品房平均销售价格。(1)文化文物：文化文物机构数、文化文物从业人数；(2)群众文化：群众文化服务业机构数、群众文化服务文化业从业人数；(3)影视传播：有线广播电视用户数、数字电视用户数；（4)图书出版：出版印刷企业数。（1)医疗水平：医疗卫生机构数、每千人口卫生技术人员数、医疗卫生机构床位数、卫生总费用、甲乙类法定报告传染病发病率、甲乙类法定报告传染病死亡率、新生儿死亡率、婴儿死亡率、5 岁以下

10、儿童死亡率、孕产妇死亡率；(2)科技水平：软件业务收入、R&D经费支出、科技成果登记数、高新技术产品进出口额；(3)教育水平：文盲人口占15 岁及以上人口的比重、普通高校本专科招生数、普通高等学校数、每十万人口中高等社会教育在校学生人数；(4)就业水平：就业人员数、城镇登记失业人数、城镇登记失业率；(5)生活水平：恩格尔系数、国内旅游人均花费、贫困人口数量；(6)治安水平：刑事罪犯总数；(7)保障水平：社会保险收人、社会保险支出、年末参加基本养老保险人数、年末参加失业保险人数、年末参加基本医疗保险人数、年末参加工伤保险人数、年末参加生育保险人数；（8)交通水平：客运量、私人汽车拥有量；(9)通

11、信业务：电话普及率、互联网域名数、邮政业务总量。402023年第9 期（总第5 3 3 期）每种变量选择方案下选出的变量建立多元线性回归模型，挑选性能较好的模型做预测分析。(一)样本区间及数据说明1.样本区间研究影响我国人口增长的因素时，选取2 0 10 一2020年全国人口的相关数据。数据主要来源于20102020年的中国统计年鉴，以及2 0 10 年第六次全国人口普查和2 0 2 0 年第七次全国人口普查。2.变量选取(1)因变量数据显示，2 0 10 一2 0 2 0 年我国人口死亡率在7.04%一7.14%之间，保持在相对平稳的水平。一个国家或地区的人口自然增长率等于人口出生率减去人口

12、死亡率。当人口死亡率相对平稳时，人口自然增长率和人口出生率的趋势线非常相似，几乎平行,因此研究影响我国人口增长的因素时，选用人口出生率和人口自然增长率作为因变量，效果相差不大。鉴于现在“低生育”话题较热，本文选择人口出生率(Y)作为因变量，来衡量我国的人口增长和出生情况。(2)自变量影响我国人口增长的因素错综复杂，人口增长与政治、经济、文化、社会、生态和人口自身等方面息息相关。通过查阅相关文献，参考变量一级、二级、三级指标的归类，结合数据的可获取性、代表性和简洁性等原则，从政治、经济、文化、社会、生态和人口自身等层面分别展开变量选取,并依次命名为X(i=1,2，92）,具体指标选取见表1。表1

13、变量选取二级指标、三级指标人口统计统计理论与实践(续表)一级指标(1)地质灾害：地质灾害数量；(2)地震灾害：地震灾害次数；(3)水资源量：水资源总量；(4)森林资源：森林覆生态盖率；(5)耕地情况：耕地面积；(6)污染排放：突发环境事件次数、工业污染治理投资；(6)气候情况：年平均气温、年平均降水量。(1)性别比例：男女性别比；(2)负担水平：总抚养比、少儿抚养比、老年抚养比；(3)育龄妇女：15-49岁育龄妇女数量、2 0-34岁育龄妇女数量；（4)流动人口：人户分离人口、流动人口数；（5)生育意愿：节育手术总数、放人口置节育器数、取出节育器数、输精管结扎数、输卵管结扎数、人工流产数；（6

14、)城镇化率：城镇化率、城乡人口比；(7)婚姻情况：结婚登记数、离婚登记数、粗离婚率。(二)变量选择的实证分析1.变量重要性排序分别使用Pearson相关系数、Spearman相关系数、距离相关系数、灰色关联度、最小深度、根节点的分裂频次、置换重要性、节点纯度增加的重要性、岭回归、LASSO、弹性网络、自适应LASSO、SCA D 和MCP等方法，对92 个自变量，按与因变量的重要性进行排序，得出各方法排名前2 0 的变量。由于最小深度、根节点的分裂频次、LASSO、弹性变量选择方法Pearson 相关系数Spearman 相关系数距离相关系数灰色关联度置换重要性节点纯度增加的重要性岭回归集成方

15、法3.变量选择方法对比分别将各方法下选出的10 个自变量与因变量送人机器学习回归模型KNN、R F、SV R 和MLP中，根据Pearson相关系数Spearman 相关系数距离相关系数灰色关联度置换重要性节点纯度增加的重要性岭回归集成方法从表3可以发现，以MAE指标来说，节点纯度增加的重要性变量选择效果最好；从MSE、R MSE 和R?指标来说，置换重要性的变量选择效果较好；从MAPE指标来说，集成方法的变量选择效果较好；综合说，置换重要性、节点纯度增加的重要性、集成方法、距离相关系数的变量选择效果较好。二级指标、三级指标网络、自适应LASSO、SCA D 和MCP选出的变量有限，因此只用置

16、换重要性、节点纯度增加的重要性、Pearson相关系数、Spearman相关系数、距离相关系数、灰色关联度、岭回归构建的集成式变量选择方法，同样得到排名前2 0 的变量。2.余变量过滤对各方法下排名前2 0 的变量进行余变量过滤，各方法剩余的10 个自变量见表2。表2 各变量选择方法选出的10 个变量选出的变量X46、X 0 0、X 7 6、X 6 4、X 43、X 7 s、X 33、X s 2 X 5 4X 5 7X79、X 0 0 X 46 X 7 0 X 6 0 X 7 6、X 10 X 2 8、X 7 8、X 6 4X46、X 33、X 43、X o 0 X 7%、X 40 X 2 0

17、、X 39、X 41、X s 7X42、X o 0、X 7 9、X 7 8、X 2 3、X 46、X 32、X 7 4、X 2 7、X 2 8X79、X 5 2、X 6 5、X 0 X 46、X g 9、X 5 7、X 10、X 7 8、X 33X46、X 7 9、X 90、X 33、X 37、X 6 s、X 8 2、X 2 8、X 6 1、X 7 0X46、X 2 3、X 0 0 X 7 6 X 6 6 X 42、X 2 5 X 8 4、X 10 X 7 1X46、X 0 0 X 7 9 X%、X 43 X s 2 X 7 s 、X 33 X 42 X 104个回归模型预测性能指标的平均值综

18、合评估各方法的变量选择效果。表3各方法的变量选择效果综合排名MAEMSE0.84490.99250.82480.97620.79310.91690.94981.27230.72020.84080.71360.84931.02711.57900.78620.9503RMSE0.91280.90950.87701.01100.83160.83641.14520.8887(三)影响因素的定量分析1.几种较优的变量选择方案由上可知置换重要性、节点纯度增加的重要性、距离相关系数和集成方法的变量选择效果较好，用其构建出15 种变量选择方案，具体见表4。2023年第9期（总第5 33期）R20.60670.

19、64950.60260.67410.68890.65910.67360.6419MAPE0.16160.17150.16640.18270.15970.15550.18400.1393综合排名65471283.41人口统计表4几种较优变量选择方案下选出的变量STATISTICALTHEORYANDPRACTICE序号1置换重要性2节点纯度增加的重要性3距离相关系数4集成方法5（置换重要性，节点纯度增加的重要性）6（置换重要性，距离相关系数）7（置换重要性，集成方法）8（节点纯度增加的重要性，距离相关系数）9（节点纯度增加的重要性，集成方法）10（距离相关系数，集成方法）11（置换重要性，节点纯

20、度增加的重要性，距离相关系数）12（置换重要性，节点纯度增加的重要性，集成方法）13（置换重要性，距离相关系数，集成方法）14(节点纯度增加的重要性，距离相关系数，集成方法）15（置换重要性，节点纯度增加的重要性，距离相关系数，集成方法）15种较优的变量选择方案中有5 种方案选出变量为Xo、X 4和X3，即结婚登记数、就业人员数，以及甲、乙类法定报告传染病死亡率对我国人口增长影响较大；从其所属的二级指标看，婚姻情况、就业水平和医疗水平对我国人口增长影响较大；从其所属的一级指标看，人口因素、社会因素(频数为2)对我国人口增长影响较大,其中社会因素对我国人口增长的影响最大。2.最优的定量预测模型(

21、1)统计意义检验将15 种较优变量选择方案下的变量输入回归方信息准则InterceptX46AIC=-3.82注：表5 为组合（置换重要性，节点纯度增加的重要性）、（置换重要性，距离相关系数）、（节点纯度增加的重要性，距离相关系数）、（置换重要性，节点纯度增加的重要性，距离相关系数）、（置换重要性，距离相关系数，集成方法）、（节点纯度增加的重要性，距离相关系数，集成方法）、（置换重要性，节点纯度增加的重要性，距离相关系数，集成方法）、（距离相关系数，集成方法）（置换重要性，节点纯度增加的重要性，集成方法)的建模结果。(2)理论意义检验对因变量和自变量进行单位根检验,发现因变量序列为2 阶单整序

22、列，自变量序列为0 阶单整序列，二者之间具有协整关系（回归残差序列属于无常数均值和无趋势的1阶自相关平稳序列，ADF检验中P值=0.01205）。因此统计意义上的“最优”回归方程可以拟合其长期的均衡关系。422023年第9期（总第5 33期）变量选择方法组合表5 最优模型结果Coef.Std.Err.-280.144.900.0038450.0005907R2 为 0.8 2 48F值为42.37选出的变量X79、X 5 2 X 6 5、X 90、X 46、X s 9、X s 7、X 10 X 7 8、X 33X46、X 7 9、X 90 X 33、X 37、X 6 5、X 8 2、X 2 8

23、、X 6 1、X 7 0X46、X 33、X 43、X 90、X%、X 40、X 2 0 X 39、X 41、X s 7X46、X 0 0、X 7 9、X 7 6、X 43、X 8 2、X 7 8、X 33、X 42、X 10(X79X6s、X 90,X 46、X 33)X90X46X57,X33X79Xg0X46、X 10 X 7 8、X 33X46,X00,X33X46X79X0X33 Xs2(X46X33,X43、X 90 X 7 6)(X0X46,X3)(X79,X00,X46、X 33(X00,X46,X3)(X46,X00 X3(X00,X46,X33程中，并进行逐步回归，发现有9

24、种方案都显示只有变量时，模型和回归系数的显著性较好，因此得到统计意义上的“最优”回归方程为：y=-280.1+0.003845x46最优回归结果显示,残差与标准化预测值序列的相关图中各相关点的分布没有呈现出明显的规律性，说明不存在异方差现象；标准化残差的直方图显示残差服从正态分布，说明模型满足高斯假设。t-6.2376.509为了解释序列之间的短期波动关系，建立误差修正模型如下：Ay,=0.004165x 46 t-1.2 90 7 8 9E CM1其回归模型和回归系数都比较显著。从回归系数看，每增加1单位的全国就业人员数，会增加0.0 0 416 5单位的人口出生率；上期误差对人口出生率当期

25、波动影响较大，单位调整比例为-1.2 90 7 8 9。Pltl0.0001520.000110调整后的R为0.8 0 5 3P值为0.0 0 0 110 2Signif.*人口统计统计理论与实践3.最优定量模型的预测结果2021年全国人口出生率为7.5 2%o，用模型预测的2021年全国人口出生率为7.0 1%o，预测误差率为6.78%，预测值曲线和真实值的拟合效果较好。三、结论及建议(一)主要结论1.置换重要性和距离相关系数的变量选择效果较好通过实证分析，发现置换重要性、节点纯度增加的重要性、距离相关系数、集成方法的变量选择效果均较好。但集成方法计算量大，节点纯度增加的重要性对离散特征存在

26、偏向性，且重要性分析结果与特征变量的选择顺序有关。因此，做变量选择时首选置换重要性和距离相关系数。随机森林对异常值与噪音也有很好的容忍度，稳健性较强，不易出现过拟合，对特征变量选择也有很好的适用性。基于随机森林变量重要性测度指标中的置换重要性可直接度量每个特征变量对模型精确率的影响程度，不存在偏向问题。距离相关系数距离协方差的构造方式，使其在揭示两变量间相关关系时有着独特的优越性。一是可以直接计算两个不同维度变量之间的距离相关系数；二是只要距离相关系数为0,即说明被检验的两个变量之间相互独立。2.就业问题是导致我国人口出生率下降的核心因素国内外有关人口增长影响因素方面的研究文献，共性是认为教育

27、、就业等是影响人口增长主要的因素。本文搜集了政治、经济、文化、社会、生态和人口层面下可能影响我国人口增长的92 个因素,运用多种高维变量选择方法将变量维数降到低维，发现婚姻、医疗、就业是影响人口增长的主要因素，进一步实证分析发现就业是影响我国人口增长的核心因素。原因可能在于人类能主动劳动创造，并已形成了相对完备的社会消费财富配给体系，现代社会一切生存竞争几乎都是围绕主动劳动创造的工作岗位展开。当供人类主动劳动创造的工作岗位增加时，人类社会的总人口就会增长；反之，总人口就会减少。(二)对策建议1.稳住就业岗位，扩大就业容量帮助企业困解难。近几年，经济下行压力持续增大，很多企业为了生存，采取缩招、

28、降薪、裁员等措施，导致就业岗位缩减。就业是最大的民生，也是发展最大的保障，因此政府部门需千方百计稳住就业岗位，可通过税费减免、优惠贷款等措施帮助企业渡过难关。积极开发服务业、公益性就业岗位。随着经济转型升级，第三产业的就业岗位呈增多趋势，政府部门应大力支持新兴服务业的发展，充分发挥服务业的就业吸纳作用。同时，可以通过政府出资、社会扶持等方式，在政府部门、高校等设立公益性岗位，就业困难人员。2.开展技能培训，调整人才供应积极开展职业技能培训。政府部门可以依托社区联合招聘单位开展职业技能培训，提升辖区内居民的就业能力；也可以依托高校联合招聘单位开展专业技能培训,提升毕业生的专业素养。瞄准市场走势，

29、做好人才储备。人才培养是为了适应市场需求，但人才培养需要时间，而市场需求却在不断变化,因此政府部门需要提前做好市场分析调研，找准未来市场需求，做好人才储备，保障人才供应。3.了解求职意向，精准帮扶就业根据求职意向推送招聘信息。政府部门可依托社区了解辖区内未就业人员的就业意向，针对性地推送真实可靠的招聘信息；也可依托高校了解毕业生的就业意向，针对性地开展就业服务。实施专人负责，精准帮扶就业。政府部门可依据未就业人员的具体情况，针对性地安排就业导师开展就业宣讲，组织技能培训，助力多渠道就业。参考文献：1沈巍，武鑫,基于数据挖掘的北京市人口增长影响因素研究.中国人口资源与环境，2 0 13,2 3(

30、S2)：47 0-473.2刘丽萍.基于LASSO回归法的人口出生率影响因素分析.牡丹江师范学院学报（自然科学版）,2 0 18(2)：1-3.3张夏雨.我国人口出生率宏观影响因素研究 D.蚌埠：安徽财经大学，2 0 2 1.4李华炯,尹喆轩,胡新昱,等.基于广义回归模型的人口出生率下降影响因素分析.电子元器件与信息技术,2 0 2 2,6(4):96-99.5郭良.湖北省人口出生率影响因素研究及趋势预测 D.武汉：华中师范大学,2 0 2 2.6张钰，魏世丞，董超芳，等.定量结构-性质关系(QSPR)中的计算方法研究进展.科学通报,2 0 2 1,6 6(22):2832-2844.2023年第9 期（总第5 33期）43

展开阅读全文