收藏 分销(赏)

全国各地区流动人口影响因素研究.doc

上传人:仙人****88 文档编号:8767616 上传时间:2025-03-01 格式:DOC 页数:23 大小:602.50KB
下载 相关 举报
全国各地区流动人口影响因素研究.doc_第1页
第1页 / 共23页
全国各地区流动人口影响因素研究.doc_第2页
第2页 / 共23页
点击查看更多>>
资源描述
全国各地区流动人口影响因素研究 ——基于因子分析和多元线性回归模型实证分析 广东外语外贸大学 陈金兰、林哓冰、夏丽华 目 录 摘 要 - 1 - 1.引言 - 2 - 2.研究现状及存在的问题 - 2 - 3.基本思路及创新 - 3 - 4.模型构建前的准备 - 3 - 4.1模型假设 - 3 - 4.2数据来源 - 3 - 4.3指标的选择 - 3 - 4.3.1反映经济状况的指标 - 3 - 4.3.2反映地区居民生活的指标 - 4 - 4.3.3反映公共服务的指标 - 4 - 4.4变量的预处理 - 4 - 5.模型的建立 - 5 - 5.1因子分析模型 - 5 - 5.1.1模型的选定 - 5 - 5.1.2因子分析的数学模型 - 5 - 5.1.3因子分析 - 6 - 5.2聚类分析模型 - 10 - 5.3关联度分析 - 13 - 5.4多元回归模型 - 15 - 5.4.1模型设定 - 15 - 5.4.2参数估计 - 15 - 5.4.3计量经济检验 - 15 - 5.4.4模型改进 - 16 - 6.结论与建议 - 18 - 7.模型的不足与改进 - 19 - 参考文献 - 19 - 附录 - 20 - 摘 要:我国的流动人口一直处于增长趋势,到2009年,全国流动人口上升至2.11亿人。政府高度重视流动人口工作,并出台了一系列政策措施。本文运用因子分析、聚类分析等方法构建了流动人口影响因素的多元回归模型,对我国31个省市流动人口的影响因素进行了实证研究。研究结果表明:地区的综合发展水平是人口流动的驱动因素,东部沿海城市是人口最为青睐的流向城市。 关键词:流动人口 因子分析 聚类分析 关联度分析 多元回归模型 1.引言 在中国,流动人口是在户籍制度条件下的一个概念,目前尚无明确、统一的定义。一般是这样认为:流动人口是指离开户籍所在地的县、市或者直辖区,以工作、生活为目的的异地居住的成年育龄人员。随着工业化,城镇化的快速发展,中国进入了人口流动的活跃时期,数据显示,我国正经历人类史上最大规模的人口流动。1982年至2009年,中国流动人口数量由657万上升至2.11亿人【1】。 人口流动具有重大的意义。人口流动能够为人口流入地区提供大量的劳动力,促进地区制造业,服务业等行业的发展,总体上来说,人口流动能够为国家的经济腾飞提供丰富的劳动力,为城市化、现代化顺利发展奠定了基础,调节劳动力的地区分配。但是大量的人口流动相应地引起一些问题:据统计,2009年中国流动人口平均年龄为27.3岁,流动人口中78.7%为农业户口,以青壮年为主。大部分流动人口的文化程度比较低。而大量的流动人口流入地区,势必引起人口流入地区的交通,教育,环境等问题,在制度还不完善的情况下,流动人口的医疗,保险等社会保障严重缺乏。即使近年来国家出台一系列加强流动人口服务管理的重大决策,但大规模的人口流动会给地方政府的管理带来严峻的挑战。如果能够建立关于流动人口与地区发展状况的模型,利用模型来研究流动人口与地区发展的关系,并初步预测流动人口,将对国家对流动人口的有序引导,地区对流动人口的管理有重大的意义。 2.研究现状及存在问题 现阶段关于流动人口的文献可分为两大方面,一方面是关于流动人口现状的分析报告,另一方面是关于流动人口预测的模型。流动人口预测的模型是人口预测的一大难题,目前还没有一种可以用于不同地区的基本办法。西方关于人口流动预测模型比较完善的是托达罗模型,但是由于模型只表明了决定迁移的因素和关系,并没有表达出被解释变量与各因素之间明确的函数关系,所以没有得到广泛应用[2]。在国内,有学者曾经利用地区流动人口占常住人口的比例来建立流动人口预测模型,但是由于常住人口也是经常变动,数据获取难度大,也没有得到推广。 很多学者在流动人口预测方面做了大量的研究,但是,可以发现存在一个问题。大多数文献都有提到,人口流动受到许多因素的影响和制约,多因素法是最理想的办法,若能建立流动人口与各社会因素之间的一种线性或非线性模型,便能在充分考虑各种影响因素的基础上预测流动人口规模的变化,但是难度很大。纳入模型的影响因素的选择和影响因素数据的获取等各个方面的困难,使该方面的研究停滞不前。 3.基本思路及创新 通过收集资料,确定流动人口的主要因素,即指标,对所选择的指标进行因子分析。接着,利用因子分析提取的主要因子与流动人口进行关联度分析,计算其关联度,若关联度高,则用流动人口对主要因子进行回归分析,得到各个地区的发展状况与流动人口之间关系的模型。在模型建立过程中,利用聚类辅助分析流动人口的地域差异。 指标的选取原则为:尽可能全面,简洁,可获性,科学性,系统性。 本文的创新之处在于,在研究人口流动与多因素之间的关系的时候,采用因子分析,聚类等方法对数据处理后建立线性或者非线性模型。本着大胆假设,小心求证的精神,建立人口预测模型,定量分析流动人口。 4.模型构建前的准备 4.1模型假设 (1)流动人口的定义:由于流动人口至今都没有一个统一的统计口径,所以无法找到直接反映我国流动人口的数据。本文将户口在外地,住在本地区半年以上的人员(包括户口待定的人员)作为流动人口。 (2)假定各个地区在短期内,发展状况稳定。所以可选取2009年的数据来反映短期内地区的发展状况。 4.2数据来源 本文的流动人口数据是根据2009年全国各地区分性别、户口登记状况的人口推算而得的。推算方法是将住本乡、镇、街道,户口在外地半年以上人口加上住本乡、镇、户口待定人口,再除以0.873‰的抽样比。所得2009年全国各地区流动人口数见附录。 4.3指标的选择 4.3.1反映经济状况的指标 地区间的经济状况差异会引起流动人口,由最近几年关于流动人口的新闻报道中可以看出,地区发展越好,该地区的流动人口越多。本文选取地区GDP以反映地区的该地区的经济表现,选取地区的社会消费品零售总额以反映该地区购买能力的实现,选取地区的第一产业生产总值,第二产业生产总值,和第三产业生产总值分别占国民生产总值的比重以反映该地区的经济结构。 4.3.2反映地区居民生活的指标 地区的居民生活状况也是人口流动的成因之一,人们都是向往美好的生活的。 本文选取城镇居民人均年可支配收入和农村居民人均年纯收入以反映城乡居民间的收入差异。选取CPI和商品零售价格总指数来反映地区的消费水平。选取城镇人口比重来反映该地区目前的城镇化水平。该地区的流动人口的就业程度可以反映地区对流动人口的容纳情况,可是由于流动人口各个方面的数据难以统计,所以文章选取逆向指标城镇登记失业率,来反映该地区的就业情况。 4.3.3反映公共服务的指标 根据《中国流动人口发展报告》中对当前流动人口生存发展的基本状况分析 中可以得知,我国流动人口家庭的平均规模为2.3人,67.4%为夫妻/子女一起居住。而流动人口的子女中,70.2%为流动儿童,29.8%为留守儿童。因此大胆推断,流动人口的子女就学等问题也是流动人口的影响因素之一,所以选取地区的教育财政支出来反映该地区的教育事业发展程度。 综合各个方面的考虑,选取的指标有:GDP、社会消费品零售总额、第一产业生产总值,第二产业生产总值,和第三产业生产总值分别占国民生产总值的比重、城镇居民人均年可支配收入、农村居民人均年纯收入、CPI、商品零售价格指数、城镇人口占全国人口的比重、城镇登记失业率、教育财政支出。 4.4变量的预处理 对各个指标进行无量钢化处理,即数据标准化,消除单位的影响。通过对数据的预分析,发现第一产业总值所占比重和第二产业所占比重对流动人口的影响较小。根据《中国流动人口发展报告》,三大产业是流动人口就业的主要领域:制造业、批发零售业和社会服务业吸纳了近七成流动人口就业,第三产业从业比重超过第一、第二产业之和。所以,从指标中删除第一产业所占比重和第二产业所占比重。经过预处理,确定本文分析的变量为标准化处理后的流动人口、GDP、社会消费品零售总额、第三产业生产总值比重、城镇居民人均年可支配收入、农村居民人均年纯收入、CPI、商品零售价格指数、城镇人口比重、城镇登记失业率、教育财政支出。 5.模型的建立 5.1因子分析模型 5.1.1模型的选定 一般而言,在四维或者更多维度的空间进行数据分析和处理是一件很困难的事。但如果能够把维度降下来,在低维空间中对数据进行解释比在高维空间就容易得多。而且在大多数情况下,许多变量之间存在一定的相关关系,这就为用较少的综合性指标来描述和反映原有变量中所包含的信息提供了可能。因此对本文选取的影响全国各地区流动人口的10个变量进行降维处理,形成少数独立的、不相关的综合指标来进行数据解释是很有必要的。这样一方面减弱了变量之间的多重共线性,另一方面也在一定程度上减少了数据分析和采集的工作量。 因子分析过程实际上就是降维处理的过程,是一种用少数几个因子来描述许多指标或因素之间的联系和反映原有资料的大部分信息的多元统计分析方法。因子分析是主成分分析的推广和发展,它既能客观计算出一个可供评价的综合得分,又克服了主成分分析无法直接得到分化的指标载荷,不便于选取指标的缺点。同时,因子分析模型的整个处理过程基本是客观的,结果可以进行统计检验。通过以上分析,本文选取因子分析模型来对10个变量进行降维处理,建立流动人口的统计指标体系。 5.1.2因子分析的数学模型 本文在建立流动人口指标体系过程中采取的因子分析的数学模型如下: 公式1 其中,是原有的个指标,称为的公共因子或潜因子,即前面所说的综合指标;称为因子载荷,是第个变量在第个公共因子上的负荷;称为的特殊因子。 5.1.3因子分析 (1)确定待分析的原有指标是否适合进行因子分析 本文用于检验指标是否适合于作因子分析的方法是KMO检验和Bartlett球形检验。当KMO>0.5,Bartlett球形检验的相伴概率值小于0.05时,适合作因子分析。运用统计软件SPSS进行的KMO and Bartlett检验结果如表1。 表1 KMO and Bartlett检验 KMO and Bartlett's Test Kaiser-Meyer-Olkin Measure of Sampling Adequacy. .651 Bartlett's Test of Sphericity Approx. Chi-Square 420.001 df 45 Sig. .000 由以上结果可以看出,KMO的值为0.651,大于0.5,而Bartlett检验的值为420.001,相应概率值近似为0.000,在5%的显著性水平下拒绝原假设,认为原有变量间存在关联性。因此原有指标适合作因子分析。 (2)因子提取,确定描述数据所需要的因子数 首先对数据进行一致化和标准化处理,其中城镇登记失业率是逆指标,所以需要取倒数,进行正向化处理。接着建立指标间的相关系数阵并求出其特征值和特征向量,同时画出特征值的碎石图,具体结果如下: 表2 解释方差总和 Total Variance Explained Component Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative % 1 5.184 51.840 51.840 5.184 51.840 51.840 3.617 36.175 36.175 2 2.275 22.748 74.588 2.275 22.748 74.588 3.207 32.073 68.248 3 1.274 12.738 87.325 1.274 12.738 87.325 1.908 19.077 87.325 4 .732 7.325 94.650 5 .264 2.635 97.285 6 .157 1.569 98.854 7 .058 .576 99.430 8 .034 .341 99.771 9 .017 .173 99.944 10 .006 .056 100.000 表2显示:第1个因子的特征值为5.184,大约占去方差的51.840%,基于过程内定取特征值大于1的原则,因子分析过程提取了第1、2、3个因子即F1、F2、F3,这3个因子共占去方差的87.325%,因此提取3个公因子是完全合理的。并且被放弃的其他7个因子解释的方差占不到20%,更加能够说明前3个因子提供了原始数据的足够信息。 图1 因子碎石图 从因子碎石图也明显看出,前3个因子的特征值都大于1,从第4个因子开始特征值比较低,都小于1,可以认为前3个因子能概括绝大部分信息。因此保留3个因子,将一个十维的问题降至三维,这样既减少了指标的数目,又尽可能地保证了整个指标系统的完整。 (3)因子旋转,集中于变换因子使之更好解释 要建立指标的因子模型,关键是要根据指标间的相关系数矩阵估计因子载荷阵。本文采取主成分法对因子载荷阵进行估计,同时为了知道每个公因子的意义,以便进行较好的解释和命名,再采用最大方差法进行因子旋转,得表3。 表3 旋转后的因子载荷阵 Component 1 2 3 教育财政支出 .090 .949 -.180 第三产业比重 .854 -.263 -.135 城镇人口比重 .851 .206 -.113 GDP .157 .967 -.153 社会消费品零售总额 .181 .954 -.175 CPI -.234 -.261 .901 商品零售价格指数 -.189 -.149 .946 城市居民人均年可支配收入 .860 .369 -.184 农村居民人均年纯收入 .884 .341 -.111 城镇登记失业率 .698 .077 -.191 由上表可看出,旋转后的因子系数很明显地两极分化,有了更鲜明的实际意义。F1中系数绝对值大的主要有:第三产业比重、城镇人口比重、城镇居民人均年可支配收入、农村居民人均年纯收入、城镇登记失业率,这5个指标变量主要是用来反映各地区的城市化发展的;F2中系数绝对值大的主要有:教育财政支出、GDP、社会消费品零售总额,这3个指标变量主要用来反映各地区的经济发展、教育事业的投入、居民物质文化生活水平等综合发展状况;而F3中系数绝对值大的主要有:CPI、商品零售价格指数,这2个因子主要反映了各地区的价格情况。 基于以上的分析,对3个公因子进行了命名,如表4: 表4 公共因子命名表 公共因子 变量 累计贡献率 城市化发展因子 第三产业比重 87.325% 城镇人口比重 城市居民人均年可支配收入 农村居民人均年纯收入 城镇登记失业率 经济社会发展因子 教育财政支出 GDP 社会消费品零售总额 价格因子 CPI 商品零售价格指数 (4)因子得分,计算每一个样本的因子得分 由于公共因子能反映原始指标的相关关系,为便于描述研究对象的特征,需要用公共因子代表原始变量,即用指标的观测值来计算各个因子得分,其数学模型为: j=1,…,m 公式2 其中,为标准化后的数据。由SPSS估计出的因子得分系数如下: 表5 因子得分系数矩阵 Component Score Coefficient Matrix Component 1 2 3 教育财政支出 -.067 .330 .037 第三产业比重 .293 -.185 -.002 城镇人口比重 .261 -.001 .085 GDP -.041 .337 .068 社会消费品零售总额 -.035 .326 .055 CPI .078 .056 .544 商品零售价格指数 .092 .103 .599 城市居民人均年可支配收入 .241 .050 .063 农村居民人均年纯收入 .262 .049 .112 城镇登记失业率 .205 -.051 -.012 从表中可看出,第三产业比重、城镇人口比重、城市居民人均年可支配收入、农村居民人均年纯收入、城镇登记失业率与第1个因子呈正相关关系,教育财政支出、GDP、社会消费品零售总额则与第2个因子呈正相关关系,同样CPI、商品零售价格指数与第3个因子也呈正相关关系。因此可以把原来的10个指标综合为3个因子,即城市化发展因子、经济社会发展因子、价格因子,这样后面进行的回归方程就简化得多了。根据以上系数和公式2即可得到对应的F1、F2、F3三个函数,同时根据各个因子的方差贡献率计算因子的综合得分: 公式3 下表是各地区的因子得分: 表6 因子得分 地区 城市化发展因子F1 排名 经济社会发展因子F2 排名 价格因子F3 排名 综合评分F 排名 北京 3.85390 1 -0.73215 25 -0.69505 25 1.18 2 天津 1.30034 3 -0.59571 24 -0.10880 17 0.30 8 河北 -0.63789 28 0.65115 7 -0.23140 20 -0.08 13 山西 内蒙古 -0.41341 18 -0.35430 19 -0.21025 18 -0.35 23 -0.11726 11 -0.22650 15 0.17598 14 -0.09 15 辽宁 0.10952 7 0.47183 8 0.68808 7 0.37 7 吉林 -0.15838 12 -0.36641 20 0.20398 13 -0.16 16 黑龙江 -0.26076 15 -0.25651 16 0.05130 16 -0.19 18 上海 2.65266 2 0.20297 9 0.93424 5 1.38 1 江苏 0.30388 6 2.22491 3 0.39611 12 1.03 3 浙江 0.94957 4 1.20759 4 -0.21529 19 0.79 5 安徽 -0.63215 26 -0.07204 12 -0.46622 24 -0.39 26 福建 0.08438 8 -0.15419 14 -1.30629 27 -0.31 22 江西 -0.46605 18 -0.33842 19 -0.34535 18 -0.39 23 山东 -0.30460 16 2.27094 2 0.69006 6 0.86 4 河南 -0.92062 31 1.12774 5 0.06072 15 0.05 12 湖北 -0.45875 22 0.17375 10 -0.35676 22 -0.20 19 湖南 -0.42487 19 0.11494 11 -0.42536 23 -0.23 21 广东 0.35632 5 2.45648 1 -1.59994 28 0.70 6 广西 -0.74586 30 -0.46406 21 -1.73423 30 -0.86 30 海南 0.01693 9 -1.35545 30 -0.75526 26 -0.66 28 重庆 -0.44703 20 -0.75229 26 -1.75205 31 -0.84 29 四川 -0.63735 27 0.70908 6 1.04509 3 0.22 9 贵州 -0.73110 29 -1.07275 29 -1.67420 28 -1.06 31 云南 -0.56143 25 -0.30284 17 0.63049 9 -0.21 20 西藏 -0.07602 10 -1.46837 31 0.59993 10 -0.44 27 陕西 -0.45439 21 -0.14441 13 0.67255 8 -0.09 14 甘肃 -0.34846 17 -0.54001 23 1.83546 2 0.06 11 青海 -0.16244 13 -0.80016 27 2.48432 1 0.18 10 宁夏 -0.17449 14 -1.13091 29 0.47285 11 -0.38 24 新疆 -0.49421 24 -0.48389 22 0.93530 4 -0.18 17 5.2聚类分析模型 根据因子分析的结果,可初步看出各个因子对流动人口的影响。但是逐个地区去分析很耗费人力物力,是不科学的。较好的做法是选取几个指标对31个地区进行分类,然后根据分类结果对各地区的流动人口进行综合评价,就易于得出科学的分析。 为了了解各地区具体的流动人口情况,并进一步证实所选取的10个指标对不同流动人口的巨大影响,同时为后面进行的回归方程提供可行性依据,本文根据因子分析提取的3个公因子对各地区进行层次聚类分析,具体结果如下: 图2 聚类分析的树状图 综合以上分析的结果,把地区分成3类,列表如下: 表7 地区分类表 类别 地区 流动人口数(人) 类别 地区 流动人口数(人) 1 北京 7935853 3 四川 5182131 上海 5674685 辽宁 3161512 2 广东 27810997 河南 2026346 浙江 8902635 河北 4431844 山东 4171821 新疆 1008018 江苏 9317297 陕西 2323024 3 青海 506300 云南 2269187 甘肃 599084 黑龙江 3726231 福建 7017182 吉林 1623139 贵州 2400916 内蒙古 3000000 重庆 2402062 江西 2568156 广西 2065292 山西 2609393 天津 1485682 安徽 3066438 海南 719359 湖南 2138603 宁夏 565865 湖北 2981672 西藏 10309 由表7可看出,不同类别地区的流动人口有明显的差异。首先第一类地区是北京和上海,这两个地区的综合评分分别排名第1和第2,但它们的流动人口数却没有第二类的地区大。主要是因为北京和上海的城市发展水平因子得分远高于其它城市,这是吸引流动人口的决定性因素,主要体现在其高收入水平和城市化水平,但是这两个城市的价格的波动也很大,表现在物价水平和消费水平的高涨,这就制约了人口向这两个城市的流动。另外,这两个城市对流动人口的管理较为严格,其城市承载能力和准入门槛使流动人口在绝对数上低于第二类地区的大多数城市。 第二类地区的平均流动人口数是最高的,尤其是广东省,流动人口比其他省市多了几乎两千万,第六次人口普查数据显示广东流动人口占据全国的1/3,已成为流动人口第一大省。虽然第二类 城市的收入水平低于北京和上海,但是其经济的快速发展提供了大量就业机会,教育和物质文化水平在不断提高(主要体现在教育财政支出和社会消费品零售总额这两个指标的优越性),而且这些城市价格波动的也不大,这就吸引了人口的大规模流入。从其各个因子的排名和综合得分评价便可看出原因。 第三类地区的各个因子相对处于劣势,特别是在经济发展以及就业与收入水平这些方面的吸引力明显低于属于东部沿海地区的城市。因此流动人口数也是不及其他两类地区的高。由此,通过聚类分析再次证明了选取的指标对各地区的流动人口是有着很大影响的。 5.3关联度分析 前面的因子分析和聚类分析已经证明了所选取的10个指标变量对各地区的流动人口有着很大的影响,可以进行多元回归建模。为了更客观地说明用流动人口和各个公因子建立多元回归方程的可行性和合理性,我们进行了序列的关联度分析。关联度分析是分析系统中各因素关联程度的方法,用于检验因素之间的关系是否密切,以便找到主要矛盾,发现主要特征、主要关系。在计算关联度之前,需要先计算关联系数。关联系数定义为: 公式4 其中: (1) 是第k个点与的绝对误差。 (2) 是两级最小差。其中,是第一级最小差,表示在序列上找各点与的最小差;是第二级最小差,表示在各序列找出最小差的基础上寻找所有序列中的最小差。 (3) 是第二级最大差,其含义与最小差相似。 (4) ρ称为分辨率,0<ρ<1,一般取ρ=0.5。 在算出(k)序列与(k)序列的关联系数后,计算各关联系数的平均值: 公式5 这个平均值r称为(k)序列与(k)序列的关联度。 关联度分析的一般步骤有: 第一步,先初始化,即将该序列的所有数据分别除以第一个数据;第二步,求绝对差序列;第三步,求关联系数;第四步,求关联度。 根据以上步骤,对各地区的流动人口(标准化后的数据)与综合因子得分进行关联度分析的结果如下: 表8 关联度分析结果 地区 初始化的流动人口 初始化的综合得分 绝对差 关联系数 贵州 1 1 0 1 广西 0.87538 0.811321 0.064059 0.973371 重庆 0.860421 0.792453 0.067968 0.971792 海南 西藏 0.852068 0.622642 0.229426 0.910763 0.821846 0.415094 0.406752 0.852 安徽 0.749329 0.367925 0.381405 0.859931 江西 0.629303 0.367925 0.261378 0.899584 宁夏 0.594766 0.358491 0.236275 0.908344 山西 0.49347 0.330189 0.163281 0.934814 福建 0.483674 0.292453 0.191221 0.924502 湖南 0.46526 0.216981 0.248279 0.904134 云南 0.432444 0.198113 0.234331 0.909029 湖北 0.418928 0.188679 0.230249 0.910472 黑龙江 0.399349 0.179245 0.220104 0.914078 新疆 0.399058 0.169811 0.229247 0.910827 吉林 0.357333 0.150943 0.206389 0.918998 内蒙古 0.346968 0.084906 0.262062 0.899347 陕西 0.25343 0.084906 0.168524 0.932861 河北 0.248836 0.075472 0.173364 0.931066 河南 0.232143 -0.04717 0.279313 0.893428 甘肃 0.208249 -0.0566 0.264853 0.898384 青海 0.066366 -0.16981 0.236178 0.908378 四川 -0.0456 -0.20755 0.161949 0.935311 天津 -0.11093 -0.28302 0.172092 0.931537 辽宁 -0.29943 -0.34906 0.049624 0.979247 广东 -0.42319 -0.66038 0.237185 0.908023 浙江 -0.7605 -0.74528 0.015221 0.993542 山东 -0.99132 -0.81132 0.179997 0.928617 江苏 -1.23423 -0.9717 0.262533 0.899185 北京 -1.33841 -1.11321 0.225205 0.912261 上海 -5.98502 -1.30189 4.683129 0.333333 关联系数平均值 0.902811596 流动人口与综合因子的关联度高达0.9028,可见它们之间的关联程度很高,即流动与3个公共因子的关系很密切,这也进一步证明了选取的各个指标变量对各地区的流动人口影响很大。因此可以用3个公因子对流动人口进行多元回归建模。 5.4多元回归模型 5.4.1模型设定 本文采用多元线性回归模型,以标准化后的流动人口为因变量y,以因子分析得到的三个因子F1,F2,F3作为自变量,建立如下线性回归方程(其中ε是随机误差): 公式6 5.4.2 参数估计 运用SPSS软件对该方程进行参数估计,结果如下: 表9 多元回归分析结果 Model Unstandardized Coefficients Standardized Coefficients t Sig. B Std. Error Beta 1 (Constant) 4.150E-17 .112 .000 1.000 REGR factor score 1 for analysis 1 .296 .114 .296 2.596 .015 REGR factor score 2 for analysis 1 .664 .114 .664 5.813 .000 REGR factor score 3 for analysis 1 -.346 .114 -.346 -3.030 .005 由上表可知,除了常数项t检验通不过检验外,三个因子的系数均通过t检验,可见以上三个因子都与流动人口有显著性关系。 5.4.3计量经济检验 (1)异方差检验 由于因子分析可以有效消除变量间的多重共线性,而选取的数据是截面数据,不是时间序列,因此该模型不需要进行多重共线性和序列相关性检验。 采用截面数据做样本进行回归分析时,由于不同样本点上解释变量以外的因素的差异很大,所以往往存在异方差性。模型一旦出现异方差性,参数的最小二乘估计不再是最小方差无偏估计,即不再是有效估计,会使回归系数显著性检验失效。异方差分析可以通过绘制残差散点图(如图3所示)和等级相关分析两种方式实现。 图3:残差散点图 由图3可知,随着标准化预测值的变化,残差点在0线周围随机分布的现象并不明显,反而有递减的趋势,这说明异方差的现象可能存在。下面通过计算残差与预测值的Spearman等级相关系数来判断异方差是否确实存在,结果如表10所示: 表10:Spearmam等级相关系数 Standardized Predicted Value Standardized Residual Spearman's rho Standardized Predicted Value Correlation Coefficient 1.000 -.599** Sig. (2-tailed) . .000 N 31 31 Standardized Residual Correlation Coefficient -.599** 1.000 Sig. (2-tailed) .000 . N 31 31 由上表可知,等级相关分析中检验统计量的P值小于0.05,拒绝原假设,认为标准化预测变量与残差之间存在显著的相关关系,出现了异方差现象。 5.4.4模型改进 模型被证明存在异方差性,则需要发展新的方法估计模型,最常用的方法是 加权最小二乘法,其基本思想是对较小的残差平方ei2赋予较大的权数,对较大的ei2赋予较小的权数,使之成为一个新的不存在异方差性的模型,然后采用OLS法估计其参数。一般地,所使用的权重为1/|ei|。 SPSS进行加权最小二乘法的参数估计结果如下表所示(常数的t检验通不过,因此剔除常数项),可见各个因子的系数均通t检验,P值均小于0.05: 表11 参数估计 Model Unstandardized Coefficients Standardized Coefficients t Sig. B Std. Error Beta 1 REGR factor score 1 for analysis 1 .256 .040 .435 6.422 .000 REGR factor score 2 for analysis 1 .571 .050 .972 11.419 .000 REGR factor score 3 for analysis 1 -.237 .053 -.381 -4.457 .000 在此,对改进的回归模型进行总体的显著性检验(F检验)及拟合优度检验,由结果(如表12,13所示)可见:可决系数R2为0.874,修正后的可绝系数为0.861,说明模型拟合得较好。另一方面,F值为64.996,P值远小于0.05,高度显著,说明模型估计的整体效果较佳。 表12 模型分析 Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson 1 .935 .874 .861 .58422105 1.886 表13 方差分析 Model Sum of Squares df Mean Square F Sig. 1 Regression 66.552 3 22.184 64.996 .000a Residual 9.557 28 .341 Total 76.109b 31 根据表11的参数估计结果,可得回归方程为: 由该模型可看出各省流动人口的数量与城市化发展以及社会经济发展这两个因子成正比例关系,而与价格因子成反比例关系,可见模型通过了经济意义的检验,系数的符号也符合经济理论。其中,社会经济发展因子对流动人口的影响最大,在其它标准化因子得分不变的情况下,社会经济
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 教育专区 > 小学其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服