应用回归分析期末-赵玢琳-10212681.docx

资源描述

《应用回归分析》论文题目: 基于统计分析的医疗就诊人数探讨姓名赵玢琳学院理学院专业数学与应用数学班级 2010214101班学号 10212681 班内序号 39 2012年12月25日基于统计分析的医疗就诊人数探讨【摘要】本文主要应用统计回归的方法，分析影响医疗就诊人数的主要因素，并借助SPSS软件得出拟合模型。在筛选变量与修正模型后，得出医疗就诊人数主要与居民工资、医疗机构总数、环境噪声指数三方面因素成线性关系的结论，并针对结论对政府决策和医疗配置改进提出建议。本文的数据来源为《深圳统计年鉴2011》。在模型构建阶段，通过显著性分析和逐步回归相结合的手段增选变量。尝试对全模型和简化模型的残差做出解释，考察了异方差和自相关现象的存在性。并着重分析了异常点及变量间的多重共线性，对出现的严重多重共线性，本文采用主成分回归消除共线性并得出最后的拟合模型。在解释模型阶段，结合问题背景对模型的合理性做出解释，并分析了模型中部分偏离实际现象产生的原因。在论文的最后，还给出了本次回归分析的心得体会，强调了有序进行研究、多方法结合和联系实际的重要性。关键词：医疗就诊残差分析异常点共线性诊断主成分回归 The discussion on medical attendance based on statistical analysis [Summary] This article applied statistical regression to analyze the main factors influencing medical attendance and used the SPSS software to the regression model. After the variables selection and model correction, the article drew the conclusion that medical attendance has a linear relationship with the total number of residents ' wages, medical institutions and environmental noise index mainly. Then it put forward a proposal about government decisions and configured medical improvements on this conclusion. The data source for the article is Shenzhen statistics yearbook. During the model fitting, it combined significance analysis and stepwise regression to select variables. Also, it tried to explain the residuals of full model and reduced model, and investigated the existence of heteroscedasticity and autocorrelation. Moreover, the article analyzed the outliers and multicollinearity around the variables. For the serious multicollinearity, the article used principal component regression to delete it and got the final model. As for the explanation of model, the article gave a reasonable explanation based on the problem background and tried to find the reasons why there were some parts beyond the actual phenomenon. In the final, the article talked about the work experience, stressing the importance of orderly research, multi-method and contacting with actual phenomenon. Keywords: Medical Attendance Residual Analysis Outliers Multicollinearity Detection Principal Component Regression 【目录】正文 4 1 问题背景 4 2 数据获取与筛选 4 3 拟合模型 5 3.1 变量检查 5 3.2 成对分析变量间关系 7 3.2.1 成对变量散点图 7 3.2.2 相关矩阵 8 3.2.3 共线性初探 9 3.3 全模型、简化模型及其残差解释 10 3.3.1 全模型回归 10 3.3.2 简化模型回归 11 3.3.3 简化模型残差分析 12 3.3.4 异常点的发现与处理 13 3.4 逐步回归增选变量 16 3.5 共线性诊断与主成分回归 17 3.5.1 共线性诊断 17 3.5.2 消除共线性——主成分回归 18 3.5.3 残差分析 20 4 结论与解释 21 总结与心得 23 参考文献 24 【正文】 1 问题背景根据我国现今国情，人口规模庞大仍然是一个热点问题，随之带来的资源配置不足也成为了亟待解决的难题。本文主要关心医疗事业的适应性发展，即构建“医院就诊人次”的分析回归模型，了解就诊人数与人口、环境、经济等因素的关系，以期对未来医疗配置的改进起指导作用。 2 数据获取与筛选限于居民是否就诊及人口、环境、经济等因素有很强的地域差异性，本次建模回归中我们选取了“深圳”地区作为研究对象。基于《深圳统计年鉴2011》选取了1996-2010年医院就诊人数、总人口、工资、环境指标、卫生机构数等作为研究变量。具体数据如下：年份 Year 医疗机构总诊疗人次(万人次) 年末户籍人口户数 (万户) 年平均工资(元) 卫生机构数合计（个）可吸入颗粒物年平均值 (mg/m3) 集中式饮用水水源地水质达标率 (%) 区域环境噪声平均值 dB(A) 1996 1961 30.35 14507 1422 0.135 96.8 58 1997 1821 32.15 16531 1126 0.095 96.81 57.2 1998 1941 34.07 18381 899 0.092 97.2 57.2 1999 2050 36.15 20714 687 0.087 98.1 57.1 2000 2175 38.87 23039 683 0.059 98.73 57 2001 2408 41.14 25941 723 0.063 93.45 56.1 2002 2689 44.73 28218 761 0.061 96.11 56 2003 3052 47.55 30611 893 0.07 97.13 56 2004 3514 52.04 31928 856 0.076 96.71 56.1 2005 4055 57.01 32476 1063 0.064 98.11 56.2 2006 5170 61.37 35107 1692 0.064 98.07 56.5 2007 5954 64.88 38798 1781 0.064 98.86 56.5 2008 6842 67.1 43454 1806 0.063 99.87 56.4 2009 7549 69.81 46723 1963 0.057 100 56.8 2010 7914 71.44 50456 1769 0.057 100 56.7 对列出的各项指标解释如下（同时列出各变量在SPSS软件中对应的符号Y、X1、X2等）： Y :医疗机构总诊疗人次，为此次回归的因变量，通过诊疗人次可决定医疗资源的未来分配； X1 :年末户籍人口户数，某一地区的就诊人数与该地区的总人数必定有一定的联系，因此选为回归自变量； X2 :年平均工资，居民在患病时是否就医与其经济支付能力也有一定相关性，因此选为回归自变量； X3 :卫生机构数合计，医疗资源是否充足也会决定患病居民能否成功就诊，因此选为回归自变量； X4 :可吸入颗粒物年平均值，这一指标从一个侧面反映了环境污染程度，进而考察了环境水平对人体健康的影响； X5 :集中式饮用水水源地水质达标率，同X4，也为环境因素； X6 :区域环境噪声平均值，同X4、X5，为环境因素。 3 拟合模型 3.1 变量检查描述统计量 N 极小值极大值均值方差偏度统计量统计量统计量统计量统计量统计量标准误 Y 15 1821 7914 3939.67 4770960.952 .795 .580 X1 15 30.35 71.44 49.9107 209.634 .172 .580 X2 15 14507 50456 30458.93 1.215E8 .322 .580 X3 15 683 1963 1208.27 227084.924 .405 .580 X4 15 .057 .135 .07380 .000 2.012 .580 X5 15 93.45 100.00 97.7300 2.992 -.794 .580 X6 15 56.0 58.0 56.653 .324 .844 .580 通过上表可以看出，共有十五组数据。对比每个变量的最大值、最小值，X1、X3、X4、X5、X6的变化幅度都不是很大，尤其X6几乎无明显变化；变化幅度较大的Y和X2，经检验具体数据也可发现它们每年的涨幅比较大，不存在突变现象，所以也是适用的。而且观察均值栏可发现，它们一般处于最大、最小值的中间，是非常好的结论。由于各变量基本都是逐年（某些甚至是大幅度的）递增的数据，方差的大小对检验变量没有过多的参考价值。观察偏度系数，都保持在一个很小的水平，其标准误也很微小，则可以认为数据的对称性较好，无需做进一步数据变换。下边的直方图也可以直观的支持上述结论（为避免篇幅冗长，只列出部分）：对于直方图中反映的各变量中较小数据比较大数据多的现象，分析数据来源，在1996-2010年间，是社会经济、科技不断发展的阶段，因此出现前期各项指标较低、后期短期内飞速发展，导致总体数据中，较小量占多数是合理的。再绘制Y与各自变量间的散点图，以下两幅值得注意：上面左图中，Y与X4的线性关系不明显，怀疑X4为不具有解释力的变量，具体是否将X4作为变量拟合模型，还需后续部分检验上面右图中，Y与X5可以看出存在正相关关系，但各个点分布较分散，仅用一条直线难以拟合得很好。但是还有其他变量共同拟合，在后续工作中根据增选变量情况，可以进一步看出X5是否能很好的同其余变量一起完成拟合，或是 X5可以被其余变量替代而被剔除。 3.2 成对分析变量间关系成对分析变量之间的关系可以对剔除无关变量、拟合模型的方法选择、共线性程度的初步了解提供有用的信息，下面从散点图、相关矩阵、共线性初探三个方面分析变量间的关系。 3.2.1 成对变量散点图观察下边散点图（限于篇幅只列出提供重要信息的部分图）：上边左图表现了X1-X2极为明显的共线性，右图X1-X5也显示了正相关趋势；上边两个图也显示了变量间的正相关关系。结合问题背景分析，人口、工资、环境、医疗设施等因素是紧密相连的，它们都适应着社会经济、科技、教育的发展，牵一发而动全身，因此存在或多或少的关联性是必然的。因此，在后边构建模型时，要进一步分析共线性，并采取相应的消除措施。 3.2.2 相关矩阵相关性 Y X1 X2 X3 X4 X5 X6 Pearson 相关性 Y 1.000 .964 .962 .853 -.557 .720 -.256 X1 .964 1.000 .981 .747 -.684 .645 -.466 X2 .962 .981 1.000 .695 -.717 .623 -.483 X3 .853 .747 .695 1.000 -.139 .667 .134 X4 -.557 -.684 -.717 -.139 1.000 -.288 .759 X5 .720 .645 .623 .667 -.288 1.000 .170 X6 -.256 -.466 -.483 .134 .759 .170 1.000 通过上面相关性矩阵也可以看出，部分变量之间的相关性高达0.8-0.9，再一次验证了线性相关的存在，下边分析与多重共线性相关的几个统计量，以期对共线性程度有大致了解。 3.2.3 共线性初探此处只是大致对共线性程度做一了解，具体的共线性分析及解决在增选变量后的“3.5”部分会做详细说明。共线性诊断a 模型维数特征值条件索引方差比例 (常量) X1 X2 X3 X4 X5 X6 1 1 6.708 1.000 .00 .00 .00 .00 .00 .00 .00 2 .224 5.471 .00 .00 .00 .01 .02 .00 .00 3 .061 10.464 .00 .00 .00 .11 .03 .00 .00 4 .006 34.687 .00 .01 .17 .25 .83 .00 .00 5 .001 70.547 .00 .56 .76 .09 .05 .00 .00 6 8.063E-5 288.419 .07 .00 .00 .03 .01 .48 .00 7 5.849E-6 1070.908 .93 .43 .06 .52 .06 .52 1.00 a. 因变量: Y 上述特征值中，接近于0的有两个；条件数在10-100间的有三个，大于100的有两个；方差比例的第七行显示常量与X2的共线性、第五行显示了X1与X2的共线性，与散点图吻合。模型非标准化系数共线性统计量 B 标准误差容差 VIF 1 (常量) -35181.178 9003.610 X1 22.837 20.892 .016 64.448 X2 .145 .019 .032 31.139 X3 .978 .268 .087 11.504 X4 -1772.204 4028.677 .198 5.053 X5 -8.604 47.485 .210 4.752 X6 588.718 208.749 .101 9.947 上表中X1、X2、X3显示出了10以上的VIF值，表明变量间的多重共线性还是很严重的。在3.4、3.5部分会着重异常值和共线性的处理。以下是岭回归结果，此处只是简单分析，后面的拟合过程，主要采用了主成分回归法消除共线性（详见部分“3.5.2 共线性消除——主成分回归） 3.3 全模型、简化模型及其残差解释 3.3.1 全模型回归全模型：Y=β0+β1X1+β2X2+β3X3+β4X4+β5X5+β6X6+ε 做Y与各自变量的线性回归，部分输出结果如下：模型汇总b 模型 R R 方调整 R 方标准估计的误差 1 .999a .998 .996 140.986 a. 预测变量: (常量), X6, X3, X5, X4, X2, X1。 b. 因变量: Y 通过上表可以看出，R2接近为1，但是不能因此得出回归模型很好的结论，还需进一步分析得到隐藏于变量中的其他关系。模型非标准化系数标准系数 t Sig. B 标准误差试用版 1 (常量) -35181.178 9003.610 -3.907 .004 X1 22.837 20.892 .151 1.093 .306 X2 .145 .019 .732 7.602 .000 X3 .978 .268 .213 3.648 .007 X4 -1772.204 4028.677 -.017 -.440 .672 X5 -8.604 47.485 -.007 -.181 .861 X6 588.718 208.749 .153 2.820 .022 上表中给出了全模型的 t 检验及 F 检验的 p 值，根据t值较小以及若Sig>α=0.05就删除变量的原则，需要剔除变量X1、X4、X5，进而得到简化模型 3.3.2 简化模型回归简化模型：Y=β0+β2X2+β3X3+β6X6+ε 模型 R R 方调整 R 方标准估计的误差 1 .999a .997 .996 133.189 a. 预测变量: (常量), X6, X3, X2。 b. 因变量: Y 简化模型的回归结果显示R2仍然较大，但较之全模型有比较细微的减小。模型非标准化系数标准系数 t Sig. B 标准误差试用版 1 (常量) -28785.224 6124.217 -4.700 .001 X2 .168 .008 .849 22.045 .000 X3 1.135 .156 .248 7.279 .000 X6 462.996 107.246 .121 4.317 .001 此时三个变量的Sig值均很小，表明与Y显著相关，可以选作回归变量。得到的简化模型如下： Y=-28785.224+0.168X2+1.135X3+462.996X6 下面对简化模型的残差尝试性解释，并做数据异常点（高杠杆值、强影响点等）的发现、解释与处理。 3.3.3 简化模型残差分析观察下述残差关于自变量的散点图：从以上三个散点图的趋势上，看不到明显的“漏斗形”和“类正余弦”图线，则可以认为在该简化模型的残差中不存在明显的异方差和自相关现象。因此可省略加权最小二乘步骤，也可以通过以下P-P图考察残差特性： 3.3.4 异常点的发现与处理 a) Cook距离通过SPSS计算得到Cook距离如下：年份 Year Cook's Distance 1996 0.8988 1997 0.02905 1998 0.06296 1999 0.1428 2000 0.06017 2001 0.00571 2002 0.01988 2003 0.25768 2004 0.00097 2005 0.04744 2006 0.00583 2007 0.00572 2008 0.11248 2009 0.02376 2010 0.07455 当Cook<0.5时认为不存在异常，当Cook>1时认为可能存在异常点。在上表中，第一行（1996年）数据的Cook距离远大于其他年份，且Cook=0.8988比较接近1，因此通过Cook距离判定，初步怀疑这一年的数据存在相对于Y值的异常点。 b) 杠杆值通过SPSS计算得到中心化杠杆值及对应计算的原始杠杆值如下：年份 Year Centered Leverage Value Leverage Value 1996 0.46649 0.533 1997 0.20042 0.267 1998 0.11024 0.177 1999 0.21967 0.286 2000 0.24326 0.31 接前表： 2001 0.13968 0.206 2002 0.14797 0.215 2003 0.12158 0.188 2004 0.10163 0.168 2005 0.04909 0.116 2006 0.19393 0.261 2007 0.16032 0.227 2008 0.14083 0.207 2009 0.24381 0.31 2010 0.46108 0.528 当杠杆值≥2(p+1)/n时认为存在异常点，p+1=4，n=15，则可计算2(p+1)/n=0.5333。分析上表，第一行（1996年）数据的原始杠杆值为0.53，认为其存在关于X的异常；第十五行（2010年）数据的原始杠杆值为0.528，较为接近临界值，因此同样怀疑其存在异常点。为了使异常值的检验更加完备，下面用P-R图分析。 c) P-R图分析年份 Year P R 1996 1.14 -12.56 1997 0.36 2.55 1998 0.21 -33.15 1999 0.4 -18.83 2000 0.45 6.69 2001 0.26 0.49 2002 0.27 2.09 2003 0.23 -6.36 2004 0.2 0.09 2005 0.13 -14.59 2006 0.35 0.38 2007 0.29 0.44 2008 0.26 -12.07 2009 0.45 1.55 2010 1.12 3.08 红色箭头指示的两个点显示了异常，对比数据集，发现这两个点恰好为1996年和2010年的数据。分析异常点产生原因：综合以上三种分析方法，发现1996年的数据存在较明显的异常，2010年数据次之。分析异常点产生的原因，对比《统计年鉴》，认为此处不存在数据的录入失误，因此异常值是由问题背景引起的。1996年为“八五”时期末、“九五”时期初，正值经济转型的过渡时期，因此出现了与后续数据涨幅不匹配的情况；2010年为“十一五”时期末，国民经济迎来新的变革，因此也出现了较大的波动，如果我们能够将11、12年等后续数据加入数据集，可能就会消除部分异常。异常点处理方法数据来源于2011年深圳年鉴，若想获取后续数据、增大数据集需要2012年及以后的年鉴，现阶段还没有发布。所以采用删除部分数据行的办法。考虑到拟合模型的目的是为了对未来的医疗合理配置进行预测，2010年的数据是反映变化趋势的重要部分，不能除去。而1996年的数据作为过去数据，且处于经济革新之前，可以除去，以减少模型建立的异常值。因此将1996年数据（第一行）除去，后续工作对剩余14组数据展开。 3.4 逐步回归增选变量在“3.3”部分通过Sig值剔除了变量X1、X4、X5，下边用逐步回归的方法增选变量。输出结果如下：模型汇总模型 R R 方调整 R 方标准估计的误差 1 .972a .944 .940 539.376 2 .996b .992 .990 216.531 3 .999c .998 .997 118.020 a. 预测变量: (常量), X2。 b. 预测变量: (常量), X2, X3。 c. 预测变量: (常量), X2, X3, X6。系数a 模型非标准化系数标准系数 t Sig. B 标准误差试用版 1 (常量) -2348.111 473.522 -4.959 .000 X2 .203 .014 .972 14.254 .000 2 (常量) -2317.653 190.132 -12.190 .000 X2 .138 .010 .661 13.879 .000 X3 1.697 .213 .379 7.966 .000 3 (常量) -31230.636 5562.474 -5.615 .000 X2 .163 .007 .779 22.594 .000 X3 1.232 .146 .276 8.413 .000 X6 507.213 97.564 .103 5.199 .000 a. 因变量: Y 从表格中可以看到模型三为最优，即选择变量X2、X3、X6，与“3.3”部分得到的结果一致，则在“3.3”中所做的一系列工作是有效可用的。后面的诊断与回归均是针对 Y 与变量X2、X3、X6间的关系展开。 3.5 共线性诊断与主成分回归 3.5.1 共线性诊断 a) VIF 模型非标准化系数标准系数 t Sig. 共线性统计量 B 标准误差试用版容差 VIF 1 (常量) -31230.636 5562.474 -5.615 .000 X2 .163 .007 .779 22.594 .000 .187 5.344 X3 1.232 .146 .276 8.413 .000 .207 4.823 X6 507.213 97.564 .103 5.199 .000 .564 1.773 由上表可以看出，各VIF值并不是很大，因此还需借助其他方法进一步判断。 b) 特征值判断共线性诊断a 模型维数特征值条件索引方差比例 (常量) X2 X3 X6 1 1 3.871 1.000 .00 .00 .00 .00 2 .110 5.942 .00 .02 .10 .00 3 .020 14.000 .00 .54 .53 .00 4 1.620E-5 488.840 1.00 .44 .37 1.00 a. 因变量: Y 在上表中，第四行数据的特征值接近于0，则可以判断变量间存在共线性。 c) 条件数判断同样观察“共线性诊断”表格，条件索引一栏中，第三行数据k在10-100之间，说明较强的共线性；第四行数据k在100以上，说明存在极强的共线性。 d) 观察方差比例在“方差比例”一栏中，第四行的常量与X6方差比例同时为1.00，说明常数项与变量X6间存在多重共线性；第三行X2、X3方差比例同时为0.5左右，说明变量X2、X3间存在多重共线性。综合上述几种方法，得出该模型的几个变量反映了较强的多重共线性的结论，下边提出解决办法。 3.5.2 消除共线性——主成分回归消除共线性主要有三种方式，即：1）剔除变量；2）增加样本容量；3）回归系数有偏估计。在本模型中，经过前边一系列的变量筛选已经只剩余三个变量，且均显示出较好的显著性，再剔除变量显然是不可行的。而考虑数据来源，增大样本容量的新数据也无从获取。因此，采用回归系数有偏估计的方法消除共线性。在岭回归、主成分回归、偏最小二乘中选择主成分回归完成以下步骤：解释的总方差成份初始特征值提取平方和载入合计方差的 % 累积 % 合计方差的 % 累积 % 1 1.857 61.886 61.886 1.857 61.886 61.886 2 1.048 34.923 96.809 1.048 34.923 96.809 3 .096 3.191 100.000 提取方法：主成份分析。由上表，当到第二个成分时，累计百分率已达96.809%，因此抽取两个主成分。通过Fac1_1和Fac2_1计算主成分，即： prin1=sqrt(λ1)* Fac1_1, λ1=1.857 prin2=sqrt(λ2)* Fac2_1, λ2=1.048 计算数据如下：年份 Year Fac1_1 Fac2_1 prin1 prin2 1997 -1.04506 1.34458 -1.42 -1.07 1998 -1.1785 1.17171 -1.61 -1.21 1999 -1.23803 0.80328 -1.69 -1.27 2000 -1.09077 0.58389 -1.49 -1.12 2001 -0.59255 -1.23626 -0.81 -0.61 2002 -0.40586 -1.42529 -0.55 -0.42 2003 -0.15451 -1.34399 -0.21 -0.16 2004 -0.16018 -1.17416 -0.22 -0.16 2005 0.03868 -0.82527 0.05 0.04 2006 0.69267 0.22167 0.94 0.71 2007 0.96621 0.26497 1.32 0.99 2008 1.25911 0.05345 1.72 1.29 2009 1.44013 0.96235 1.96 1.47 2010 1.46865 0.59906 2 1.5 现在用Y对前两个主成分prin1和prin2做普通最小二乘回归：模型汇总模型 R R 方调整 R 方标准估计的误差 1 .980a .960 .956 458.362 a. 预测变量: (常量), prin2。系数a 模型非标准化系数标准系数 t Sig. B 标准误差试用版 1 (常量) 4081.000 122.502 33.314 .000 prin2 2099.925 124.181 .980 16.910 .000 a. 因变量: Y 其中prin1在回归时被自动排除。得主成分回归方程为： Y=4081.000+0·prin1+2099.925·prin2 再分别用两个主成分prin1和prin2做因变量，以三个原始自变量为自变量做线性回归：系数a 模型非标准化系数标准系数 t Sig. B 标准误差试用版 1 (常量) 23.029 .000 . . X2 6.826E-5 .000 .525 . . X3 .001 .000 .489 . . X6 -.474 .000 -.155 . . a. 因变量: prin1 系数a 模型非标准化系数标准系数 t Sig. B 标准误差试用版 1 (常量) 17.300 .000 2.813E7 .000 X2 5.128E-5 .000 .525 6.424E7 .000 X3 .001 .000 .489 6.296E7 .000 X6 -.356 .000 -.155 -3.301E7 .000 prin1=23.029+（6.826*10-5）X2+0.001X3-0.474X6 prin2=17.300+（5.128*10-5）X2+0.001X3-0.356X6 还原后的主成分回归方程为： Y=40409.

展开阅读全文