资源描述
《 应用回归分析 》 论 文
题目: 基于统计分析的医疗就诊人数探讨
姓 名 赵玢琳
学 院 理学院
专 业 数学与应用数学
班 级 2010214101班
学 号 10212681
班内序号 39
2012年12月25日
基于统计分析的医疗就诊人数探讨
【摘 要】
本文主要应用统计回归的方法,分析影响医疗就诊人数的主要因素,并借助SPSS软件得出拟合模型。在筛选变量与修正模型后,得出医疗就诊人数主要与居民工资、医疗机构总数、环境噪声指数三方面因素成线性关系的结论,并针对结论对政府决策和医疗配置改进提出建议。
本文的数据来源为《深圳统计年鉴2011》。在模型构建阶段,通过显著性分析和逐步回归相结合的手段增选变量。尝试对全模型和简化模型的残差做出解释,考察了异方差和自相关现象的存在性。并着重分析了异常点及变量间的多重共线性,对出现的严重多重共线性,本文采用主成分回归消除共线性并得出最后的拟合模型。
在解释模型阶段,结合问题背景对模型的合理性做出解释,并分析了模型中部分偏离实际现象产生的原因。
在论文的最后,还给出了本次回归分析的心得体会,强调了有序进行研究、多方法结合和联系实际的重要性。
关键词:医疗就诊 残差分析 异常点 共线性诊断 主成分回归
The discussion on medical attendance based on statistical analysis
[Summary]
This article applied statistical regression to analyze the main factors influencing medical attendance and used the SPSS software to the regression model. After the variables selection and model correction, the article drew the conclusion that medical attendance has a linear relationship with the total number of residents ' wages, medical institutions and environmental noise index mainly. Then it put forward a proposal about government decisions and configured medical improvements on this conclusion.
The data source for the article is Shenzhen statistics yearbook. During the model fitting, it combined significance analysis and stepwise regression to select variables. Also, it tried to explain the residuals of full model and reduced model, and investigated the existence of heteroscedasticity and autocorrelation. Moreover, the article analyzed the outliers and multicollinearity around the variables. For the serious multicollinearity, the article used principal component regression to delete it and got the final model.
As for the explanation of model, the article gave a reasonable explanation based on the problem background and tried to find the reasons why there were some parts beyond the actual phenomenon.
In the final, the article talked about the work experience, stressing the importance of orderly research, multi-method and contacting with actual phenomenon.
Keywords: Medical Attendance Residual Analysis Outliers Multicollinearity Detection Principal Component Regression
【目 录】
正文 4
1 问题背景 4
2 数据获取与筛选 4
3 拟合模型 5
3.1 变量检查 5
3.2 成对分析变量间关系 7
3.2.1 成对变量散点图 7
3.2.2 相关矩阵 8
3.2.3 共线性初探 9
3.3 全模型、简化模型及其残差解释 10
3.3.1 全模型回归 10
3.3.2 简化模型回归 11
3.3.3 简化模型残差分析 12
3.3.4 异常点的发现与处理 13
3.4 逐步回归增选变量 16
3.5 共线性诊断与主成分回归 17
3.5.1 共线性诊断 17
3.5.2 消除共线性——主成分回归 18
3.5.3 残差分析 20
4 结论与解释 21
总结与心得 23
参考文献 24
【正 文】
1 问题背景
根据我国现今国情,人口规模庞大仍然是一个热点问题,随之带来的资源配置不足也成为了亟待解决的难题。本文主要关心医疗事业的适应性发展,即构建“医院就诊人次”的分析回归模型,了解就诊人数与人口、环境、经济等因素的关系,以期对未来医疗配置的改进起指导作用。
2 数据获取与筛选
限于居民是否就诊及人口、环境、经济等因素有很强的地域差异性,本次建模回归中我们选取了“深圳”地区作为研究对象。基于《深圳统计年鉴2011》选取了1996-2010年医院就诊人数、总人口、工资、环境指标、卫生机构数等作为研究变量。具体数据如下:
年份 Year
医疗机构总诊疗人次(万人次)
年末户籍人口户数 (万户)
年平均工资(元)
卫生机构数
合计
(个)
可吸入颗粒物
年平均值
(mg/m3)
集中式饮用水
水源地
水质达标率
(%)
区域环境噪声
平均值
dB(A)
1996
1961
30.35
14507
1422
0.135
96.8
58
1997
1821
32.15
16531
1126
0.095
96.81
57.2
1998
1941
34.07
18381
899
0.092
97.2
57.2
1999
2050
36.15
20714
687
0.087
98.1
57.1
2000
2175
38.87
23039
683
0.059
98.73
57
2001
2408
41.14
25941
723
0.063
93.45
56.1
2002
2689
44.73
28218
761
0.061
96.11
56
2003
3052
47.55
30611
893
0.07
97.13
56
2004
3514
52.04
31928
856
0.076
96.71
56.1
2005
4055
57.01
32476
1063
0.064
98.11
56.2
2006
5170
61.37
35107
1692
0.064
98.07
56.5
2007
5954
64.88
38798
1781
0.064
98.86
56.5
2008
6842
67.1
43454
1806
0.063
99.87
56.4
2009
7549
69.81
46723
1963
0.057
100
56.8
2010
7914
71.44
50456
1769
0.057
100
56.7
对列出的各项指标解释如下(同时列出各变量在SPSS软件中对应的符号Y、X1、X2等):
Y :医疗机构总诊疗人次,为此次回归的因变量,通过诊疗人次可决定医疗资源的未来分配;
X1 :年末户籍人口户数,某一地区的就诊人数与该地区的总人数必定有一定的联系,因此选为回归自变量;
X2 :年平均工资,居民在患病时是否就医与其经济支付能力也有一定相关性,因此选为回归自变量;
X3 :卫生机构数合计,医疗资源是否充足也会决定患病居民能否成功就诊,因此选为回归自变量;
X4 :可吸入颗粒物年平均值,这一指标从一个侧面反映了环境污染程度,进而考察了环境水平对人体健康的影响;
X5 :集中式饮用水水源地水质达标率,同X4,也为环境因素;
X6 :区域环境噪声平均值,同X4、X5,为环境因素。
3 拟合模型
3.1 变量检查
描述统计量
N
极小值
极大值
均值
方差
偏度
统计量
统计量
统计量
统计量
统计量
统计量
标准误
Y
15
1821
7914
3939.67
4770960.952
.795
.580
X1
15
30.35
71.44
49.9107
209.634
.172
.580
X2
15
14507
50456
30458.93
1.215E8
.322
.580
X3
15
683
1963
1208.27
227084.924
.405
.580
X4
15
.057
.135
.07380
.000
2.012
.580
X5
15
93.45
100.00
97.7300
2.992
-.794
.580
X6
15
56.0
58.0
56.653
.324
.844
.580
通过上表可以看出,共有十五组数据。对比每个变量的最大值、最小值,X1、X3、X4、X5、X6的变化幅度都不是很大,尤其X6几乎无明显变化;变化幅度较大的Y和X2,经检验具体数据也可发现它们每年的涨幅比较大,不存在突变现象,所以也是适用的。而且观察均值栏可发现,它们一般处于最大、最小值的中间,是非常好的结论。
由于各变量基本都是逐年(某些甚至是大幅度的)递增的数据,方差的大小对检验变量没有过多的参考价值。
观察偏度系数,都保持在一个很小的水平,其标准误也很微小,则可以认为数据的对称性较好,无需做进一步数据变换。
下边的直方图也可以直观的支持上述结论(为避免篇幅冗长,只列出部分):
对于直方图中反映的各变量中较小数据比较大数据多的现象,分析数据来源,在1996-2010年间,是社会经济、科技不断发展的阶段,因此出现前期各项指标较低、后期短期内飞速发展,导致总体数据中,较小量占多数是合理的。
再绘制Y与各自变量间的散点图,以下两幅值得注意:
上面左图中,Y与X4的线性关系不明显,怀疑X4为不具有解释力的变量,具体是否将X4作为变量拟合模型,还需后续部分检验
上面右图中,Y与X5可以看出存在正相关关系,但各个点分布较分散,仅用一条直线难以拟合得很好。但是还有其他变量共同拟合,在后续工作中根据增选变量情况,可以进一步看出X5是否能很好的同其余变量一起完成拟合,或是 X5可以被其余变量替代而被剔除。
3.2 成对分析变量间关系
成对分析变量之间的关系可以对剔除无关变量、拟合模型的方法选择、共线性程度的初步了解提供有用的信息,下面从散点图、相关矩阵、共线性初探三个方面分析变量间的关系。
3.2.1 成对变量散点图
观察下边散点图(限于篇幅只列出提供重要信息的部分图):
上边左图表现了X1-X2极为明显的共线性,右图X1-X5也显示了正相关趋势;
上边两个图也显示了变量间的正相关关系。结合问题背景分析,人口、工资、环境、医疗设施等因素是紧密相连的,它们都适应着社会经济、科技、教育的发展,牵一发而动全身,因此存在或多或少的关联性是必然的。因此,在后边构建模型时,要进一步分析共线性,并采取相应的消除措施。
3.2.2 相关矩阵
相关性
Y
X1
X2
X3
X4
X5
X6
Pearson 相关性
Y
1.000
.964
.962
.853
-.557
.720
-.256
X1
.964
1.000
.981
.747
-.684
.645
-.466
X2
.962
.981
1.000
.695
-.717
.623
-.483
X3
.853
.747
.695
1.000
-.139
.667
.134
X4
-.557
-.684
-.717
-.139
1.000
-.288
.759
X5
.720
.645
.623
.667
-.288
1.000
.170
X6
-.256
-.466
-.483
.134
.759
.170
1.000
通过上面相关性矩阵也可以看出,部分变量之间的相关性高达0.8-0.9,再一次验证了线性相关的存在,下边分析与多重共线性相关的几个统计量,以期对共线性程度有大致了解。
3.2.3 共线性初探
此处只是大致对共线性程度做一了解,具体的共线性分析及解决在增选变量后的“3.5”部分会做详细说明。
共线性诊断a
模型
维数
特征值
条件索引
方差比例
(常量)
X1
X2
X3
X4
X5
X6
1
1
6.708
1.000
.00
.00
.00
.00
.00
.00
.00
2
.224
5.471
.00
.00
.00
.01
.02
.00
.00
3
.061
10.464
.00
.00
.00
.11
.03
.00
.00
4
.006
34.687
.00
.01
.17
.25
.83
.00
.00
5
.001
70.547
.00
.56
.76
.09
.05
.00
.00
6
8.063E-5
288.419
.07
.00
.00
.03
.01
.48
.00
7
5.849E-6
1070.908
.93
.43
.06
.52
.06
.52
1.00
a. 因变量: Y
上述特征值中,接近于0的有两个;条件数在10-100间的有三个,大于100的有两个;方差比例的第七行显示常量与X2的共线性、第五行显示了X1与X2的共线性,与散点图吻合。
模型
非标准化系数
共线性统计量
B
标准 误差
容差
VIF
1
(常量)
-35181.178
9003.610
X1
22.837
20.892
.016
64.448
X2
.145
.019
.032
31.139
X3
.978
.268
.087
11.504
X4
-1772.204
4028.677
.198
5.053
X5
-8.604
47.485
.210
4.752
X6
588.718
208.749
.101
9.947
上表中X1、X2、X3显示出了10以上的VIF值,表明变量间的多重共线性还是很严重的。在3.4、3.5部分会着重异常值和共线性的处理。
以下是岭回归结果,此处只是简单分析,后面的拟合过程,主要采用了主成分回归法消除共线性(详见部分“3.5.2 共线性消除——主成分回归)
3.3 全模型、简化模型及其残差解释
3.3.1 全模型回归
全模型:Y=β0+β1X1+β2X2+β3X3+β4X4+β5X5+β6X6+ε
做Y与各自变量的线性回归,部分输出结果如下:
模型汇总b
模型
R
R 方
调整 R 方
标准 估计的误差
1
.999a
.998
.996
140.986
a. 预测变量: (常量), X6, X3, X5, X4, X2, X1。
b. 因变量: Y
通过上表可以看出,R2接近为1,但是不能因此得出回归模型很好的结论,还需进一步分析得到隐藏于变量中的其他关系。
模型
非标准化系数
标准系数
t
Sig.
B
标准 误差
试用版
1
(常量)
-35181.178
9003.610
-3.907
.004
X1
22.837
20.892
.151
1.093
.306
X2
.145
.019
.732
7.602
.000
X3
.978
.268
.213
3.648
.007
X4
-1772.204
4028.677
-.017
-.440
.672
X5
-8.604
47.485
-.007
-.181
.861
X6
588.718
208.749
.153
2.820
.022
上表中给出了全模型的 t 检验及 F 检验的 p 值,根据t值较小以及若Sig>α=0.05就删除变量的原则,需要剔除变量X1、X4、X5,进而得到简化模型
3.3.2 简化模型回归
简化模型:Y=β0+β2X2+β3X3+β6X6+ε
模型
R
R 方
调整 R 方
标准 估计的误差
1
.999a
.997
.996
133.189
a. 预测变量: (常量), X6, X3, X2。
b. 因变量: Y
简化模型的回归结果显示R2仍然较大,但较之全模型有比较细微的减小。
模型
非标准化系数
标准系数
t
Sig.
B
标准 误差
试用版
1
(常量)
-28785.224
6124.217
-4.700
.001
X2
.168
.008
.849
22.045
.000
X3
1.135
.156
.248
7.279
.000
X6
462.996
107.246
.121
4.317
.001
此时三个变量的Sig值均很小,表明与Y显著相关,可以选作回归变量。得到的简化模型如下:
Y=-28785.224+0.168X2+1.135X3+462.996X6
下面对简化模型的残差尝试性解释,并做数据异常点(高杠杆值、强影响点等)的发现、解释与处理。
3.3.3 简化模型残差分析
观察下述残差关于自变量的散点图:
从以上三个散点图的趋势上,看不到明显的“漏斗形”和“类正余弦”图线,则可以认为在该简化模型的残差中不存在明显的异方差和自相关现象。因此可省略加权最小二乘步骤,也可以通过以下P-P图考察残差特性:
3.3.4 异常点的发现与处理
a) Cook距离
通过SPSS计算得到Cook距离如下:
年份 Year
Cook's Distance
1996
0.8988
1997
0.02905
1998
0.06296
1999
0.1428
2000
0.06017
2001
0.00571
2002
0.01988
2003
0.25768
2004
0.00097
2005
0.04744
2006
0.00583
2007
0.00572
2008
0.11248
2009
0.02376
2010
0.07455
当Cook<0.5时认为不存在异常,当Cook>1时认为可能存在异常点。在上表中,第一行(1996年)数据的Cook距离远大于其他年份,且Cook=0.8988比较接近1,因此通过Cook距离判定,初步怀疑这一年的数据存在相对于Y值的异常点。
b) 杠杆值
通过SPSS计算得到中心化杠杆值及对应计算的原始杠杆值如下:
年份 Year
Centered
Leverage
Value
Leverage
Value
1996
0.46649
0.533
1997
0.20042
0.267
1998
0.11024
0.177
1999
0.21967
0.286
2000
0.24326
0.31
接前表:
2001
0.13968
0.206
2002
0.14797
0.215
2003
0.12158
0.188
2004
0.10163
0.168
2005
0.04909
0.116
2006
0.19393
0.261
2007
0.16032
0.227
2008
0.14083
0.207
2009
0.24381
0.31
2010
0.46108
0.528
当杠杆值≥2(p+1)/n时认为存在异常点,p+1=4,n=15,则可计算2(p+1)/n=0.5333。分析上表,第一行(1996年)数据的原始杠杆值为0.53,认为其存在关于X的异常;第十五行(2010年)数据的原始杠杆值为0.528,较为接近临界值,因此同样怀疑其存在异常点。为了使异常值的检验更加完备,下面用P-R图分析。
c) P-R图分析
年份 Year
P
R
1996
1.14
-12.56
1997
0.36
2.55
1998
0.21
-33.15
1999
0.4
-18.83
2000
0.45
6.69
2001
0.26
0.49
2002
0.27
2.09
2003
0.23
-6.36
2004
0.2
0.09
2005
0.13
-14.59
2006
0.35
0.38
2007
0.29
0.44
2008
0.26
-12.07
2009
0.45
1.55
2010
1.12
3.08
红色箭头指示的两个点显示了异常,对比数据集,发现这两个点恰好为1996年和2010年的数据。
分析异常点产生原因:
综合以上三种分析方法,发现1996年的数据存在较明显的异常,2010年数据次之。
分析异常点产生的原因,对比《统计年鉴》,认为此处不存在数据的录入失误,因此异常值是由问题背景引起的。1996年为“八五”时期末、“九五”时期初,正值经济转型的过渡时期,因此出现了与后续数据涨幅不匹配的情况;2010年为“十一五”时期末,国民经济迎来新的变革,因此也出现了较大的波动,如果我们能够将11、12年等后续数据加入数据集,可能就会消除部分异常。
异常点处理方法
数据来源于2011年深圳年鉴,若想获取后续数据、增大数据集需要2012年及以后的年鉴,现阶段还没有发布。所以采用删除部分数据行的办法。考虑到拟合模型的目的是为了对未来的医疗合理配置进行预测,2010年的数据是反映变化趋势的重要部分,不能除去。而1996年的数据作为过去数据,且处于经济革新之前,可以除去,以减少模型建立的异常值。因此将1996年数据(第一行)除去,后续工作对剩余14组数据展开。
3.4 逐步回归增选变量
在“3.3”部分通过Sig值剔除了变量X1、X4、X5,下边用逐步回归的方法增选变量。输出结果如下:
模型汇总
模型
R
R 方
调整 R 方
标准 估计的误差
1
.972a
.944
.940
539.376
2
.996b
.992
.990
216.531
3
.999c
.998
.997
118.020
a. 预测变量: (常量), X2。
b. 预测变量: (常量), X2, X3。
c. 预测变量: (常量), X2, X3, X6。
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准 误差
试用版
1
(常量)
-2348.111
473.522
-4.959
.000
X2
.203
.014
.972
14.254
.000
2
(常量)
-2317.653
190.132
-12.190
.000
X2
.138
.010
.661
13.879
.000
X3
1.697
.213
.379
7.966
.000
3
(常量)
-31230.636
5562.474
-5.615
.000
X2
.163
.007
.779
22.594
.000
X3
1.232
.146
.276
8.413
.000
X6
507.213
97.564
.103
5.199
.000
a. 因变量: Y
从表格中可以看到模型三为最优,即选择变量X2、X3、X6,与“3.3”部分得到的结果一致,则在“3.3”中所做的一系列工作是有效可用的。后面的诊断与回归均是针对 Y 与变量X2、X3、X6间的关系展开。
3.5 共线性诊断与主成分回归
3.5.1 共线性诊断
a) VIF
模型
非标准化系数
标准系数
t
Sig.
共线性统计量
B
标准 误差
试用版
容差
VIF
1
(常量)
-31230.636
5562.474
-5.615
.000
X2
.163
.007
.779
22.594
.000
.187
5.344
X3
1.232
.146
.276
8.413
.000
.207
4.823
X6
507.213
97.564
.103
5.199
.000
.564
1.773
由上表可以看出,各VIF值并不是很大,因此还需借助其他方法进一步判断。
b) 特征值判断
共线性诊断a
模型
维数
特征值
条件索引
方差比例
(常量)
X2
X3
X6
1
1
3.871
1.000
.00
.00
.00
.00
2
.110
5.942
.00
.02
.10
.00
3
.020
14.000
.00
.54
.53
.00
4
1.620E-5
488.840
1.00
.44
.37
1.00
a. 因变量: Y
在上表中,第四行数据的特征值接近于0,则可以判断变量间存在共线性。
c) 条件数判断
同样观察“共线性诊断”表格,条件索引一栏中,第三行数据k在10-100之间,说明较强的共线性;第四行数据k在100以上,说明存在极强的共线性。
d) 观察方差比例
在“方差比例”一栏中,第四行的常量与X6方差比例同时为1.00,说明常数项与变量X6间存在多重共线性;第三行X2、X3方差比例同时为0.5左右,说明变量X2、X3间存在多重共线性。
综合上述几种方法,得出该模型的几个变量反映了较强的多重共线性的结论,下边提出解决办法。
3.5.2 消除共线性——主成分回归
消除共线性主要有三种方式,即:1)剔除变量;2)增加样本容量;3)回归系数有偏估计。在本模型中,经过前边一系列的变量筛选已经只剩余三个变量,且均显示出较好的显著性,再剔除变量显然是不可行的。而考虑数据来源,增大样本容量的新数据也无从获取。因此,采用回归系数有偏估计的方法消除共线性。在岭回归、主成分回归、偏最小二乘中选择主成分回归完成以下步骤:
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的 %
累积 %
合计
方差的 %
累积 %
1
1.857
61.886
61.886
1.857
61.886
61.886
2
1.048
34.923
96.809
1.048
34.923
96.809
3
.096
3.191
100.000
提取方法:主成份分析。
由上表,当到第二个成分时,累计百分率已达96.809%,因此抽取两个主成分。
通过Fac1_1和Fac2_1计算主成分,即:
prin1=sqrt(λ1)* Fac1_1, λ1=1.857
prin2=sqrt(λ2)* Fac2_1, λ2=1.048
计算数据如下:
年份 Year
Fac1_1
Fac2_1
prin1
prin2
1997
-1.04506
1.34458
-1.42
-1.07
1998
-1.1785
1.17171
-1.61
-1.21
1999
-1.23803
0.80328
-1.69
-1.27
2000
-1.09077
0.58389
-1.49
-1.12
2001
-0.59255
-1.23626
-0.81
-0.61
2002
-0.40586
-1.42529
-0.55
-0.42
2003
-0.15451
-1.34399
-0.21
-0.16
2004
-0.16018
-1.17416
-0.22
-0.16
2005
0.03868
-0.82527
0.05
0.04
2006
0.69267
0.22167
0.94
0.71
2007
0.96621
0.26497
1.32
0.99
2008
1.25911
0.05345
1.72
1.29
2009
1.44013
0.96235
1.96
1.47
2010
1.46865
0.59906
2
1.5
现在用Y对前两个主成分prin1和prin2做普通最小二乘回归:
模型汇总
模型
R
R 方
调整 R 方
标准 估计的误差
1
.980a
.960
.956
458.362
a. 预测变量: (常量), prin2。
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准 误差
试用版
1
(常量)
4081.000
122.502
33.314
.000
prin2
2099.925
124.181
.980
16.910
.000
a. 因变量: Y
其中prin1在回归时被自动排除。
得主成分回归方程为:
Y=4081.000+0·prin1+2099.925·prin2
再分别用两个主成分prin1和prin2做因变量,以三个原始自变量为自变量做线性回归:
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准 误差
试用版
1
(常量)
23.029
.000
.
.
X2
6.826E-5
.000
.525
.
.
X3
.001
.000
.489
.
.
X6
-.474
.000
-.155
.
.
a. 因变量: prin1
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准 误差
试用版
1
(常量)
17.300
.000
2.813E7
.000
X2
5.128E-5
.000
.525
6.424E7
.000
X3
.001
.000
.489
6.296E7
.000
X6
-.356
.000
-.155
-3.301E7
.000
prin1=23.029+(6.826*10-5)X2+0.001X3-0.474X6
prin2=17.300+(5.128*10-5)X2+0.001X3-0.356X6
还原后的主成分回归方程为:
Y=40409.
展开阅读全文