资源描述
东北大学秦皇岛分校
数学模型课程设计报告
经理人的人寿保险模型
院 系
数学与统计学院
专 业
学 号
姓 名
指导教师
张尚国 姜玉山
成 绩
教师评语:
指导教师签字:
2012年7月11日
数学与统计学院数学模型课程设计报告 第 9 页
摘 要
本文通过对数据的观察,并绘出其散点图,推测经理的人寿保险额只与其年均收入和风险偏好度之间分别存在着二次效应和线性效应。在采用混合回归模型建立起了经理的人寿保险额与其年均收入和风险偏好度之间的函数关系式,利用 MATLAB软件的统计工具箱中的regress求解,结合题中所给数据对各参数的值与其置信区间进行了估计,并进行残差分析和数据剔除,以达到模型优化。
在基本模型的基础上,扩展改进了风险偏好二次效应的模型和交互效应模型,在通过求解分析检验,得出风险偏好度对人寿保险金额不具有二次效应,两个变量一定程度上有交互效应。但综合比较之后,可以看出,最优的模型是。
本模型通过已知的统计数据,最终得出了极为近似的函数关系,其基本思想可以推广到其他同类的问题上。
关键词: 回归分析 残差分析 保险 MATLAB
1 问题引入
1.1 问题题目
课程设计的具体问题描述。下表列出了某城市18位35~44岁经历的年平均收入X1(千元),风险偏好度X2和人寿保险Y(千元)的数据,其中风险偏好度是根据发给每个经历的问卷调查表。
综合评估得到的,它的数值越大,就越偏爱高风险。研究人员想研究此年龄段中的经理所投保的人寿保险额与年平均收入及风险偏好度之间的关系。研究者预计,经理的年平均收入和人寿保险额之间存在着二次关系,并有把握地认为风险偏好度对人寿保险额有线性效应,但对于风险偏好度对人寿保险额是否有二次效应以及两个自变量是否对人寿保险额有交互效应,心中没底。请通过表中数据来建立一个合适的回归模型,验证上面的说法,并给出进一步分析。
请通过表中数据来建立一个合适的回归模型,验证上面的说法,并给出进一步分析。
序号
Y
X1
X2
序号
Y
X1
X2
1
196
66.290
7
10
49
37.408
5
2
63
40.964
5
11
105
54.376
2
3
252
72.996
10
12
98
46.186
7
4
84
45.010
6
13
77
46.130
4
5
126
57.204
4
14
14
30.366
3
6
14
26.852
5
15
56
39.060
5
7
49
38.122
4
16
245
79.380
1
8
49
35.840
6
17
133
52.766
8
9
266
75.796
9
18
133
55.916
6
表1.11 统计的X1,X2和Y的数据
1.2 分析与假设
根据我们平常的经验,我们容易做出如下判断:经理的人寿保险额应该随经理人的收入的提升而提高,与该经理人的风险偏好度有着直接的关系。然而,我们并不知道这种关系是二次关系还是线性关系,我们可以通过作图初步判定这种关系。
为了简化模型,我们做如下假设:
(1) 假设经理人的年纪不影响所投保的人寿保险的金额;
(2) 假设经理人身体状况大致相当,无差异;
2 基本模型
题目告知中预计Y与X1二次效应,有较大把握认为Y与X2有线性效应,为了大致地分析Y与X1和X2的关系,首先利用已知数据分别作出对Y对X1和X2的散点图和初步拟合图线。
图2.1 Y对X1的散点图 图2.2 Y对X2的散点图
通过对图形1 的分析发现随着X1 的增加,Y 有向上弯曲增加的趋势,因此拟合的时候选择使用二次拟合,建立2 次函数的模型:
其中 是随机误差
通过对图像2 的分析发现随着X2 的增加,Y 的值有比较明显的线性变化的趋势,因此我们建立了如下的模型:
综合上面的分析,我们建立如下的回归模型
其中X1 和X2为回归变量,是给定收入X1 和风险偏好度X2的数据时,购买的保险Y 的平均值,, ,,是回归系数,由已知的数据估计求解,如果模型建立的大致合适,,那么 应该大致服从均值为零的正态分布。
3 模型分析
3.1 模型求解
直接利用MATLAB统计工具箱中的regress求解(代码见附录),使用格式为:
[b,bint,r,rint,stats]=regress(y,x,alpha)
其中输入y为模型中Y的数据(n维向量,n=18),x为对应于回归系数=(, ,,)的数据矩阵[1 X1 X2 X12]( 矩阵,其中第一列全为1),alpha为置信水平(缺省时=0.05);输出b为的估计值,记作,bint为b的置信区间,r为残差向量y-x,rint为r的置信区间,stats为回归模型的检验统计量,有4个值,第1个回归方程的决定系数R2 (R是相关系数),第2个是F统计量值,第3个是与F统计量对应的概率值p,第4个是估计误差方差。
得到模型的回归系数估计值及其置信区间(置信水平=0.05)、检验统计量R2、F统计量值、p值结果整理如下:
参数
参数估计值
参数置信区间
-62.3489
[ -73.5027 -51.1952 ]
0.8396
[ 0.3951 1.2840 ]
5.6846
[ 5.2604 6.1089 ]
0.0371
[ 0.0330 0.0412 ]
R2 = 1.000 F = 11070 p = 0
表3.11 模型(3)的第一次计算结果
并做出残差图, 由图可知,第5组数据异常,剔除异常数据后,在用regress求解,可得到新的结果,如下表:
参数
参数估计值
参数置信区间
-65.4793
[ -75.0115 -55.9472 ]
0.9879
[ 0.6030 1.3727 ]
5.5789
[ 5.2189 5.9390 ]
0.0358
[ 0.0323 0.0393 ]
R2 = 1.000 F = 16410 p = 0.000
表3.12 模型(3)剔除异常后的计算结果
且剔除异常后的模型得到的残差全部正常。
3.2 模型分析
剔除异常前,结果显示,R2 = 1.000指因变量Y(保险额)接近100%可由模型确定,F值远远超过F检验的临界值,p远小于,因而模型从整体来看是可用的。
剔除异常后,R2、p不变,但F值有较大增加,且估计误差方差变得更小,残差全部正常,故认为剔除后的模型更好。所以得出, ,,的估计值=-65.4793,=0.9879,=5.5789,=0.0358,可以看到它们的置信区间都不含零点,模型可用,可知题目假设经理的年平均收入和人寿保险额之间存在着二次关系,风险偏好度对人寿保险额有线性效应成立,得到预测方程如下,当已知经理人年均收入X1 和X2风险偏好度可以大致得到其人寿保险额。
4 模型扩展
4.1 风险偏好二次效应模型
为了进一步研究风险偏好度X2与保险额Y的关系,我们假设X2也具有二次效应,则建立模型如下:
用同样的方法求解模型,结果整理如下:
参数
参数估计值
参数置信区间
-60.9104
[ -72.6072 -49.2135 ]
0.9303
[ 0.4389 1.4218 ]
0.0359
[ 0.0310 0.0408 ]
4.4529
[ 1.6910 7.2147 ]
0.1159
[ -0.1408 0.3727 ]
R2 = 1.000 F = 8274 p = 0.000
表4.11 模型(4)的计算结果
根据求解结果看,R2、p、F值并没有改善,并且的置信区间含有零点,这表明对Y的影响不显著,即风险偏好度X2对Y没有二次效应。
4.2 风险偏好交互效应模型
前面两种模型都是建立在X1和X2相互独立的基础上,为了进一步讨论X1和X2与Y的关系,再以X1 X2作为一项,表示年平均收入和风险偏好度对保险额的交互效应,添加到模型中,如下:
求解结果整理如下:
参数
参数估计值
参数置信区间
-119.7372
[ -171.1948 -68.2795 ]
4.5630
[ 3.8596 5.2664 ]
-5.6765
[-17.4122 6.0592 ]
1.2026
[ 0.1811 2.2240 ]
-0.0264
[ -0.1662 0.1135 ]
R2 = 0.9922 F = 410.9307 p = 0.0000
表4.21 模型(5)的计算结果
和的置信区间包含零点,且做出残差图(见附录)可知,第11和16组数据异常,故剔除后,在进行一次求解,得到结果整理如下:
参数
参数估计值
参数置信区间
-82.7109
[ -108.8778 -56.5439 ]
1.1854
[ 1.4829 3.2093 ]
-5.6765
[ -6.1036 8.4744 ]
-1.0695
[ -2.1243 -0.0146 ]
0.3572
[ 0.2058 0.5086 ]
R2 = 1.0 F = 1697.3 p = 0.0000
表4.22 模型(5)第一次剔除异常后的计算结果
的置信区间仍包含零点,且在做残差图(见附录)可以看到,第5、6组数据异常,再次剔除,然后继续求解,结果整理如下:
参数
参数估计值
参数置信区间
-79.5084
[-101.0664 -57.9504 ]
1.9106
[ 0.8942 2.9271 ]
3.2038
[ -2.7488 9.1564 ]
-1.4625
[ -2.4402 -0.4848 ]
0.4227
[ 0.2697 0.5758 ]
R2 = 1.0 F = 3392.9 p = 0.0000
表4.23 模型(5)第二次剔除异常后的计算结果
再次做出残差图(见附录),可以看到无异常数据,R2、p、F数值正常,模型总体可用,但是的置信区间包含零点,认为所对应的X2项对Y的影响不明显,故可以在模型中剔除X2项,所以得到交互型模型如下:
5 总结
5.1 模型比较
虽然大致上,模型和模型都是可用的,但是比较结果中各项数据,可以看出模型更为理想,所以最终得出经理人人寿保险金额Y与年均收入X1和风险偏好度X2的关系模型: 。
5.2 模型评价
本模型较好的地模拟了经理人人寿保险金额Y与年均收入X1和风险偏好度X2的关系,运用的回归分析思想和方法还可以推广到其他问题中,模型中得出的关系可以在已知年均收入和风险偏好的情况下预测人寿保险金额。
但是考虑到人寿保险行业的特殊性,影响一个投保人投保额的大小的因素并不只有题中提到的两种,比如投保人的身体健康状况对其投保额的多少就有一定的影响,但对健康因素本模型忽略了,由于模型的变量选取较为简单,模型显得粗糙,还有很大的改进空间。
附 录
1.散点图
1.1 图2.1 Y对X1的散点图
X1 = [ 66.290 40.964 72.996 45.010 57.204 26.852 38.122 35.840 75.796 37.408 54.376 46.186 46.130 30.366 39.060 79.380 52.766 55.916 ];
Y = [196 63 252 84 126 14 49 49 266 49 105 98 77 14 56 245 133 133 ];
plot(X1, Y,'*'); hold on
p=polyfit(X1,Y,2);
x1=[25:0.1:80]; yy = polyval(p,x1);
plot(x1, yy, 'r') hold off
1.2 图2.2 Y对X2的散点图
X2=[7,5,10,6,4,5,4,6,9,5,2,7,4,3,5,1,8,6];
Y = [196 63 252 84 126 14 49 49 266 49 105 98 77 14 56 245 133 133 ];
plot(X2, Y,'*'); hold on
p=polyfit(X2,Y,1);
x2=[0:0.01:10]; yy = polyval(p,x2);
plot(x2, yy, 'r') hold off
2.模型求解
2.1 基本模型求解
X1 = [ 66.290 40.964 72.996 45.010 57.204 26.852 38.122 35.840 75.796 37.408 54.376 46.186 46.130 30.366 39.060 79.380 52.766 55.916 ]';
X2 =[7,5,10,6,4,5,4,6,9,5,2,7,4,3,5,1,8,6]';
Y = [196 63 252 84 126 14 49 49 266 49 105 98 77 14 56 245 133 133 ]';
[b,bint,r,rint,stats]=regress( Y,[ones(18,1),X1,X2,(X1.^2)],0.05)
rcoplot(r,rint)
2.2 二次效应模型求解
X1 = [ 66.290 40.964 72.996 45.010 57.204 26.852 38.122 35.840 75.796 37.408 54.376 46.186 46.130 30.366 39.060 79.380 52.766 55.916 ]';
X2 =[7,5,10,6,4,5,4,6,9,5,2,7,4,3,5,1,8,6]';
Y = [196 63 252 84 126 14 49 49 266 49 105 98 77 14 56 245 133 133 ]';
[b,bint,r,rint,stats]=regress( Y,[ones(18,1),X1,(X1.^2),X2,(X2.^2)],0.05)
rcoplot(r,rint)
2.3 交互效应模型求解
X1 = [ 66.290 40.964 72.996 45.010 57.204 26.852 38.122 35.840 75.796 37.408 54.376 46.186 46.130 30.366 39.060 79.380 52.766 55.916 ]';
X2 =[7,5,10,6,4,5,4,6,9,5,2,7,4,3,5,1,8,6]';
Y = [196 63 252 84 126 14 49 49 266 49 105 98 77 14 56 245 133 133 ]';
[b,bint,r,rint,stats]=regress( Y,[ones(18,1),X1,X2,(X2.^2),(X1.*X2)],0.05)
rcoplot(r,rint)
注:剔除残差时只需删掉各组数据中的对应项,再修改ones(n,1)中的n,再运行即可。
3.残差图:
3.1基本模型残差图
3.2 交互模型初始残差图
3.3 交互模型一次剔除后残差图
参考文献
[1] 姜启源, 谢金星, 叶俊. 数学模型(第三版)[M]. 北京: 高等教育出版社, 2003.
[2] 胡良剑, 孙晓君. MATLAB数学实验(第一版)[M]. 北京: 高等教育出版社, 2006.
[3] 张国权. 数学实验(第一版)[M]. 北京: 科学出版社, 2004.
展开阅读全文