资源描述
人寿保险额的影响因素分析
摘要
本文结合实际背景,经过对数据的观察并绘出其散点图后,推测经理所购买的人寿保险额只与其年均收入和风险偏好度之间分别存在着二次关系和线性关系。再采用混合回归模型建立起了经理的人寿保险额与其年均收入和风险偏好度之间的函数关系式,通过最小二乘法,利用MATLAB软件的统计工具箱结合题中所给数据对各参数的值与其置信区间进行了估计,并很好的通过了回归的检验。在通过对原模型进行改进的基础上,以一预测模型各参数的置信区间不应有零点作为该预测模型的可行的原则,验证了经理的人寿保险额与其风险偏好度之间不存在二次效应,经理的年均收入和风险偏好度对其人寿保险额不存在交互效应。运用软件对我们的模型进行验证,分析结果然后综合得到。考虑到人寿保险行业的特殊性,影响一个投保人投保额大小的因素并不只是题中提到的两种,比如投保人身体健康状况对其投保额多少就有一定的影响,因此我们对建立的模型进行了推广,并给出了确立新的回归模型的方法。当然数据的准确与否是建立预测模型的关键。所以,为了准确的建立回归模型,我们还需要对有用的资料进行收取。此论文通过对现有调查数据的分析,并用MATLAB等数学软件画出相应的图形,找出数据间的相关关系(一次关系,二次关系等),建立相应的数学模型。 本文的独特之处是建立多个模型,对每个模型进行分析解出结果,并分析回归得一个较优的模型。
[关键词]保险额 风险偏好度 回归系数 MATLAB 回归分析
一、问题的重述
表一列出了某城市18 岁35 岁~44 岁经理的年平均收入x1 千元, 风险偏好度x2 和人寿保险额y 千元的数据, 其中风险偏好度是根据发给每个经理的问卷调查表综合评估得到的, 它的数值越大, 就越偏爱高风险.研究人员想研究此年龄段中的经理所投保的人寿保险额与年均收入及风险偏好度之间的关系.研究者预计, 经理的年均收入和人寿保险额之间存在着二次关系, 并有把握地认为风险偏好度对人寿保险额有线性效应, 但对风险偏好度对人寿保险额是否有二次效应以及两个自变量是否对人寿保险额有交互效应, 心中没底.
请你通过表中的数据来建立一个合适的回归模型, 验证上面的看法, 并给出进一步的分析。
序号
y
x1
x2
序号
y
x1
x2
1
196
66.290
7
10
49
37.408
5
2
63
40.964
5
11
105
54.376
2
3
252
72.996
10
12
98
46.186
7
4
84
45.010
6
13
77
46.130
4
5
126
57.204
4
14
14
30.366
3
6
14
26.852
5
15
56
39.060
5
7
49
38.122
4
16
245
79.380
1
8
49
35.840
6
17
133
52.766
8
9
266
75.796
9
18
133
55.916
6
表一
二、符号的说明
变量
名称
人寿保险额(千元)
年平均收入(千元)
风险偏好度
//
随机误差项
常数项
的系数
的系数
的系数
表二
数据来源于《姜启源 谢金星 叶俊.数学模型(第四版)》
三、问题的分析
我们研究的是35-44岁年龄阶段的经理对人寿保险额的态度关系。由于我们并不确定年平均收入、风险偏好度和人寿保险额之间的关系,所以我们首先根据上述数据画出y与x1、x2之间的散点图再进行判断。
首先我们根据数据画出年平均收入x1、风险偏好度x2 和人寿保险额y 的散点图如下:
图一 人寿保险额与年平均收入之间的关系
图二 人寿保险额与风险偏好度之间的关系
由上述两幅图知道人寿保险额与年平均收入、风险偏好度之间存在着线性关系,然而我们不能根据两幅图判断出为一次还是二次或是多次的关系,所以进行以下分析。
四、 模型的建立与求解
因为散点图不能明确表示人寿保险额与年平均收入、风险偏好度之间的关系,所以我们建立四个模型如下,其中包括模型一,人寿保险额与年平均收入、风险偏好度之间的一次线性回归关系;模型二,人寿保险额与年平均收入的一次及与风险偏好度之间的二次关系;模型三,人寿保险额与年平均收入、风险偏好度之间一次关系以及与两个变量交互作用下的一次关系;模型四,人寿保险额与年平均收入的二次关系及与风险偏好度的一次关系。
模型一:
建立如下线性模型:
利用软件matlab进行线性回归:
并得到表三所示统计量以及各个参数及参数的置信区间:
参数
参数估计值
置信区间
-158.7676
-176.5092 -141.0259
4.8434
4.5255 5.1613
5.2014
3.0554 7.3475
表三
结果中样本可绝系数,表示拟合程度良好,并且F值为623.4,所对应的P值小于检验统计量0.05,表示模型整体具有统计学意义。误差方差估计值为85.6。从而得到回归模型如下:
模型二:
风险偏好度对人寿保险额是否有二次效应,建立如下模型:
利用软件进行回归分析得到表四所示统计量以及各个参数及参数的置信区间:
参数
参数估计值
置信区间
-113.8980
-153.4432 -74.3527
4.4582
4.0437 4.8726
-6.7426
-16.6407 3.1555
1.1385
0.2112 2.0657
表四
结果中样本可绝系数,表示拟合程度良好,并且拟合程度高于模型一。F值为582.57,所对应的P值小于检验统计量0.05,表示模型整体具有统计学意义。误差方差估计值为61.33,低于模型一。然而参数的置信区间中包含零点,所以该变量不具有统计学意义。但是有统计学意义,所以要保留在方程中,从而得到回归模型如下:
模型三:
若两个自变量对人寿保险额有交互效应,建立模型如下:
利用软件进行回归得到表五所示模型统计量及参数和参数的置信区间:
参数
参数估计值
置信区间
-149.7179
-202.0681 -97.3676
4.7066
3.8955 5.5176
3.3206
-7.1068 13.7480
0.0285
-0.1259 0.1829
表五
结果中样本可绝系数,表示拟合程度良好,并且拟合程度低于模型二。F值为392.44,所对应的P值小于检验统计量0.05,表示模型整体具有统计学意义。误差方差估计值为90.69,高于模型一。然而参数的置信区间中包含零点,所以该变量不具有统计学意义。从而得到回归模型如下:
模型四:
年均收入和人寿保险额之间存在着二次关系,没有自变量间的交互作用以及风险偏好度对人寿保险的二次效应。于是我们建立如下回归模型:
参数
参数估计值
置信区间
-62.3489
-73.5027 -51.1952
0.8396
0.3951 1.2840
5.6846
5.2604 6.1089
0.0371
0.0330 0.0412
表六
结果中样本可绝系数,表示拟合程度非常好,且高于前面三个模型。F值为11070,所对应的P值小于检验统计量0.05,表示模型整体具有统计学意义。误差方差估计值为3,远小于前面三个模型。且各个参数的置信区间中均不包含零点,所以改模型中的变量都具有统计学意义。从而得到回归模型如下:
五、 模型的结果与评价
四个模型中,模型四拟合程度最高,参数的置信区间最短,可以说是四个模型中的最优模型。分析最优模型可以看出,只有经理们的年均收入及其二次项和风险偏好度本身对他们投保的人寿保险额具有显著影响。从模型可以看出,当经理的年均收入每增加一个单位,他们的人寿保险额增加839.6元;当年均收入的二次项增加一个单位,他们都人寿保险额增加37.1元;当他们的风险偏好度每增加一个单位,人寿保险额增加5684.6元。可见,越是重视风险程度的人,人寿保险额越高。
五、参考文献
【1】姜启源 谢金星 叶俊.数学模型(第四版)【M】.北京:高等教育出版社,2011,1
【2】沈凡.我国人寿保险行业发展的影响因素.浙江:浙江金融,2009,6
附录
1.
m=[1 196 66.290 7
2 63 40.964 5
3 252 72.996 10
4 84 45.010 6
5 126 57.204 4
6 14 26.852 5
7 49 38.122 4
8 49 35.840 6
9 266 75.796 9
10 49 37.408 5
11 105 54.376 2
12 98 46.186 7
13 77 46.130 4
14 14 30.366 3
15 56 39.060 5
16 245 79.380 1
17 133 52.766 8
18 133 55.916 6
];
y=m(:,2);
x1=m(:,3);
x2=m(:,4);
x3=x2.^2; %x3=x1.*x2/x3=x2.^2/x3=x1.^2
x=[ones(18,1) x1 x2 x3];
[b,bint,r,rint,stats]=regress(y,x,0.05)
scatter(x1,y,'*k')
scatter(x2,y,'*k')
b =
2.
-62.3489
0.8396
5.6846
0.0371
bint =
-73.5027 -51.1952
0.3951 1.2840
5.2604 6.1089
0.0330 0.0412
r =
-0.0512
0.3076
-1.3718
-0.6730
-3.7605
-1.3560
2.7129
-0.4817
0.5130
-0.3725
0.6842
2.6781
-1.0293
-0.3930
0.5561
1.3578
2.3248
-1.6456
rint =
-3.7791 3.6766
-3.5324 4.1475
-4.4124 1.6688
-4.4677 3.1217
-6.6500 -0.8710
-4.2144 1.5023
-0.7344 6.1602
-4.2149 3.2516
-2.6183 3.6443
-4.1840 3.4390
-2.6447 4.0132
-0.7217 6.0779
-4.7396 2.6810
-3.8132 3.0272
-3.2676 4.3798
-0.4637 3.1793
-1.0358 5.6855
-5.2685 1.9773
stats =
1.0e+004 *
0.0001 1.1070 0 0.0003
9
展开阅读全文