资源描述
第一章 方差分析
例1、1977年,美国的某项调查从三种受过不同教育类型的妇女中各分别抽取了50位全日制工作的妇女样本,她们的年收入(单位:千美元)数据整理后归纳如下:
完成的学历年数
收入平均值()
初中(8年)X1
高中(12年)X2
大学(16年)X3
7.8
9。7
14。0
1835
2442
4707
解:: =
:三组收入均值有显著差异
F = ,即组间均方/组内均方
其中,组间自由度=3—1=2,组内自由度=(50—1)╳3=147
由于样本均值=(7。8+9.7+14。0)/3=10.5
所以组间偏差平方和=50=50*(++)=1009
组内偏差平方和==1835+2442+4707=8984
所以,F = ≈ 8.2548419 〉 (2,147)=3。07
拒绝原假设;认为不同学历的妇女收入存在差异。
例2、月收入数据:
男:2500,2550,2050,2300,1900
女:2200,2300,1900,2000,1800
如果用Y表示收入,哑变量X表示性别(X=1为女性),计算Y对X的回归方程,并在5%的水平下检验收入是否与性别无关(先求回归系数的置信区间)。
解:令Y=+X+
根据最小二乘法,可知= (1)
VAR()= (2)
= (3)
计算如下:
:收入与性别无关
收入与性别不完全无关
Y
2500
2550
2050
2300
1900
2200
2300
1900
2000
1800
X
0
0
0
0
0
1
1
1
1
1
240
290
—210
40
—360
160
260
—140
—40
—240
=2150=0。5
根据公式1,得=—220;,即Y=-220X+
根据公式2、3,得VAR()=≈156.3549577
n=10。,n—2=8;当df=8时,=2.306
的0.05置信区间求解方法如下:
—2.036〈=〈=2.306,得140。57769.
由于原假设=0落入了这个置信区间,所以接受原假设,认为系数不显著,收入与性别无关。
第二章 相关分析
例1、10对夫妇的一个随机样本给出了如下的结婚年龄数据
结婚时丈夫的年龄y
24 22 26 20 23 21 24 25 22 23
结婚时妻子的年龄x
24 18 25 22 20 23 19 24 23 22
1) 计算样本相关系数r;
2) 求总体相关系数的95%置信区间;
3) 以5%的水平,检验“夫妻的结婚年龄之间没有什么线性联系”这一原假设。
解:(1) =
由于=22,=23;=≈0。3426
(2)由于se()=,n=10,df=8=2。306,所以:
se()=0.332
-2.036<=〈=2。306
得1.062072
(3):夫妻的结婚年龄之间没有线性相关,
夫妻的结婚年龄之间不完全没有线性相关,≠0
根据第(2)题的计算结果,1.062072
由于的原假设落入了该置信区间,所以接受原假设,认为夫妻的结婚年龄之间没有线性相关关系。
第三章 卡方检验和交互分析
例1、为了研究性别和“最希望看到的有关奥运会的电视节目类型"之间的关系,2004年在10城市调查了1000个样本,调查数据如下:
别
性
频
次
希望看到的节目类型
男
女
赛事直播
261
235
新闻报道
69
42
专题报道
33
40
精彩赛事集锦
36
42
开幕式和闭幕式
87
108
其他
32
15
1) 陈述;
2) 计算和的概值。
解:(1):性别与希望看到的电视节目类型无关
性别与希望看到的电视节目类型不完全无关
(2)理论频数表如下:
别
性
频
次
希望看到的节目类型
男
女
合计
赛事直播
257
239
496
新闻报道
57。5
53.5
111
专题报道
37.8
35.2
73
精彩赛事集锦
40.4
37.6
78
开幕式和闭幕式
101
94
195
其他
24
23
47
合计
518
482
1000
所以= + +.。。≈16。63431164〉=11.07
自由度df=1*5=5;
所以拒绝原假设,备择假设成立,性别与希望看到的电视节目类型是有关联的.
3
展开阅读全文