资源描述
4.2 随机抽取25个网络用户,得到他们的年龄数据如下:
19
15
29
25
24
23
21
38
22
18
30
20
19
19
16
23
27
22
34
24
41
20
31
17
23
要求;(1)计算众数、中位数:
1、排序形成单变量分值的频数分布和累计频数分布:
网络用户的年龄
Frequency
Percent
Cumulative Frequency
Cumulative Percent
Valid
15
1
4.0
1
4.0
16
1
4.0
2
8.0
17
1
4.0
3
12.0
18
1
4.0
4
16.0
19
3
12.0
7
28.0
20
2
8.0
9
36.0
21
1
4.0
10
40.0
22
2
8.0
12
48.0
23
3
12.0
15
60.0
24
2
8.0
17
68.0
25
1
4.0
18
72.0
27
1
4.0
19
76.0
29
1
4.0
20
80.0
30
1
4.0
21
84.0
31
1
4.0
22
88.0
34
1
4.0
23
92.0
38
1
4.0
24
96.0
41
1
4.0
25
100.0
Total
25
100.0
从频数看出,众数Mo有两个:19、23;从累计频数看,中位数Me=23。
(2)根据定义公式计算四分位数。 Q1位置=25/4=6.25,因此Q1=19,Q3位置=3×25/4=18.75,因此Q3=27,或者,由于25
和27都只有一个,因此Q3也可等于25+0.75×2=26.5。
(3)计算平均数和标准差; Mean=24.00;Std. Deviation=6.652
(4)计算偏态系数和峰态系数: Skewness=1.080;Kurtosis=0.773
(5)对网民年龄的分布特征进行综合分析:分布,均值=24、标准差=6.652、呈右偏分布。如需看清楚分布形态,需要进行分组。
为分组情况下的直方图:
为分组情况下的概率密度曲线:
分组:
1、确定组数:,取k=6
2、确定组距:组距=( 最大值 - 最小值)÷ 组数=(41-15)÷6=4.3,取5
3、分组频数表
网络用户的年龄 (Binned)
Frequency
Percent
Cumulative Frequency
Cumulative Percent
Valid
<= 15
1
4.0
1
4.0
16 - 20
8
32.0
9
36.0
21 - 25
9
36.0
18
72.0
26 - 30
3
12.0
21
84.0
31 - 35
2
8.0
23
92.0
36 - 40
1
4.0
24
96.0
41+
1
4.0
25
100.0
Total
25
100.0
分组后的均值与方差:
Mean
23.3000
Std. Deviation
7.02377
Variance
49.333
Skewness
1.163
Kurtosis
1.302
分组后的直方图:
4.11 对10名成年人和10名幼儿的身高进行抽样调查,结果如下:
成年组
166 169 l72 177 180 170 172 174 168 173
幼儿组
68 69 68 70 7l 73 72 73 74 75
要求:(1)如果比较成年组和幼儿组的身高差异,你会采用什么样的统计量?为什么?
均值不相等,用离散系数衡量身高差异。
(2)比较分析哪一组的身高差异大?
成年组
幼儿组
平均
172.1
平均
71.3
标准差
4.201851
标准差
2.496664
离散系数
0.024415
离散系数
0.035016
幼儿组的身高差异大。
7.6利用下面的信息,构建总体均值µ的置信区间:
1) 总体服从正态分布,且已知σ = 500,n = 15, =8900,置信水平为95%。
解: N=15,为小样本正态分布,但σ已知。则1-a=95%,。其置信区间公式为
∴置信区间为:8900±1.96×500÷√15=(8646.7 , 9153.2)
2) 总体不服从正态分布,且已知σ = 500,n = 35, =8900,置信水平为95%。
解:为大样本总体非正态分布,但σ已知。则1-a=95%,。其置信区间公式为
∴置信区间为:8900±1.96×500÷√35=(8733.9 9066.1)
7.9某居民小区为研究职工上班从家里到单位的距离,抽取了由16个人组成的一个随机样本,他们到单位的距离分别是:10,3,14,8,6,9,12,11,7,5,10,15,9,16,13,2。假设总体服从正态分布,求职工上班从家里到单位平均距离的95%的置信区间。
解:小样本正态分布,σ未知。已知,n = 16,,则 , α/2=0.025,查自由度为n-1 = 15的 分布表得临界值 2.14
样本均值=150/16=9.375
再求样本标准差:= √253.75/15 ≈ 4.11
于是 , 的置信水平为 的置信区间是
,
9.375±2.14×4.11÷√16 即(7.18,11.57)
8.5某种大量生产的袋装食品,按规定不得少于250克。今从一批该食品中任意抽取50袋,发现有6袋低于250克。若规定不符合标准的比例超过5%就不得出厂,问该批食品能否出厂(a=0.05)?
解:已知N=50,P=6/50=0.12,为大样本,右侧检验,用Z统计量计算。a=0.05,即Za=1.645
H0:丌≤5%
H1:丌>5%
= (0.12-0.05)/√(0.05×0.95÷50)≈2.26
(因为没有找到丌表示的公式,这里用P0表示丌0)
结论:因为Z值落入拒绝域,所以在a=0.05的显著性水平上,拒绝H0,而接受H1。
决策:有证据表明该批食品合格率不符合标准,不能出厂。
8.6某厂家在广告中声称,该厂生产的汽车轮胎在正常行驶条件下超过目前的平均水平25000公里。对一个由15个轮胎组成的随机样本做了试验,得到样本均值和标准差分别为27000公里和5000公里。假定轮胎寿命服从正态分布,问该厂家的广告是否真实(a=0.05)?
解:N=15, =27000,s=5000,小样本正态分布,σ未知,用t统计量计算。这里是右侧检验,a=0.05,自由度N-1=14,即ta=1.77
H0:μ0 ≤25000
H1:μ >25000
μ0
-
=
n
s
x
t
= (27000-25000)/(5000÷√15)≈1.55
结论:因为t值落入接受域,所以接受H0 ,拒绝H1。
决策:有证据表明,该厂家生产的轮胎在正常行驶条件下使用寿命与目前平均水平25000公里无显著性差异,该厂家广告不真实。
9.1欲研究不同收入群体对某种特定商品是否有相同的购买习惯,市场研究人员调查了四个不同收入组的消费者共527人,购买习惯分为:经常购买,不购买,有时购买。调查结果如下表所示。
项目
低收入组
偏低收入组
偏高收入组
高收入组
经常购买
不经常购买
有时购买
25
69
36
40
51
26
47
74
19
46
57
37
要求:
⑴提出假设
⑵计算x2值
⑶以a=0.1的显著性水平进行检验
解:
⑴假设 H0 : u1=u2=u3=u4 (有相同的购物习惯)
H1 : u1、u2、u3、u3不全相等 (无相同的购物习惯)
⑵
根据公式算出对应的期望值fe,结果如下表:
利用excel算出 x2 = 17.5544
⑶自由度 = (R - 1)(r - 1)=(3 - 1)(4 - 1)= 6
a=0.1, 由附录表查得 :
x20.1(6)=10.6446
拒绝域为:(10.6446,+∞)
由于x2>x2a,故拒绝原假设H0,即认为不同收入群体对某种特定商品,没有相同的购买习惯。
展开阅读全文