资源描述
统计学模拟考试
一、单选题(20小题,每题1分,计20分)
1、在关于工业企业的调查中,有一个调查项目为“经济类型”,企业经济类型分为“国有企业”、“集体企业”等,则变量“经济类型”是( )
A、定量变量 B、数值变量 C、分类变量 D、顺序变量
2、调查人员欲以统计图形展示企业产品的品种构成,则适用的统计图为( )
A、饼图 B、直方图 C、箱线图 D、茎叶图
3、从100000个家庭中用简单随机抽样方法抽取1000个家庭做样本,设为第个家庭的人数,表示总体平均数、表示样本的数学期望,则与的关系是( )
A、一定相等 B、在大多数情况下相等 C、偶尔相等 D、一定不相等
4、依据多样本箱线图判断比较中位数的大小
(此原题需要画箱线图,电脑上没有适当数据,不便画,谨列出考点,请大家理解)
5、下面说明数据水平的统计量中使用面最广的是( )
A、众数 B、中位数 C、均值 D、分位数
6、在下列数据中,可以计算中位数的是( )
A、居民的家庭住址 B、企业所属行业 C、产品类别 D、产品质量等级
7、某企业职工平均工资为2000元,方差为1600元,某职工工资为2048元,则该职工工资的标准分为( )
A、0.03 B、0.8 C、1.2 D、-1.2
8、从所研究的总体中随机抽取的一个大样本,则样本均值近似服从( )
A、正态分布 B、卡方分布 C、T分布 D、F分布
9、为研究北京市城镇居民的收入状况,在北京市城镇居民中随机抽取800户进行调查,计算得到其户月均收入为4180元,请问户均收入属于( )
A、参数 B、统计量 C、估计值 D、样本容量
10、在给定的显著性水平下,进行假设检验,确定拒绝域的依据是( )
A、原假设为真的条件下检验统计量的概率分布
B、备择假设为真的条件下检验统计量的概率分布
C、原假设为真的条件下总体的概率分布
D、备择假设为真的条件下总体的概率分布
11、要求估计量的数学期望等于被估计的总体参数,这一标准被称为( )
A、一致性 B、无偏性 C、有效性 D、充分性
12、如果是某总体参数的一致估计量,则随着样本容量的增大,有( )
A、的数值接近总体参数 B、的期望等于总体参数
C、的方差接近总体参数 D、的方差接近总体参数
13、在假设检验中,第一类错误是指( )
A、原假设为真,不拒绝原假设 B、原假设为真,拒绝原假设
C、原假设为假,拒绝原假设 D、原假设为假,不拒绝原假设
14、在一元线性回归模型中,反映的是( )
A、变化引起的线性变化部分 B、变化引起的线性变化部分
C、与的线性关系对的影响 D、除与的线性关系之外的随机因素对的影响
15、在一元线性回归分析中,如果估计标准误差为0,则意味着( )
A、回归系数为0 B、回归系数绝对值为1 C、判定系数为1 D、相关系数为0
16、方差分析对数据有三个基本假定,下列各项中不属于这三个假定的是( )
A、正态性 B、方差齐性 C、独立性 D、无偏性
17、时间序列中,在一年内重复出现的固定周期的周期性波动称之为( )
A、短期趋势 B、循环波动 C、季节波动 D、随机波动
18、将最近K期的每个观测值都给予相同权数进行预测的时间序列预测法称之为( )
A、回归法 B、移动平均法 C、指数平滑法 D、最小平方法
19、聚类分析的基本原则是( )
A、类间差异小,类内差异大 B、类间差异小,类内差异小
C、类间差异大,类内差异小 D、类内差异与类间差异均大
20、主成分分析的主要作用是( )
A、分析数据的平均水平 B、分析数据的波动程度
C、对数据标准化 D、对数据降维
二、多选题(5小题,每题2分,计10分)
1、 下列各项中,能够反映数据水平且比较稳健的有( )
A、均值 B、分位数 C、中位数 D、标准差 E、众数
2、以下关于统计量的标准误差描述中正确的是( )
A、统计量的标准误差是指样本统计量的标准差
B、标准误差用于衡量样本统计量的离散程度
C、统计量的标准误差是用于衡量样本统计量与总体参数之间差距的一种尺度
D、标准误差是根据一个样本统计量计算出来的
E、标准误差是根据理论上的所有可能样本统计量计算出来的
3、时间序列的构成要素包括有( )
A、长期趋势 B、季节变动 C、循环变动 D、不规则波动 E、时间
4、关于一元线性回归模型的判定系数的说法中,正确的有( )
A、是回归平方和与总平方和的比值
B、=0,说明变量间不存在线性依存关系
C、=1,说明变量间不存在线性依存关系
D、越接近1,说明回归方程拟合优度越高
E、越接近1,说明回归方程拟合优度越低
5、在假设检验中,当我们做出拒绝原假设的结论时,表示( )
A、有充足的理由否定原假设
B、原假设必定是错误的
C、犯错误的概率不大于显著性水平
D、犯错误的概率不大于第二类错误的概率
E、在为真的假设下可能发生了小概率事件
三、简答题(2小题,每题10分,计20分)
1、美国洛杉矶湖人队2000年14名球员的薪水(百万美圆)如下表:
球员
薪水
球员
薪水
奥尼尔
17.1
哈伯
2.1
布莱恩特
11.8
格林
2
霍利
5
乔治
1
赖斯
4.5
肖
1
费希尔
4.3
萨利
0.8
福克斯
4.2
卢
0.7
奈特
3.1
塞莱斯坦
0.3
为确定新年度球员薪水水平,球员工会与老板进行谈判。球队老板计算了14名球员的平均收入,其数值为410多万美圆,老板觉得球员薪水已经很高,不能再提高了。而球员工会代表主张用中位数分析球员薪水水平。要求:
(1)请计算14名球员薪水的中位数
(2)说明球队老板和球员工会代表争执原因是什么?谁的主张更合理?为什么?
2、某大学教授喜欢游泳,他记录了每次游2000米所用的时间(分钟)和游完泳后的脉搏次数,共记录了23次。该教授分析了时间与脉搏之间的关系,计算得到二者的相关系数为-0.74598,线性回归方程为:脉搏=479.9-9.695*时间,他对相关系数和回归方程进行了统计检验,结果表明在0.05的显著性水平下均显著。要求:
(1)结合上面资料,说明该教授游泳时间与脉搏次数的关系
(2)本周末该教授游2000米用时34.3分钟,请利用上面回归方程预测他游完时的脉搏次数。该教授实际上游完时的脉搏次数为152,你的预测与实际数一致吗?应怎样理解两者之间的差异?
四、计算分析题(3小题,计50分)
1、简单统计推断(17分)
最近的一项医学研究表明,有一种叫“佳乐宁”的物质会影响人们对高脂肪事物的需求,一个人脑内所产生的这种物质越多,则想吃高脂肪食物的欲望越强。近来,有一家制药公司在研制一种实验药物以阻断“佳乐宁”的产生和传导,又不能影响对健康食物的食欲。该公司一位神经学家相信此药物在控制肥胖上将会非常有效,并相信每日规律性地服用此药将导致体重下降。于是展开一项实验,随机抽取15位志愿的肥胖女性并提供6个月的药量,分别记录每位受试者实验开始和结束后的体重,处理分析的数据表现如下:
EXCEL分析:
受试前体重
受试后体重
平均值
162.07
150.27
方差
259.35
237.92
观测值
15
15
假设平均差
0
df(自由度)
14
t Stat(t值)
7.71
P值(单尾)
0.000
t单尾临界值
1.76
P值(双尾)
0.000
t双尾临界值
2.14
SPSS分析:
t值
df
Sig(2-tailed)
Mean
Std Deviation
Std error Mean
95% Confidence Interval of the Difference
Lower
Upper
11.8
5.93
1.53
8.51
15.08
7.71
14
0.000
根据以上资料,要求:
(1)上述简单统计推断分析的是( )
A、单总体均值检验 B、成对样本均值的检验 C、来自两个总体的独立样本均值的检验
(2)根据检验目的,写出原假设和备择假设,并说明各自的含义
(3)根据样本统计量的计算结果和相应显著性水平的临界值的对比,说明检验结果和理由
(4)根据上述P值,说明检验结果和理由
(5)写出受试前与受试后体重差的95%的置信区间
2、主成分分析(15分)
为评价全国各省、直辖市、自治区的综合发展水平,现收集了全国24个地区的人均GDP、人均可支配收入、人均消费支出等数据进行综合考察。并利用主成分分析方法对各地区综合发展状况进行评价,分析结果如下:
特征值及方差贡献率:
成分
初始特征值
方差贡献率
累积方差贡献率
1
4.725
67.507
67.507
2
1.234
17.633
85.141
3
0.449
6.409
91.550
4
0.306
4.373
95.923
5
0.214
3.054
98.977
6
0.061
0.865
99.842
7
0.011
0.158
100.000
特征向量:
变量
1
2
3
4
5
6
7
人均GDP
0.4416
0.0739
0.0835
-0.1537
-0.325
-0.7961
0.1716
人均可支配收入
0.4472
-0.0292
-0.1932
-0.037
-0.3589
0.2138
-0.7655
人均消费支出
0.4356
-0.0163
-0.395
-0.0355
-0.276
0.45
0.6116
城镇就业率
0.123
0.8277
0.0984
-0.4636
0.2313
0.1439
-0.0304
人均教育经费
0.365
-0.3977
-0.2555
-0.337
0.7185
-0.1016
-0.0561
人均医疗费用
0.374
0.3074
-0.0017
0.8014
0.3456
-0.0624
-0.0109
预期寿命
0.3564
-0.2358
0.8513
-0.0557
0.012
0.2882
0.0798
因子载荷矩阵:
1
2
3
4
5
6
7
人均GDP
0.96
0.082
0.56
0.085
-0.150
-0.196
0.018
人均可支配收入
0.972
-0.032
-0.129
0.020
-0.166
0.053
-0.080
人均消费支出
0.947
-0.018
-0.265
0.020
-0.128
0.111
0.064
城镇就业率
0.267
0.92
0.066
0.257
0.107
0.035
-0.003
人均教育经费
0.794
-0.442
-0.171
0.186
0.332
-0.025
-0.006
人均医疗费用
0.813
0.341
-0.001
-0.443
0.160
-0.015
-0.001
预期寿命
0.775
-0.262
0.570
0.031
0.006
0.071
0.008
请根据以上资料回答以下问题?
(1)若要求提取的主成分方差贡献率达到80%,请写出选择的主成分,并说明理由
(2)请写出选定的主成分与原始变量标准化后的线性组合表达式
(3)请依据因子载荷矩阵说明所提取的主成分与原始变量的关系
3、方差分析(18分)
某企业准备用3种方法组装一种新的产品,为比较各种生产方法的劳动生产效率,随机抽取了30名工人,分别按三种方法组装。通过对每个工人生产的产品数进行方差分析得到下面的结果:
方差分析表:
差异源
SS
DF
MS
F
P
F-crit
组间
210
0.249
3.354
组内
3836
总计
29
(1)完成上面的方差分析表
(2)写出上述F检验的零假设和备择假设,并说明其含义
(3)若显著性水平为0.05,请检验3种方法组装的产品数量之间是否有显著差异
参考答案:
一、单选:C A A * C D C A B A B A B D C D C B C D
二、多选:BCE,ABE,ABCD,ABD,ACE
三、简答:
1、
(1)
(2)双方选用了不同的指标代表总体一般水平,从而造成对整体工资水平认识的差异,对于是否应提高工资而言,双方争论并无合理与否的区别。造成对整体工资水平不同认知的根本原因在于球员间的收入分配差异。换言之,在这个实例中,算术平均数与中位数对于描述总体一般水平来说,并没有哪个指标存在明显优势。
2、
(1)游2000米所花时间每变化一分钟,则脉搏次数平均反方向变化9.695次
(2)理论预测值为147次,其与实际观测值152次的差异是随机因素造成
四、计算分析
1、
(1)B
(2) 假设所有减肥者服用药物前后的体重差平均为0
减肥者服用药物前后体重有显著差异
(3)EXCEL表中显然使用的是两个独立总体平均数差是否为0的显著性检验。其中T统计量值为7.71,双尾检验T临界值为2.14,小于T值,因此应拒绝原假设,即认为患者在服用药物前后的体重有显著差异,也即药物有减肥效果。
(4)P值近似为0,拒绝原假设
(5)8.51—15.08
2、
(1)选择1、2主成分,因为两者的累积方差贡献率已达到85.141%
(2)
(3)主成分即为标准化后原始变量的线性组合,因子载荷矩阵即为其系数矩阵,依据特征值开平方后列乘特征向量所得
3、
(1)
差异源
SS
DF
MS
F
P
F-crit
组间
420
2
210
1.48
0.249
3.354
组内
3836
27
142
总计
4236
29
(2) 三种组装方法的效率没有显著差异
之间至少有一个不相等
(3)由于F统计量值为1.48,小于临界值3.354,因此凭此样本不能拒绝原假设,即认为组装方法间存在效率差异。
展开阅读全文