统计学习题试卷.docx_咨信网zixin.com.cn

资源描述

习题十二一、单项选择题 1。下列不属于描述统计问题的是 . A。根据样本信息对总体进行的推断 B. 了解数据分布的特征 C. 分析感兴趣的总体特征 D. 利用图、表或其他数据汇总工具分析数据 2. 下面的哪种抽样调查的结果不能用于对总体有关参数进行估计。 A。配额抽样 B. 系统抽样 C. 分层样本 D. 整群抽样 3。与概率抽样相比，非概率抽样的缺点是 . A。样本统计量的抽样分布是确定的 B. 调查的成本比较低 C。不适合探索性的研究 D。无法使用样本的结果对总体相应的参数进行推断 4. 对于小批量的数据，最适合描述其分布的图形是 . A。条形图 B。直方图 C。茎叶图 D。饼图 5。一组数据的离散系数为0.4，平均数为20,则方差是 . A。 8 B。 50 C. 64 D。 2500 6。用组中值代表各组的实际数据的假定条件是。 A. 各组的频数均相等 B。各组的组距均相等 C。各组的变量值均相等 D. 各组数据在本组内呈均匀分布 7。某班学生的平均成绩是75分，标准差为5分，如果已知该班学生的考试分数为非对称分布，可以判断成绩在60～85分之间约占。 A. 68％ B. 81.94% C. 83。5% D. 95% 8。在离散程度的测量中,最容易受极端值影响的是 . A。四分位差 B。极差 C。标准差 D. 平均差 9。根据两个独立的、来自正态分布的小样本估计两个总体方差之比时,使用的分布是。 A。正态分布 B. t分布 C。 F分布 D. c2分布 10。当置信水平一定时，置信区间的宽度 . A. 随着样本量的增大而减小 B。随着总体波动性的增大而减小 C。与总体波动性的大小无关 D。与样本量的平方根成正比 11。对于同一个列联表计算的V系数和系数,其结果是。 A。 V值必然小于值 B. V值必然等于值 C。 V值必然大于值 D. V值可能小于值 12。一所大学准备采取一项学生在宿舍上网收费的措施，为了解各年级学生对这一措施的看法,从大一到大四每个年级随机抽取了50名学生进行调查，学生的看法有三种态度：赞成、中立、反对.根据调查整理成列联表,则计算出的χ2分布的自由度为。 A。 6 B。 5 C. 3 D. 2 13。 t分布的峰态系数。 A。 >0 B。〈0 C。 =0 D。不确定 14. 回归估计的估计标准误差的计量单位与。 A。自变量相同 B. 因变量相同 C。自变量及因变量相同 D。相关系数相同 15. 根据各年的月份资料计算的季节指数之和应等于。 A。 100％ B. 120% C. 400% D. 1200％二、判断题 1. 根据普查数据计算的描述特征的概括性度量值称为统计量。（ ) 2. 雷达图主要用于研究不同样本之间的相似性。 ( ） 3。对于分类数据，用countif函数和插入透视表均可得到频数分布表。（） 4。对于顺序数据，可以用异众比率和四分位差来测度其离散程度。 ( ） 5。用average求平均数时，可以选中多行多列求均值。（） 6。柱形图、箱线图都可以展示数据的分布形态. （ ) 7. 假设检验时，拒绝原假设，则意味着备择假设是对的。 ( ） 8. 假设检验的备择假设是那些原有的、传统的、希望用事实推翻的观点。 ( ） 9. 单因素方差分析时，组间平方和只含有随机误差。（） 10。一组数值与平均数的离差绝对值之和最小. （）三、简答题 1。比较概率抽样和非概率抽样的特点。 2. 假设检验和参数估计有什么相同点和不同点？ 3。解释指数平滑法. 四、计算题 1。假设某年级期末统计学考试成绩服从正态分布，平均成绩为70分，标准差为12分： ① 随机抽取1人,粗略计算该同学成绩在82分以上的概率； ② 随机抽取144人，不及格的学生有18人，依此计算全年级统计学不及格率的95%的置信区间。 ③ 随机抽取144人,不及格的学生有18人,以α=0。05的显著性水平判断全年级不及格率是否明显高于10％？ 2。某高校随机抽取的225名学生的体重资料如下： ① 试根据所给资料计算学生体重的算术平均数，将计算过程直接填入表中。按体重分组（公斤）学生人数(人） 52以下 27 52-55 42 55—58 72 58—61 56 61以上 28 合计 225 ② 根据其他资料计算当地人均体重为58公斤，以α=0.05的显著性水平，判断该校学生的平均体重与当地人均体重之间的关系。已知由数据求出的样本标准差s=3。568公斤。(写出具体检验步骤） ③ 调查的学生中有9人体重严重偏低,学校想了解全校体重偏低的学生所占比例,估计误差要求低于1％，置信水平为95%，应抽取多少学生进行调查？ 3。一位金融分析师随机抽取了366个家庭，询问他们户主的年龄和投资在股票市场的资产比例,年龄分为4个类别，该分析员想要判断是否资产比例会因股票所有人的年龄不同而不同。根据数据做了单因素方差分析如下（a=0.05）：方差分析表差异源 SS df MS F P—value F crit 组间 3 1246。27 0.0405 2。6296 组内 161871。3 — - - 总计　— - — — ① 将方差分析表中所缺数据补齐，并写出计算过程。（计算结果保留2位小数） ② 显著性水平a=0。05,检验四个总体均值之间是否有显著差异（写出具体检验步骤）。 ③ 若此检验结果可信，上述分析必须满足什么条件。 4. 根据2013年1季度到2016年4季度我国居民人均消费支出的季度数据（单位：元），做线图如下： ① 说明此序列含有什么成分？并写出理由。 ② 写出用多元回归法对此数据的预测过程。 ③ 写出用分解法对此数据预测的步骤。一、单项选择： 1。 A 2。 A 3。 D 4。 C 5。 C 6. D 7. B 8. B 9。 C 10. A 11. D 12。 A 13。 B 14. B 15. D 二、判断题 1. × 2。 √ 3。 √ 4. √ 5。 √ 6。 × 7. √ 8。 × 9. × 10. × 三、简答 1、①概率抽样依据随机原则抽选样本；样本统计量的理论分布是存在的,可根据调查结果对总体的参数进行估计;在抽样设计时，对估计的精度提出要求，可计算出所需样本量。要求有较高的统计学专业知识，费用较高。 ②非概率抽样不是依据随机原则抽选样本；样本统计量的理论分布是不确切的，无法用样本结果对总体的参数进行估计。操作简便、时效快、成本低,对统计学专业技术要求不是很高。 2、相同点：都是利用样本对总体进行某种推断。不同点:推断的角度不同：参数估计是用样本统计量估计总体参数的方法，总体参数在估计前是未知的；假设检验则是先对总体参数的值提出一个假设，然后利用样本信息去检验这个假设是否成立。 3、指数平滑法是适合于平稳序列的一种预测方法。指数平滑法是对过去的观测值加权平均进行预测的一种方法，观察值时间越远，其权数也跟着呈现指数下降。该方法使得第t+1期的预测值等于第t期的实际观测值与第t期预测值的加权平均值，其模型为: 通常F1=Y1，则F2=Y1. 当时间序列有较大的随机波动时,宜选择较大些的平滑系数α；当时间序列比较平稳时，宜选较小的α。确定α时,选择几个α分别进行预测，使得均方误差最小的α就是最优的α. 四、计算题 1、① 由于抽取一人,该生成绩服从正态分布N(70，12）， P(X>82）=1—Φ82-7012=1-Φ（1）根据经验法则，在平均分加减一个标准差范围之内的数据占68％，即Φ1-Φ-1=2Φ1-1=0.68，Φ1=0.84 所以P（X〉82）=1-0。84=0.16 ②p=18144=12.5%，总体比例的95％的置信区间是： p±Zα2∙p*（1-p）n=12.5%±1.96×12.5%*87.5%144=12.5%±5.4% 即（7。1%，17。9％） ③设全年级统计学不及格率为π H0：π≤10% H1：π>10% 右单侧检验 Z=p-ππ(1-π)n=12.5%-10%10%×（1-10%）144=1 α=0.05 Zα=1.645 Z<Zα，不能拒绝H0 没有足够的证据证明全年级的不及格率高于10％。 2。 ①计算过程见下表：按体重分组(公斤) 学生人数(人）组中值组中值×人数平均值 52以下 27 50.5 1363。5 52—55 42 53。5 2247 55—58 72 56。5 4068 58—61 56 59。5 3332 61以上 28 62。5 1750 合计 225 12760。5 56。713 ②设该校学生的平均体重为 H0：μ≥58 H1：μ<58 左单侧检验 Z=x-μ0sn=56.713-583.568225=-5.41 α=0.05 Zα=-1.645 Z<Zα 拒绝H0 即有足够的证据表明该校学生的平均体重显著低于当地人均体重。或者： H0：μ=58 H1：μ≠58 双侧检验 Z=x-μ0sn=56.713-583.568225=-5.41 α=0.05 Zα2=1.96 Z>Zα2 拒绝H0 即有足够的证据表明该校学生的平均体重与当地人均体重存在明显差异。 ③法一:由于E=1%，π未知，用0.5代入。根据n=zα22*p*（1-p）E2 =1.962*0.5*0.50.012=9604 应选取9604名学生，才能使得95%的置信区间的估计误差在1％以内。或者：法二：取π=p=9225=4% n=zα22*p*（1-p）E2 =1.962*4%*96%0.012=1475。1744≈1476 应选取1476名学生，才能使得95%的置信区间的估计误差在1％以内。 3、①方差分析表差异源 SS df MS F P-value F crit 组间 3738.81 3 1246。27 2.79 0。0405 2。6296 组内 161871。3 362 447。16 — - — 总计 165610。11 365 — — — — 从题意知,k=4，n=366，所以总平方和SST的自由度是n—1=365 组内平方和SSE的自由度是n—k=366—4=362 SSA=MSA×(k—1）=1246。27×3=3738.81 MSE=SSE/（n-k)=161871.3/362=447.16 SST=SSA+SSE=3738。81+161871。3=165610。11 F=MSA/MSE=1246.27/447。16=2。79 ②设四个年龄层在股票市场的资产比例均值分别为μ1、μ2、μ3、μ4. 提出假设：H0：μ1=μ2=μ3=μ4 H1：μ1、μ2、μ3、μ4不全相等 α=0.05，由方差分析表知p=0.0405<a （或F=2.79,Fα=2.6296，F>Fα） ∴拒绝H0，在显著性水平为0。05的条件下，四个年龄层在股票市场的资产比例均值有显著差异。 ③应满足： a每个总体都应服从正态分布； b所有总体的方差相同； c观测值是独立的。 4、①由上图可以看出，2013—2016年我国居民人均消费支出的季度数据有季节性和趋势,季节性体现在每年的2、3、4季度人均消费支出都是明显上升,而第1季度到第2季度是明显下降；趋势体现在,如果将每年相同季度的数据用直线连起来,都表现出上升趋势。所以含有季节、趋势和随机成分。 ②季节多元回归法预测过程：设虚拟变量D1=1 第1季度0 其他季度 D2=1 第2季度0 其他季度 D3=1 第3季度0 其他季度则季节多元回归方程可表示为： Y=b0+b1t+b2D1+b3D2+b4D3 式中，b0是时间序列的平均值；b1是趋势成分的系数，表示趋势给时间序列带来的影响；第4季度是参照季度，即基础水平，这些虚拟变量前系数的含义是：每个季度与第4季度的差值（为正数表示高出第4季度多少，为负数表示低于第4季度多少）。根据数据,给出t和三个虚拟变量的值，做回归得到各系数的估计值，然后依据方程的显著性检验（F检验)和系数的显著性检验（t检验）得到一个各检验都显著的结果，同时调整的R2最大且估计误差最小的结果，然后用此结果计算出Y的预测值即可。 ③预测步骤：第一步：确定并分离季节成分。（1）计算季节指数，以确定时间序列中的季节成分。 a.计算移动平均值（此数据采用12项移动平均)，并将结果再进行一次2项移动平均，得到中心化移动平均值（CMA）。 b.计算季节比率，即将各观测值除以相应的CMA，然后计算各比值的月份平均值就是季节指数。 c.季节指数调整。看b。算出的季节指数的平均值是否为1，不为1时需要调整，就是b。得到的季节指数除以这些季节指数的均值。 (2）然后将季节成分从时间序列中分离出去，即用每一个时间序列观测值除以相应的季节指数,以消除季节性. 第二步:建立预测模型并进行预测。对消除了季节成分的时间序列建立适当的趋势预测模型，并根据这一模型进行预测. 第三步：计算最后的预测值。用第二步得到的预测值乘以相应的季节指数，得到最终的预测值。

展开阅读全文