华东师范大学经济与管理学部专业学位教育中心《432统计学》[专业硕士]历年考研真题汇编（含部分答案）.pdf

资源描述

目录2011年华东师范大学金融与统计学院432统计学专业硕士考研真题2011年华东师范大学金融与统计学院432统计学专业硕士考研真题及详解2012年华东师范大学金融与统计学院432统计学专业硕士考研真题2012年华东师范大学金融与统计学院432统计学专业硕士考研真题及详解2013年华东师范大学金融与统计学院432统计学专业硕士考研真题及详解2014年华东师范大学金融与统计学院432统计学专业硕士考研真题2014年华东师范大学金融与统计学院432统计学专业硕士考研真题及详解2015年华东师范大学金融与统计学院432统计学专业硕士考研真题2016年华东师范大学金融与统计学院432统计学专业硕士考研真题（回忆版，十分不全）2017年华东师范大学经济与管理学部专业学位教育中心432统计学专业硕士考研真题（回忆版，不完整）2011年华东师范大学金融与统计学院432统计学专业硕士考研真题2011年华东师范大学金融与统计学院432统计学专业硕士考研真题及详解一、单项选择题（本题包括130题共30个小题，每小题2分，共60分。在每小题给出的四个选项中，只有一个符合题目要求，先在答题纸上写上序号，再把所选项前的字母填在相应的序号后）。1抽签属于（）。A简单随机抽样B分层抽样C整群抽样D非概率抽样【答案】A【解析】一般的，设一个总体有N个个体，若逐个从这个总体中抽取N个样本，且每次抽取时各个个体被抽到的概率相等，则该抽样方法为简单随机抽样。抽签就是按照这种规则进行抽样，属于简单随机抽样。2下列说法中错误的是（）。A简单随机抽样是一种概率抽样B采用概率抽样方法，不可计算和控制抽样误差C采用概率抽样方法，则每个样本都有事先确定的被抽到的概率（入样概率）D采用概率抽样方法，则由入样概率确定随机抽的样本【答案】B【解析】在概率抽样方法中，抽样误差不可避免，但是抽样误差可以根据有关资料事先加以计算，并且通过一定的途径来控制其范围。3对数据进行标准化变换是一种重要的数据预处理方法，其计算公式是用某一原始数据减去这组数据的（），再除以这组数据的标准差。A均值B中位数C众数D标准差【答案】A【解析】数据的标准化一般采用Z标准化，将原始数据减掉样本均值再除以这组数据的标准差，使得标准化后的均值为0，方差为1。4为探索一组定量数据的分布形态，下列图形中最适合的是（）。A饼图B柱状图C直方图D雷达图【答案】C【解析】直方图是一种常用的数量型数据的图形描述方式。由先前已汇总出的频数分布、相对频数分布或百分数频数分布等资料可绘制直方图。直方图的一个最重要的应用是提供了分布形态的信息。5以下关于回归模型假定的检验的说法中，错误的是（）。A对正态性的假定进行检验，应通过检验残差的正态性来进行B对独立性的假定进行检验，应通过检验残差的独立性来进行C对方差齐性的假定进行检验，应通过检验残差的方差齐性来进行D无法通过残差来检验回归函数线性的假定【答案】D【解析】回归函数线性的假定检验仍然建立在方差分析的基础上，常采用F统计量，会用到残差平方和，故可以通过残差检验回归函数线性性的假定。6在单因子方差分析中，若在显著性水平0.05下拒绝了原假设，则表明（）。A在显著性水平0.05下，因子各个水平的均值全不相等B在显著性水平0.05下，因子各个水平的均值不全相等C在显著性水平0.05下，因子中至少有两个水平的均值相等D在显著性水平0.05下，因子不显著【答案】B【解析】方差分析就是要检验多个总体(水平)的均值是否相等。原假设是各个水平的均值全部相等。因此拒绝原假设表明在该显著性水平下，因子各个水平均值不全相等。7设有5人获得了某项劳务收入，分别为300元、350元、400元、500元、600元，他们收入的中位数等于（）。A375元B400元C430元D450元【答案】B【解析】中位数是指把所有观察值高低排序后位于正中间的数。8下列统计量中，不能用于描述数据差异情况的统计量是（）。A极差B标准差C方差D众数【答案】D【解析】标准差和方差都反映数据的波动情况，极差指一组数据中最大值与最小值之差，也可以反映数据差异情况，众数则反映数据的集中趋势，不能用来描述数据的差异情况。9设准妈妈的怀孕期（单位：天）服从正态分布N（，162）。调查了100个准妈妈的怀孕期，得到的样本均值为266天。设表示标准正态分布的概率为的下分位数。那么，参数的置信度为95%的区间估计为（）。ABCD【答案】B【解析】给定显著性水平下，总体均值在1的置信水平下的置信区间为：10对一个方差已知的正态总体均值进行区间估计，采用常用的区间估计公式，下列说法正确的是（）。A若给定置信度，样本量越大区间会越短B若给定置信度，样本量越大区间会越长C若给定置信度，样本量变大，区间长度保持不变D若给定置信度，样本量的变化与区间长度的变化没有规律【答案】A【解析】给定显著性水平下，总体均值在1的置信水平下的置信区间为：由置信区间的计算公式可知，样本量越大，区间越短。11以下关于显著性检验的说法，错误的是（）。A若做出拒绝原假设的判断，这是有充分证据的B若做出接受原假设的判断，这是有充分证据的C显著性检验有保护原假设的作用D不能轻易拒绝的假设一般应设置为原假设【答案】B【解析】显著性检验是将犯第一类错误的概率控制在规定的范围内，即使得犯弃真错误的概率小于显著性水平，原假设一般处于被保护地位，证据足够充分才可以拒绝原假设。12设某一批零件的直径服从正态分布N（20，22），若直径在20加减4之间为合格品，则该批零件的合格频率约为（）。A68%B90%C95%D99%【答案】C【解析】利用正态分布的3原则，13设有两个正态总体N（1，1）和N（2，1），为对假设检验问题H0：12，H1：12进行检验，从两个总体中各抽取了样本容量为n的样本，得样本均值分别为和，则检验的拒绝域形式应为（）。A（c为常数）B（c为常数）C（c为常数）D（c为常数）【答案】B【解析】此问题为右单侧假设检验，检验的拒绝域为：而，所以拒绝域形式为：14在单因子方差分析中，组内平方和反映的是（）。A全部观测值的误差B因子各个水平的样本均值之间的误差C因子各个水平内部的样本观测值之间的误差D因子各个水平之间和各个水平内部的误差和【答案】C【解析】组内平方和记为SSE。它是每个水平或组的各样本数据与其组均值的误差平方和，反映了每个样本各观测值的离散状况，因此称为组内平方和。该平方和反映了随机误差的大小。15某研究小组分析身高与体重的相关关系，计算了一个相关系数。但后来发现因测体重的秤不准，每位测量对象的体重数据偏大了1公斤，因此需要进行校正从而使数据准确。那么，相对于之前的相关系数，采用校正后的体重数据来计算的相关系数会（）。A减小B增大C不变D无法判断【答案】C【解析】样本相关系数为：校正后的取值都减小了1，均值也减小了1，因此的值不变，相关系数值也不变。16下列关于假设检验中P值的说法正确的是（）。AP值等于第一类错误概率BP值等于第二类错误概率C当P值大于显著性水平，应拒绝原假设DP值表示原假设为真的假设下，所得到样本结果会像实际观测结果那么极端或更极端的概率【答案】D【解析】P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小，说明这种情况发生的概率很小，而如果出现了，根据小概率原理，我们就有理由拒绝原假设，P值越小，我们拒绝原假设的理由就越充分。17以下关于多重共线性的描述，错误的是（）。A若存在多重共线性，回归模型的效果不会受到影响B若存在多重共线性，则表明某些自变量之间存在一定的线性相关关系C若存在多重共线性，则可能导致增减自变量时回归系数的估计量变化很大D若存在多重共线性，则可能导致某些回归系数不显著【答案】A【解析】当回归模型中两个或两个以上的自变量彼此相关时，则称回归模型中存在多重共线性。当存在多重共线性时，对回归系数的解释将是危险的：首先，变量之间高度相关时，可能会使回归的结果混乱，甚至会把分析引入歧途；其次，多重共线性可能对参数估计值的正负号产生影响。18已知某种商品的销售量存在周期性，其时间序列预测模型为设X130，X210，X340，X420，X550，则（）。A19B41C46D52【答案】A【解析】19以下关于时间序列的说法，错误的是（）。A对存在周期变化的数据，采用时间序列模型进行描述是比较合适的B对随时间推移而逐渐增长或衰减的数据，采用时间序列模型进行描述是比较合适的C某些情况下，可采用时间序列模型来解决回归模型的多重共线性问题D无法利用时间序列模型进行预测【答案】D【解析】时间序列模型的一个重要应用就是预测，如天气预报。对于存在趋势项，周期性的数据，可以用时间序列模型进行拟合分析。20下列哪些统计量不易受到极端值的影响（）。A均值B方差C中位数D标准差【答案】C【解析】均值、方差和标准差的计算都会使用到所有数据，故会受到极端值大小的影响，而中位数是指把所有观察值高低排序后位于正中间的数，不易受极端值影响。21常采用五数概括（即最小值、下四分位数、中位数、上四分位数、最大值）描述这一组数据的情况，并由此做出箱线图。下列说法错误的是（）。A可通过箱线图大致了解分布的中心位置B可通过箱线图大致了解分布的离散程度C可通过箱线图大致了解分布的形态D可通过箱线图，无法大致比较不同总体分布的差异【答案】D【解析】箱线图根据无数概括做出，故通过箱线图中的中位数可以大致了解分布的中心位置，通过极差和四分间距可以了解分布的离散程度；通过上下四分位数和中位数可以了解分布的形态；通过观查不同总体的箱线图，可以大致比较不同总体的差异。22设原假设为H0：某产生过程的不合格品率不大于P0。则第二错误指的是（）。A认为该过程生产不合格品过多，但实际并不多B认为该过程生产不合格品不过多，但实际过多C认为该过程生产不合格品不过多，实际也不过多D认为该过程生产不合格品过多，实际也过多【答案】B【解析】第二类错误指原假设为伪我们却没有拒绝，犯这种错误的概率用表示，所以也称错误或取伪错误。本题中若不合格品过多但是认为不合格品率不大于则犯了第二类错误。23设某因子有3个水平，每个水平下各重复2次试验。在单因子方差分析中，得到F17，已知则（）。A因子显著B因子不显著C在显著性水平0.05下，因子显著D在显著性水平0.01下，因子显著【答案】C【解析】单因素方差分析中，将统计量F的值与给定的显著性水平的临界值进行比较，若，则拒绝原假设表明因子是显著的。24参数的估计量是一个（），衡量其效果最重要的指标是其（）。A随机变量，均方误差B随机变量，期望C常数，均方误差D常数，期望【答案】B【解析】在参数估计中，用来估计总体参数的统计量称为估计量，它是一个随机变量。而无偏性（期望）是作为衡量估计效果的最重要指标。25以下关于回归分析的说法中，错误的是（）。A解读回归分析结果时，应首先看回归模型是否显著，在回归模型显著地情况下再看各回归系数是否显著B对回归系数进行区间估计，需要正态分布的假定C对X和Y建立一元线性回归方程，则X和Y的相关系数与成正比D若对同样的数据建立两个回归方程，则R2越小的回归方程越好【答案】D【解析】判定系数R2测度了回归直线对观测数据的拟合程度。R2越大，表明回归平方和占总平方和的比例越大，回归直线与各观测点越接近，用x的变化来解释y值变差的部分就越多，回归直线的拟合程度就越好。26同时掷两个均匀骰子（为六面的正方体，分别标有1，2，3，4，5，6个点），则两骰子点数之和为3的概率为（）。A1/36B2/36C3/36D6/36【答案】B【解析】同时掷两个骰子，所有可能的情况有36种，点数和为3的情况有2种。故两骰子点数和为3的概率是2/36。27已知P（B）0，则P（A|B）与P（A）的大小关系是（）。AP（A|B）P（A）BP（A|B）P（A）CP（A|B）P（A）D上述三种情况都有可能【答案】D【解析】，而与的大小关系未知。28设随机变量X服从二项分布b（2，0.3），则P（X2）为（）。A0.09B0.18C0.30D0.49【答案】A【解析】二项分布的分布函数为所以29设随机变量X服从正态分布N（，2），则X的期望和方差分别为（）。A，B，2C，D2，【答案】B【解析】正态分布N（，2）的期望是、方差为2。30已知随机变量X的期望和方差分别为-1和1，则2X+3的方差为（）。A1B4C5D7【答案】B【解析】根据方差的性质：所以。二、简要回答下列问题（本题包括14题共4个小题，每小题10分，共40分）1在假设检验中，为什么说无论是作出接受原假设还是拒绝原假设的判断，都有可能犯错误？它们是什么样的错误？答：（1）在假设检验问题中，对于原假设提出的命题，需要用统计量做出判断，这种判断可以用“原假设正确”或“原假设错误”来表述。用来做出判断的统计量是样本的函数，即用样本提供的信息进行判，也就是由部分来推断总体，故不论是做出怎样的判断都有犯错的可能。（2）所犯的错误有两种类型，一类错误是原假设为真却被我们拒绝了，犯这种错误的概率用表示，所以也称错误或弃真错误；另一类错误是原假设为伪我们却没有拒绝，犯这种错误的概率用表示，所以也称错误或取伪错误。2重复测量某物体的重量，得到数据，应当采用和中的哪一个作为物体重量的估计为好？为什么？答：（1）用作为物体重量的估计比较好。（2）判断估计量好坏的标准有无偏性和有效性等。设总体均值（该测量物体的真实重量）为，方差为，则统计量和的均值和方差分别如下：因，故比更有效，所以用作为物体的估计为好。3简述时间序列的乘法模型。答：时间序列的成分可以分为4种，即趋势（T）、季节性或季节波动（S）、周期性或循环波动（C）、随机性或不规则波动（I）。传统时间序列分析的一项主要内容就是把这些成分从时间序列中分离出来，并将它们之间的关系用一定的数学关系式予以表达，而后分别进行分析。按4种成分对时间序列的影响方式不同，时间序列可分解为多种模型，如加法模型、乘法模型等。其中较常用的是乘法模型，其表现形式为：4先说说矩估计的统计思想，再求出区间，上均匀分布的总体参数的矩估计。答：（1）矩估计方法是用样本的矩去估计总体的矩，从而获得有关参数的估计量。矩估计的统计思想为：设X为随机变量，对任意正整数k，称E（Xk）为随机变量X的k阶原点矩，记为：在矩估计方法中，令即用样本的阶矩去估计总体矩，这是一个包含k个未知参数的方程组，此方程组所得解即为参数的矩估计值。（2）已知X服从上的均匀分布，则取样本值，则解得，这就是总体参数，的矩估计。三、计算与分析题（本题包括13题共3小题，第1小题和第2小题每题20分，第3小题10分，共50分）。1某生产车间50名工人日加工零件数如下（单位：个）117、122、124、129、139、107、117、130、122、125、108、131、125、117、122、133、126、122、118、108、110、118、123、126、133、134、127、123、118、112、112、134、127、123、119、113、120、123、127、135、137、114、120、128、124、115、139、128、124、121。请先适当分组，在作出频率直方图，最后根据图形，判断这组数据的分布形状。答：画直方图时，分组数在5到7之间比较合适，此题中选取分组数为5，加工零件个数最少为107，最多为139，则组距为(140100)/58。得到分组结果如下表：根据以上结果可得频率分布直方图：由频率分布直方图可以看出，这组数据呈左偏分布。2某商业银行2007年各分行贷款情况见下表1（单位：亿元）表1 某商业银行2007年各分行贷款情况运用Excel中的“回归分析”，得到下列结果：方差分析根据以上结果，回答下列问题：（1）将上述表中的数据A，B，C，D，E求出：（2）你认为用线性回归模型的拟合原始数据是否合适？为什么？（3）写出不良贷款y与各项贷款余额x1及累计应收贷款x2之间线性回归方程，并解释各个回归系数的意义；（4）您认为各个回归系数是不是显著不等于0？为什么？（取显著性水平为0.05）（5）找出各个回归参数的95%区间估计。答：（1）A表示修正后的可决系数：所以B表示残差平方和的自由度：。C表示检验统计量F的值：D表示的是回归系数的t检验统计量的值：E表示的回归系数：（2）用线性回归模型的拟合原始数据是合适的，因为无论是拟合优度还是调整后的拟合优度都较高，说明回归方程对观测值的解释程度较好；且F统计量对应p值小于0.05，即通过了回归方程的显著性检验。（3）Y与及之间线性回归方程为：其中，回归系数0.2784的意义为：在其他条件不变的情况下，各项贷款余额每增加一亿元，不良贷款平均增加0.2784亿元；回归系数0.1952的意义为：在其他条件不变的情况下，累计应收贷款每增加一亿元，不良贷款平均增加0.1952亿元。（4）当显著性水平为0.05时，各个回归系数显著不等于0，因为各个回归系数的t统计量的P值均小于显著性水平0.05（两个回归系数的t统计量的P值分别为0.00044和0.03244）。（5）由题意知，的回归系数的置信度为95%的置信区间为（0.1385，0.4183）；的回归系数的置信度为95%的置信区间为（0.0179，0.3724）。3图中的五个字母代表五个同类元件，假设它们正常工作的概率都是P，且某个元件是否正常工作与其它元件无关，求系统正常工作的概率P。答：若A元件正常工作，不论D元件是否正常工作，再考虑：（1）若B元件正常工作，不论C、E元件是否正常工作，系统正常工作；（2）若B元件不正常工作，则C、E元件都正常工作时，系统正常工作；若D元件正常工作，不论A元件是否正常工作，再考虑：（1）若E元件正常工作，不论C、B元件是否正常工作，系统正常工作；（2）若E元件不正常工作，则C、B元件都正常工作时，系统正常工作；综上，记系统正常工作为事件X，则：2012年华东师范大学金融与统计学院432统计学专业硕士考研真题2012年华东师范大学金融与统计学院432统计学专业硕士考研真题及详解一、单项选择（本题包括1-30题共30个小题，每小题2分，共60分。在每小题给出的四个选项中，只有一个符合题目要求，现在答题纸上写上序号，再把所选项前的字母填在相应的序号后）。1以下关于调查的说法，错误的是（）。A全面调查不会产生误差B抽样调查具有抽样误差，也可能有非抽样误差C正式调查前最好先进行预调查，一方面完善问卷，另一方面可搜集一些数据用于抽样设计D实施调查前应先设计调查方案，明确调查目的、内容、抽样方案、调查方法、数据分析方法等【答案】A【解析】全面调查是对构成调查对象的所有单位进行逐一的、无一遗漏的调查。误差是测量值与真值的差异，即使是全面调查，也有可能由于仪器、环境等因素的限制，使得测量不能无限精确，产生误差。2以下属于非概率抽样方法的是（）。A简单随机抽样B分层抽样C整群抽样D滚雪球抽样【答案】D【解析】非概率抽样又称为非随机抽样，是调查者根据自己的方便或主观判断抽取样本的方法，其最主要的特征是抽取样本时并不是依据随机原则。非概率抽样主要可分为：判断抽样；方便抽样；自愿样本；配额抽样；滚雪球抽样等。3关于数据的预处理，以下说法错误的是（）。A数据的审核是数据预处理的一项内容，对二手数据的审核主要有适用性审核和时效性审核B数据的筛选是数据预处理的一项内容，可以筛选出符合条件的数据C数据的排序是数据预处理的一项内容。也可以作为数据分析的一项内容D数据变换是数据预处理的一项内容，著名的BOX-COX变换可改善方差齐性，但无法改善正态性【答案】D【解析】BOX-COX变换一般都可以保证将连续型数据进行成功的正态变换。4以下不适用于展示定性数据的图表是（）。A频数频率分布表B柱状图C环形图D直方图【答案】D【解析】定性数据包括分类数据和顺序数据，其常用的图表展示方法包括频数分布表、环形图和柱状图等；直方图既要求有纵向的数量，又要求有横向的数量，故无法用来描述定性数据，并且直方图一般用来展示数值型数据，而定性数据一般是非数值型数据。5箱线图（box plot）中不包括以下哪个统计量（）。A中位数B均值C上四分位差D变异系数【答案】D【解析】利用箱线图无法得到有关标准差的数据，故也就无法得到有关变异系数的数据。箱线图中包含的统计量有中位数、上下四分位数、最小值和最大值。6为比较一个班级中男生成绩波动与女生成绩波动的大小，以下哪个统计量最合适（）。A极差B标准差C四分位差D变异系数【答案】D【解析】变异系数是各变异指标与其算术平均数的比值。它消除了量纲的影响，使不同计量单位或不同水平、不宜直接比较的现象具有可比性。7以下关于参数估计的说法，错误的是（）。A无偏性是指估计量的期望等于被估参数B矩估计的原理是建立总体矩与被估参数的关系，然后用样本距去代替总体矩，从而得到估计量C均方误差越大，说明估计量的效果越好D已知是的极大似然估计，则是的极大似然估计【答案】C【解析】均方误差是指参数估计值与参数真值之差的平方的期望值，记为MSE，它可以评价数据的变化程度，MSE的值越小，说明预测模型描述实验数据的效果越好。8已知总体均值为，总体方差为（），取样本，得到样本均值和样本方差分别为和，以下说法错误的是（）。A 的期望值是B的期望值是C 的方差是D 的均方误差是【答案】C【解析】根据样本均值的性质知，样本均值的方差为：9从一个正态总体（和均未知）中抽取一个容量为n（）的样本，得到样本均值和样本方差分别为和，则的置信度为95%的区间估计是（）。A BCD【答案】A【解析】已知，故总体均值和方差均未知时，的置信度为95%的区间估计是：10下列关于假设检验的说法，正确的是（）。A检验的势是当备择假设为真时接受原假设的概率Bp值越小，数据多提供的否定原假设的证据就越强C显著性检验控制了第一类错误概率和第二类错误概率D抽取样本，得到p值为0.03，则应拒绝原假设【答案】B【解析】A项，检验的势1当备择假设为真时接受原假设的概率；C项，显著性水平指的是犯第一类错误的概率，且当样本容量一定时，犯第一类错误的概率和犯第二类错误的概率是呈反方向变动的，故显著性检验无法同时控制第一类错误概率和第二类错误概率；D项，该项中没有给出显著性水平，当0.01时，显然无法拒绝原假设。11下列关于相关系数r的说法，错误的是（）。A|r|小于等于1B|r|越大，表示两个变量的线性相关程度越大Cr0表示两个变量无任何关系Dr0表示两个变量负线形相关【答案】C【解析】当相关系数r0时，只能表明两个变量没有线性关系，但不能表明两个变量之间无任何关系，可能两者之间存在非线性关系。12一元线性回归分析中，方差的估计为（）。ABCD【答案】D【解析】方差的无偏估计量为：其中，为残差平方和13因子A有r个水平，每个水平各做m次重复试验，则在单因素方差分析中误差的偏差平方和（SSE）的自由度为（）。Ar1Bmr1Cr(m1)Dm(r1)【答案】C【解析】在单因素方差分析中，误差平方和的自由度是nk，其中n表示的是试验总次数，k表示的是因子的水平个数，则在本题中误差平方和的自由度为mrr。14回归分析中，残差检验的功能不包含以下哪一项？（）A回归模型的显著性检验B方差齐性检验C独立性检验D正态性检验【答案】A【解析】在回归分析中，对残差进行检验分析，主要包含的是回归模型残差的正态性检验、回归模型残差的独立性检验和残差的方差齐次性检验。15对一个正态总体（未知）的均值进行假设检验。设抽取容量为n的样本，得到样本均值和样本标准差分别为和，则显著性水平的拒绝域应为（）。ABCD【答案】A【解析】当总体方差未知时，应利用t统计量进行假设检验，且其拒绝域应为：即16已知的样本方差为，设则的样本方差为（）。ABCD【答案】D【解析】的样本方差为：17对同一组数据得到几个一元回归模型，则下列说法错误的是（）。A调整的越大的模型效果越好BSSE越小的模型效果越好C越小的模型效果越好DMSE越小的模型效果越好【答案】C【解析】表示的即是拟合优度，是指回归直线对观测值的拟合程度，其取值范围是，的值越接近于1，说明回归直线对观测者的拟合程度越好；反之，的值越接近于0，说明回归直线对观测值的拟合程度越差。18在作假设检验时，若接受原假设可能（）。A犯第一类错误B犯第二类错误C既犯第一类错误，又犯第二类错误D不犯任一类错误【答案】B【解析】第一类错误又称“弃真”错误，是指拒绝了实际上成立的原假设；第二类错误又称“取伪”错误，是指接受了实际上不成立的原假设。故当接受原假设时，只可能会犯第二类错误，不会犯第一类错误。19有一个时间序列预测模型为若已知，则（）。A1.1B1.0C0.9D0.9【答案】C【解析】由题知，故有：20以下是回归分析的一些内容：（1）回归模型的显著性检验；（2）回归系数的显著性检验；（3）残差检验；（4）回归模型的效果评价。那么，进行回归分析正确的顺序应是（）。A（2）-（1）-（3）-（4）B（1）-（2）-（3）-（4）C（2）-（1）-（4）-（3）D（1）-（2）-（4）-（3）【答案】B【解析】进行回归分析时，回归模型的显著性检验应位于回归系数的显著性检验之前，因为如果回归模型没有通过检验，回归系数就算通过检验也没有意义；而残差检验应位于回归模型的效果评价之前，因为残差检验可以用来对回归模型进行效果评价，故本题的正确顺序应为：回归模型的显著性检验回归系数的显著性检验残差检验回归模型的效果评价。21对一个正态总体（已知）的均值进行估计，希望所得的置信度为95%的区间估计的长度不超过20，则所需要的样本量至少为（）。ABCD【答案】A【解析】对均值进行估计，其置信区间长度为令故当，时，。22有4位同学的某一门课程成绩分别是71，82，87，90，则他们成绩的中位数是（）。A81B82.5C84.5D87【答案】C【解析】将该4位同学的课程成绩排序得到：71，82，87，90，故他们成绩的中位数为：。23设回归模型为，则下列说法错误的是（）。AB，其中r是x与y的相关系数C若取建立回归模型，则，D不一定独立同分布【答案】C【解析】A项，由正规方程组可知：；B项，故有，又，故；C项，；D项，相互独立但不一定要同分布。24关于两个正态总体（方差均未知）的检验以下说法正确的是（）。A若x与y是非成对数据，则进行方差相等下的均值检验B若x与y是非成对数据，则应先进行方差相等的检验，然后根据方差检验的结果进行均值检验C若（x，y）是成对数据，只需令zxy，然后检验，D若（x，y）是成对数据，将其看做非成对数据而采用非成对数据的方法进行检验也是恰当的【答案】B【解析】对非成对数据，即两个独立样本进行检验时，由于方差未知，可以在两总体方差相等和不等两种不同情况下进行检验，因此在进行均值检验前应先对方差是否相等进行检验。25关于单因子方差分析的说法中，错误的是（）。A总的偏差平方和（SST）可分解为因子的偏差平方和（SSA）和误差的偏差平方和（SSE）B因子的偏差平方和反应了因子水平之间的差异所导致的偏差C误差的偏差平方和反应了随机因素所导致的偏差D若因子的偏差平方和大于误差的偏差平方和，则说明因子的影响超越了随机因素的影响水平，即说明该因子显著【答案】D【解析】在单因子方差分析中有SSTSSA+SSE。SST反应的了抽样随机抽样误差的大小；SSA反应的是组均值对总均值的偏离程度，也就是因子水平之间的差异所导致的偏差；SSE反映的是所有观测值对组均值的偏离程度，也就是随机因素所导致的偏差。在进行分析时，采用的是F统计量：而SSASSE，并不能够保证F统计量落在拒绝域内，即也就不能够说明因子是显著的。26已知，则（）。A0.24B0.30C1.00D无法确定【答案】C【解析】因为，故知当A发生时，B肯定发生，即有。27从1000米长的一条布匹中随机抽取5米进行检验，若5米中无缺陷才可以接受这条布匹。假设送检布匹平均每米有1个缺陷，则这条布匹被拒收的概率为（）。A0.10B0.63C0.86D0.99【答案】D【解析】令X表示该条布匹的缺陷数，则X服从的泊松分布，故这条布匹被拒绝的概率为：28设是标准正态分布的分位数，即设X服从标准正态分布，则有（）。ABCD【答案】B【解析】是标准正态分布，由标准正态分布的性质可知：；当0.5时，故有；当0.5时，；。29某产品的寿命服从指数分布Exp（3），平均寿命为3小时，则该产品寿命超过1小时的概率为（）。A0.05B0.28C0.72D0.95【答案】C【解析】令X表示该产品的寿命时间，则有30X与Y为两个独立的随机变量，X的方差为1，Y的方差为2，则3Y2X的方差为（）。A4B8C14D22【答案】D【解析】D（3Y2X）9D（Y）4D（X）924122。二、简要回答下列问题（本题包括1-4题共4个小题，每小题10分，共40分）。1假设检验中需要使用P值，请说明P值含义，并说明如何使用P值？答：（1）P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小，说明这种情况发生的概率很小，而如果出现了，根据小概率原理，我们就有理由拒绝原假设。P值越小，我们拒绝原假设的理由就越充分。（2）从研究总体中抽取一个随机样本，计算检验统计量的值和概率P值，即在假设为真的前提下，检验统计量大于或等于实际观测值的概率。如果P（为设定的显著性水平），可认为差别不是由抽样误差引起，拒绝假定的参数取值；如果P，不能否定“差别由抽样误差引起”，则结果更倾向于接受假定的参数取值。P值的意义不表示两组差别的大小；通常P0.05时，差异无显著意义，不能否认无效假设，但并不能肯定无效假设成立。2给出样本的经验分布函数的定义，并计算其期望与方差。答：（1）样本的经验分布函数是指根据样本构造的概率分布函数，设为来自总体X的一组样本，定义函数：其中，。则称这个函数为经验分布函数。（2）由经验分布函数的性质可知：3简述充分统计量的定义，样本均值是不是正态总体均值的充分统计量？为什么。答：（1）如果即给定统计量T时，的条件概率函数与参数无关，且等同于P，则统计量称为充分统计量。（2）样本均值是正态总体均值的充分统计量，证明如下：设总体的密度函数为：则样本的联合密度函数为：取，则有：由因子分解定理知，是充分统计量。进一步的，与是一一对应的，故样本均值是正态总体均值的充分统计量。4现分别说说估计量的方差与均方误差的定义，再推导出他们之间的数学关系。答：（1）方差是各个数据与其算术平均数的离差平方和的平均数，通常以表示，即有均方误差是指参数估计值与参数真值之差的平方的期望值，记为MSE，即有（2）证明如下：其中，故有：三、计算与分析题（本题包括1-3题共3个小题，第1小题和第2小题每题20分，第3小题10分，共50分）。1随机抽查了50名小学生的身高数据如下（单位：cm）：117 122 124 129 139 106 117 130 122 125 108 131 125 117 122 133 126122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123119 113 120 123 127 135 137 114 120 128 124 115 139 128 124 121请先适当分组，再作出频率直方图，最后根据图形，判断这组数据的分布形状。解：由题意，将50名小学生的身高数据按照组距为5cm进行分组，得到分组结果如下表：根据该表，利用Excel软件，得到频率直方图为：根据频率直方图，可以看出这组数据的分布大致呈正态分布，其中，中位数位于120，125）区间内。2货车的行驶时间与行驶距离的远近及运送货物的次数有关，下表给出的资料是从某运输队收集来的。根据Excel输出结果，回答后面的几个问题。（1）将上述表中的数据A，B，C，D，E求出；（2）您认为用线性回归模型来拟合原始数据是否合适？为什么？（3）写出Y与及之间线性回归方程，并解释各个回归系数的意义；（4）您认为各个回归系数是不是显著不等于0？为什么？（取显著性水平为0.05）（5）找出各个回归参数的95%区间估计。方差分析解：（1）A值表示的是调整拟和优度，并且：所以B表示的是SSE的自由度，则B927；C表示的是检验统计量F的值，则D表示的是自变量回归系数的t检验统计量的值：E表示的是自变量的回归系数：E0.2193.4490.755。（2）用线性回归模型的拟合原始数据是合适的，因为无论是拟合优度还是调整后的拟合优度都较高，说明回归方程对观测值的解释程度较好；且F统计量对应p值为0.02小于0.05,即通过了回归方程的显著性检验。（3）Y与及之间线性回归方程为：其中，回归系数2.688的意义为：在其他条件不变的情况下，行驶距离每增加一公里，货车的行驶时间平均增加2.688小时；回归系数0.755的意义为：在其他条件不变的情况下，运送货物的次数每增加一次，货车的行驶时间平均增加0.755小时。（4）当显著性水平为0.05时，各个回归系数显著不等于0，因为各个回归系数的t统计量的P值均小于显著性水平0.05（两个回归系数的t统计量的P值分别为0.012和0.011）。（5）由题意知，的回归系数的置信度为95%的置信区间为（0.816，4.560）；的回归系数的置信度为95%的置信区间为（0.237，1.271）。3在寿命数据分析中，记X为寿命，假设X的分布函数为，密度函数为，在研究中通常还引入生存函数及失效率函数请导出用失效率函数表示、的关系式。解：对失效率函数两边求积分，得到：将上式化简，得到失效率函数表示的为：失效率函数表示的为：失效率函数表示的为：2013年华东师范大学金融与统计学院432统计学专业硕士考研真题及详解一、单项选择题（本题包括130题，共30个小题，每小题2分，共60分。在每小题给出的四个选项中，只有一个符合题目要求。先在答题纸上写上序号，再把所选项前的字母填在相应的序号后。）1以下关于抽样误差的说法错误的是（）。A抽样误差是指由于抽选样本的随机性所导致的误差B由绝对误差和置信度可显示抽样调查方案设计者预期的抽样误差C由总体目标量的点估计值可显示实际抽样误差的估计值D总体目标量的估计量的方差越大，表明抽样误差越大【答案】C【解析】抽样误差是由抽样的随机性引起的样本结果与总体真值之间的误差。抽样误差是由抽样的随机性导致的。影响抽样误差的原因有抽样单位的数目、总体被研究标志的变异程度、抽样方法的选择、抽样组织方式。抽样误差的计算方法为：，则可以看出抽样误差的估计是需要知道绝对误差和置信度的。2设有一个抽样调查方案，其抽样步骤如下：（1）在全国每一个省都独立地实施抽样调查；（2）在每一省中，随机抽取2个市；（3）在每一被抽取中的市中随机抽取5个调查小区；（4）对每一被抽中的调查小区中，调查该小区全体居民。该方案采用的抽样方法是（）。A二阶抽样B二阶整群抽样C分层二阶抽样D分层二阶整群抽样【答案】D【解析】可以首先采用的是分层抽样，将全国用省份划分为层，然后在每个层中采用的是二阶段抽样，抽取调查的小区，而对于抽中的小区采用的是整群抽样。3右偏分布的特征是（）。A偏态系数大于0B偏态系数小于0C偏态系数等于0D只能从直方图上判断，不能用统计量进行描述【答案】A【解析】偏态系数小于0时，均值小于众数，属于左偏分布；偏态系数大于0，均值大于众数，属于右偏分布；偏态系数等于0时，属于对称分布，即均值与众数为同一值。4以下关于变异系数的说法错误的是（）。A变异系数等于标准差除以均值B变异系数没有单位、不受数据量纲的影响C变异系数是稳健的统计量D变异系数反应了数据的波动情况【答案】C【解析】离散系数也称为变异系数，它是一组数据的标准差与其相应的平均数之比，它衡量的是统计资料离散程度，其计算公式为：5以下关于数据类型的说法错误的是（）。A温度属于定距类型的数据B考试成绩（百分制）属于定比类型的数据C性别属于定类类型的数据D评级（如：优、良、中、差）属于定序类型的数据【答案】B【解析】定距型数据通常指诸如身高、体重、

展开阅读全文