1、目录2015年对外经济贸易大学432统计学专业硕士考研真题2015年对外经济贸易大学432统计学专业硕士考研真题及详解2016年对外经济贸易大学432统计学专业硕士考研真题2016年对外经济贸易大学432统计学专业硕士考研真题及详解2017年对外经济贸易大学432统计学专业硕士考研真题2017年对外经济贸易大学432统计学专业硕士考研真题及详解2018年对外经济贸易大学432统计学专业硕士考研真题2018年对外经济贸易大学432统计学专业硕士考研真题及详解2015年对外经济贸易大学432统计学专业硕士考研真题2015年对外经济贸易大学432统计学专业硕士考研真题及详解一、单项选择题(每小题2分
2、,共20分)1下面哪个图形保留了原始数据的信息()。A直方图B茎叶图C条形图D箱线图B【答案】茎叶图是保留并反映原始数据分布的图形,它由茎和叶两部分构成,其图形是由数字组成的。ABC三项都需要对原始数据进行处理,求得一些测度值之后再作出图形。【解析】2为了了解消费者的网上购物支出,通过在街头拦访过路行人进行调查的抽样方式属于()。A简单随机抽样B分层抽样C判断抽样D方便抽样D【答案】A项,简单随机抽样是从包括总体N个单位的抽样框中随机地、一个一个地抽取n个单位作为样本,每个单位入样的概率是相等的;B项,分层抽样是将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本
3、;C项,判断抽样指研究人员根据经验、判断和对研究对象的了解,有目的地选择一些单位作为样本;D项,方便抽样是指调查过程中由调查员依据方便的原则,自行确定入抽样本的单位。题中的抽样方式属于方便抽样。【解析】3已知P(A)a,P(B)b,P(AB)c,则P(AB)为()。Aa(1b)BabCcbDa(1c)C【答案】P(AB)P(A)P(AB)P(A)P(A)P(B)P(AB)a(abc)cb。【解析】4设总体XN(2,2),X1,X16是来自总体X的样本,则(4X8)/服从的分布是()。At(15)Bt(16)C2(15)DN(0,1)D【答案】由题可知样本均值XN(2,2/16),则【解析】即(
4、4X8)/N(0,1)。5设X1,Xn是来自总体X的样本,则可以作为总体均值无偏估计量的是()。ABCDD【答案】A项【解析】B项C项D项所以,D项是总体均值的无偏估计量。6抽取样本容量为100的随机样本对总体的均值进行检验,检验的假设为H0:0,H1:0,显著性水平0.05,zc为检验统计量的样本值,那么P值为()。AP(zzc)BP(zzc)CP(z1.96)DP(z1.96)A【答案】题中,样本量n10030,2未知,在给定的显著性水平下,对于右单侧检验而言,P值为检验统计量的值大于由样本所计算出的检验统计量的值的概率,即P值P(zzc)。【解析】7五月份的商品销售额为60万元,该月的季
5、节指数为120%,则消除季节因素影响后,该月的商品销售额为()万元。A72B50C60D51.2B【答案】消除季节因素影响后的商品销售额该月商品实际销售额/该月季节指数60/120%50(万元)。【解析】8产量(X,台)与单位产品成本(Y,元/台)之间的回归方程为Y2482.6X,下列解释合理的是()。A产量每增加一台,单位产品成本增加248元B产量每增加一台,单位产品成本减少2.6元C产量每增加一台,单位产品成本平均增加245.4元D产量每增加一台,单位产品成本平均减少2.6元D【答案】题中,回归方程的回归系数为2.6,其含义是:产量每增加一台,单位产品成本平均减少2.6元。【解析】9以Y表
6、示实际观测值,Y表示回归估计值,则普通最小二乘法估计参数的准则是使()。A(YiYi)0B(YiYi)20C(YiYi)为最小D(YiYi)2为最小D【答案】普通最小二乘法是使因变量的观察值Y与估计值Y之间的离差平方和达到最小,从而估计参数j,j0,1,2的方法,即使(YiYi)2为最小。【解析】10对于Yi01X1i2X2ikXkiei,检验H0:i0(i0,1,k)时,所用的统计量服从()。At(nk1)Bt(nk2)Ct(nk1)Dt(nk2)A【答案】在多元线性回归方程回归系数的检验中,统计量【解析】是回归系数i的抽样分布的标准差。二、判断题(每小题2分,共20分,正确的打,错误的打)
7、1一组数据的中位数和平均数不会受到极端值的影响。【答案】中位数是一组数据排序后处于中间位置上的变量值,它是【解析】一个位置代表值,不受极端值的影响;平均数也称为均值,它是由一组数据相加后除以数据个数所得的结果,会受到极端值得影响。2一组数据的偏态系数大于0,说明该组数据的分布呈现右偏。【答案】偏态系数的表达式为【解析】当SK0,正负离差可相互抵消,可判断为对称分布;当SK为正值时,表示正离差值较大,可以判断为正偏或右偏;反之,当SK为负值时,表示负离差值较大,可判断为负偏或左偏。3若事件A,B满足P(A)0,P(B)0,且相互独立,则A,B一定是互斥的。【答案】事件A与B相互独立表示A(B)的
8、发生与否对B(A)发生的可能性不会产生任何影响,但允许A,B两个事件同时发生;而A和B互斥是指A,B不能同时发生。题中,由A,B相互独立不能推出A,B一定是互斥的。【解析】4设随机变量X服从N(1,12),Y服从N(2,22),且P|X1|1P|Y2|1,则必有12。【答案】由题可得:【解析】即(1/1)(1/2)所以,1/11/2,即:12。5当样本容量给定时,置信区间的宽度会随着置信水平的增大而增大。【答案】置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。在样本量相同的情况下,置信水平越高,置信区间越宽。【解析】6在置信
9、水平为90%条件下,某参数的置信区间为(60,80),说明这个区间以90%的概率包含了该参数的真值。【答案】题中,置信区间的含义是:将构造置信区间的步骤重复多次,在得到的所有的样本区间中有90%的区间包含总体参数的真值,而不是说这个区间以90%的概率包含了该参数的真值,针对某一个具体区间它一定包含参数的真值或一定不包含参数的真值,不存在以多大的概率包含参数真值的说法。【解析】7在假设检验中,增大样本容量,可以使两类错误的概率同时减小。【答案】当样本量一定时,如果减小错误,就会增大犯错误的机会;若减小错误,也会增大犯错误的机会。若要使和同时变小,只能增大样本量。【解析】8在方差分析中,拒绝原假设
10、说明各总体的均值都不相等。【答案】在方差分析中,拒绝原假设说明各总体的均值不全相等。若要检验哪些总体均值之间存在差异,则需要采用多重比较方法进行进一步分析。【解析】9一元回归模型的判定系数R2表明了回归直线对观测数据的拟合程度。【答案】R2越接近于1,表明回归平方和占总平方和的比例越大,回归直线与各观测点越接近,用x的变化来解释y值变差的部分就越多,回归直线对观测数据的拟合程度就越好;反之,R2越接近于0,回归直线对观测数据的拟合程度就越差。【解析】10若F检验表明多元回归模型的线性关系显著,则意味着每个自变量与因变量的关系都显著。【答案】在多元线性回归分析中,如果F检验表明线性关系显著,则意
11、味着在多个自变量中至少有一个自变量与因变量之间的线性相关系显著,而不是每个自变量与因变量之间的线性相关系都显著。【解析】三、名词解释(每小题4分,共20分)1离散系数答:离散系数又称为变异系数,是测度数据离散程度的相对统计量,其作用主要是用于比较对不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。离散系数指标有:全距(极差)系数、平均差系数、方差系数和标准差系数等,常用的是标准差系数。它们的计算公式如下:极差(全距)系数:VrR/X,RXmaxXmin;平均差系数:Va,dAD/X,方差系数:标准差系数:Vss/X。2简单随机抽样答:简单随机抽样又
12、称为单纯随机抽样、纯随机抽样、SRS抽样,是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。简单随机抽样是一种最基本的抽样方法,是其他抽样方法的基础,其特点是:每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此间无一定的关联性和排斥性。简单随机抽样是一种最基本的抽样方法,是其他抽样方法的基础。其突出特点是简单、直观,但是在实际应用中也有一些局限。3估计量的有效性答:估计量的有效性是指对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。无偏性只考虑估计值的平均结果是否等于待估参数的真值,而不考虑每个估计值与待估参数真值之间偏差的大小和分
13、布程度。在解决实际问题时,不仅希望估计是无偏的,更希望这些估计值的偏差尽可能地小。设1和2是的两个无偏估计量,若1的方差小于2的方差,即:D(1)D(2),则称1是比2有效的估计量。4单因素方差分析答:单因素方差分析是指只涉及一个分类型自变量,研究一个分类型自变量对一个数值型因变量的影响的方差分析。单因素方差分析的步骤为:(1)提出假设H0:12ik(自变量对因变量没有显著影响);H1:i(i1,2,k)不全相等(自变量对因变量有显著影响)。(2)构造检验统计量FMSA/MSEF(k1,nk)(3)统计决策若FF(k1,nk),则拒绝原假设H0:12k,表明i(i1,2,k)之间的差异是显著的
14、,即有证据表明所检验的因素对观测值有显著影响。若FF(k1,nk),则不拒绝原假设H0,没有证据表明i(i1,2,k)之间有显著差异,即这时还不能认为所检验的因素对观测值有显著影响。5假设检验中的两类错误答:在进行统计推断时,依据样本提供的信息进行判断,即由部分来推断总体。因而判断有可能正确,也有可能不正确,换而言之,统计推断面临着犯错误的可能。(1)假设检验中的两类错误 第类错误是在假设检验中拒绝了本来是正确的原假设,犯这种错误的概率用表示,所以又称错误或弃真错误;第类错误是在假设检验中没有拒绝本来是错误的原假设,犯这种错误的概率用表示,所以又称错误或取伪错误。(2)两类错误之间的关系在假设
15、检验中和一般是此消彼长的,即如果减小错误,就会增大犯错误的机会;若减小错误,就会增大犯错误的机会。而使和同时变小的办法只有增大样本量。但样本量不可能没有限制,否则就会使抽样调查失去意义。因此,在假设检验中通常遵循首先控制犯错误原则。四、简答题(每小题5分,共30分)1简述众数、中位数和平均数的应用场合。答:众数、中位数和平均数都是用来度量数据的集中趋势的数据。它们的内涵及应用场合如下:(1)众数众数是一组数据中出现次数最多的变量值。众数主要用于测度分类数据的集中趋势,也适用于作为顺序数据以及数值型数据集中趋势的测度值。一般情况下,只有在数据量较大的情况下,众数才有意义。(2)中位数中位数是一组
16、数据排序后处于中间位置上的变量值。它将全部数据等分成两部分,每部分包含50%的数据,一部分数据比中位数大,另一部分则比中位数小。中位数主要用于测度顺序数据的集中趋势,也适用于测度数值型数据的集中趋势,但不适用于分类数据。它是一个位置代表值,特点是不受极端值的影响。(3)平均数平均数也称为均值,它是由一组数据相加后除以数据个数所得的结果。平均数在统计学中具有重要的地位,是集中趋势的最主要测度值,它主要适用于数值型数据,而不适用于分类数据和顺序数据。2举例说明相关关系和函数关系的差别?答:(1)相关关系和函数关系的内涵 相关关系变量之间存在的不确定的数量关系,称为相关关系。相关关系的特点:一个变量
17、的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个。对这种关系不确定的变量显然不能用函数关系进行描述,但也不是无任何规律可循。通过对大量数据的观察与研究,就会发现许多变量之间确实存在着一定的客观规律。例如子女的身高与其父母的身高,一个人的收入水平与其受教育程度,农作物的单位面积产量与施肥量等都存在相关关系。函数关系设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为yf(x),其中x称为自变量,y称为因变量。所以,函数关系是一一对应的确定关系。(2)相关关系和函数关系的区别 函数关系指变量之间
18、的关系是确定的;而相关关系的两变量的关系则是不确定的,可以在一定范围内变动。函数关系变量之间的依存可以用一定的方程yf(x)表现出来,可以给定自变量来推算因变量;而相关关系则不能用一定的方程表示。函数关系是相关关系的特例,即函数关系是完全的相关关系,相关关系是不完全的相关关系。(3)举例y2x,x与y之间是相关关系,但不是函数关系。因为,当x1时,y1,对于x的取值,变量y存在两个值与其对应,不满足函数的定义,但y的取值会受x的影响,即x与y之间确实存在关系。3简述中心极限定理及意义。答:(1)中心极限定理从任意一个均值为、方差为2的总体中随机抽取一个样本容量为n的样本,当样本量n足够大时,样
19、本均值x近似服从均值为、方差为2/n的正态分布。(2)中心极限定理的意义中心极限定理为数理统计在统计学中的应用铺平了道路。用样本推断总体的关键在于掌握样本特征值的抽样分布,而中心极限定理表明:只要样本容量足够地大,那么未知总体的样本特征值就近似服从正态分布。从而,只要采用大量观察法获得足够多的随机样本数据,几乎就可以把数理统计的全部处理问题的方法应用于统计学,这从另一个方面也间接地开辟了统计学的方法领域,其在现代推断统计学方法论中居于主导地位。4在假设检验中如何使用P值?答:P值是一种在原假设为真的前提下出现观察样本以及更极端情况的概率,即检验统计量的值超过或者小于(还要依照分布的不同、单侧检
20、验、双侧检验的差异而定)由样本所计算出的检验统计量的数值的概率。在假设检验中,运用P值法作决策时,如果P值小于,也就是说,原假设对应的为小概率事件,根据上述的“小概率原理”,就可以否定原假设,而接受对应的备择假设;如果P值大于,就不能否定原假设。5简述一元回归模型的基本假设。答:(1)一元线性回归模型的概念对于具有线性关系的两个变量,可以用一个线性方程来表示它们之间的关系。描述因变量y如何依赖于自变量x和误差项的方程称为回归模型。只涉及一个自变量的一元线性回归模型,可表示为:y01x。(2)一元线性回归模型的主要假设 因变量y与自变量x之间具有线性关系;在重复抽样中,自变量x的取值是固定的,即
21、假定x是非随机的;误差项是一个期望值为0的随机变量,即E()0;对于所有的x值,的方差2都相同;误差项是一个服从正态分布的随机变量,且独立,即N(0,2)。6举例说明非平稳时间序列的特点。答:非平稳时间序列,是指包含趋势、季节性或周期性的序列,它可能只含有其中的一种成分,也可能是几种成分的组合。其又可以分为有趋势的序列、有趋势和季节性的序列、几种成分混合而成的复合型序列。非平稳时间序列的特点有:(1)时间序列的均值不为常数;(2)时间序列的方差不为常数;(3)自协方差函数与起点相关。典型的非平稳时间序列:随机游走序列ytyt1ut,式中为白噪声。yt的方差为:表明yt的方差随时间的变化而变化,
22、即随机游走序列是非平稳序列。五、计算题(每小题6分,共30分)特别说明:Z0.051.645,Z0.0251.96,t0.05(24)1.711如果投资项目A的预期回报率为8%,标准差为5%;而投资项目B的预期回报率为12%,标准差为7%,如何帮助投资者作出选择?解:由题可得:E(XA)8%,A5%;E(XB)12%,B7%。计算标准差系数得:VAA/E(XA)5%8%0.625VBB/E(XB)7%12%0.583因为,VAVB,即项目B的投资风险小于项目A,且项目B的预期回报率高于项目A,所以,投资者应该选择投资项目B。2设随机变量X和Y的方差分别为0.09和0.25,相关系数为0.85,
23、求3X2Y的方差。解:由题可知,D(X)0.09,D(Y)0.25,XY0.85。则D(3X2Y)32D(X)22D(Y)232Cov(X,Y)3.343工厂生产的某种设备的寿命X(以年计)服从指数分布,概率密度函数为为确保消费者的利益,工厂规定出售的设备若在一年内损坏可以调换。若售出一台设备,工厂获利100元,而调换一台则损失200元,计算工厂出售一台设备获利的数学期望。解:设工厂出售一台设备获得的利润为Y元。由题可知,调换一台设备的概率为:出售一台设备的概率为:则工厂出售一台设备获利的数学期望为:4一家研究机构拟评估在校大学生每月网购的平均花费,为此随机抽取25名在校大学生进行调查,得到样
24、本均值为160元,标准差为50元。假定在校大学生每月网购的花费服从正态分布,求平均花费的90%的置信区间。解:由题可知,n25,x160(元),s50(元)。由于总体方差未知,且为小样本,则平均花费的90%的置信水平下的置信区间为:即平均花费的90%的置信水平下的置信区间为(142.9,177.1)。5某厂生产需用玻璃纸做包装,按规定,供应商供应的玻璃纸横向延伸率不应低于65。从近期来货中抽查了100个样品,测得样本均值为63.5,标准差为5.5。回答:(1)在0.05的显著性水平下能否接收这批玻璃纸,并分析检验中会犯哪类错误。(2)抽查的100个样品的样本均值为多少时可以接收这批玻璃纸,此时
25、可能犯的错误属于哪种类型?解:(1)设供应商供应的玻璃纸的平均横向延伸率为。建立假设:H0:65;H1:65。构建检验统计量:因为,x63.5,s5.5,n100,065;所以则zz0.051.645,拒绝原假设,即认为供应商供应的玻璃纸横向延伸率低于65,故不能接收这批玻璃纸。以上检验中会犯第类错误,拒绝了本来是正确的原假设。即供应商供应的玻璃纸横向延伸率本来是不低于65的,但是在该特定样本和显著性水平下假设检验认为供应商供应的玻璃纸横向延伸率低于65。(2)根据(1)可知,要想接收这批玻璃纸,则必须:解得,x64.1。即当样本均值x64.1时,可以接收这批玻璃纸。此时可能犯第类错误,接受了
26、本来是错误的原假设。即供应商供应的玻璃纸横向延伸率本来低于65,但是在该特定样本和显著性水平下假设检验没有拒绝原假设,导致这批玻璃纸被接收。六、综合题(每小题10分,共30分)1(1)小王到一家工厂应聘工人,这家工厂共15人,由厂长、5个领工和9个工人组成,应聘时厂长向小王介绍说这家工厂的平均工资是每月5240元。小王认为薪水比较丰厚就接受了这个工作,但工作了一段时间后要求见厂长,发生了下面一段对话:小王:“你欺骗我,我已经问过其他工人了,没有一个人的工资超过5240元,平均工资怎么可能是5240元呢?”这时,厂长拿出一张工资表来向小王解释说:“我每月工资13000元,5个领工每人每月工资70
27、00元,你来之前有9个工人,每人每月工资3400元”。请问厂长是否欺骗了小王?为什么厂里大多数人拿到的工资都低于全厂(不包括小王)的平均工资?这种情况下用什么来描述工资水平比较合适?(5分)(2)某款减肥药在宣传的时候声称消费者在使用1个月后平均减重10公斤。某牙膏声称多名用户反映该牙膏后蛀牙减少了27%。这些广告宣传还注明以上研究结果来自某些信誉良好的实验室。这些产品真的像广告声称的那么好吗?请论述在相信这些数据不存在弄虚作假的前提下,我们还可以从哪些方面质疑产品的效果?(5分)答:(1)厂长欺骗了小王。因为厂长和5个领工的工资要远远高于9个工人的工资,厂长正是利用了平均数不能正确反映这组数
28、据的一般水平这一原因,从而欺骗了小王。这种情况下小王可以采用两方法去了解工资水平比较合适:根据众数。小王可直接考察工人工资的众数3400元;根据中位数。小王可将工资按一定的顺序排列,取中位数来表示工资的一般水平,中位数也是3400元。(2)研究调查对象。若使用减肥药的消费者是严重超重类人群,则对普通人来讲药效存在虚假成分;若使用牙膏的消费者的蛀牙情况十分严重,同样这些消费者不具有代表性,其效果也存在有虚假成分。参与调查的样本容量。若样本量太小,产品效果也存在有虚假成分。2一家产品制造公司的管理者想要比较A、B、C三种培训方式对产品组装时间是否有显著影响,将20名新员工随机分配给每种培训方式。对
29、培训后的每个员工组装一件产品所花的时间进行方差分析,得到如下结果:要求:(1)完成上面的方差分析表,计算表中括号内英文字母a,b,c,d,e,f,g代表的数值。(2)在0.05的显著性水平下,检验不同培训方式对产品组装的时间是否有显著影响。已知F0.05(2,17)3.59,F0.05(2,18)3.55,F0.05(3,17)3.20。解:(1)由已知得,组间平方和SSA、组内平方和SSE及总平方和SST的自由度分别为:fA312fE20317fr20119SSAMSAfA3.827.6MSESSE/fE37.4/172.2SSTSSASSE7.637.445FMSA/MSE3.8/2.21
30、.73通过计算得到的方差分析表如表1所示。表1(2)设A、B、C三组的均值分别为A、B、C。提出假设:H0:ABC;H1:A、B、C不全相等。由(1)中方差分析表可得,F1.73F0.05(2,17)3.59;则不能拒绝原假设,即没有证据表明不同培训方式对产品组装的时间有显著影响。3一家房地产评估公司对某社区的住宅销售价格(Y,单位:万元)、住宅建筑成本(X1,单位:万元)、住宅估价(X2,单位:万元)和使用面积(X3,单位:平方米)建立一个多元线性回归模型。为此,收集了18栋该社区住宅的房地产评估数据,并采用EXCEL进行回归分析,得出如下回归结果:给定显著性水平0.05。根据上述输出结果,
31、回答:(保留到小数点后4位)(1)写出估计的多元回归方程。(2分)(2)在销售价格的总变差中,由回归方程所解释的比例是多少?(2分)(3)检验回归方程的线性关系是否显著。(2分)(4)检验各回归系数是否显著。(2分)(5)指出该模型可能存在的问题。(2分)解:(1)由题可得估计的多元回归方程为:Y110.65940.849811X10.847648X20.127337X3(2)判定系数R288.1776%,表示在销售价格的总变差中,由回归方程所解释的比例为88.1776%。(3)方差分析表显示,P值Significance F9.603851090.05,表明回归方程的线性关系是显著的。(4)
32、用于回归系数检验的P值中,X1和X3的P值均大于0.05,所以X1和X3的回归系数均不显著;X2的P值小于0.05,所以X2的回归系数是显著的。(5)回归模型整体显著,而回归变量住宅建筑成本X1和使用面积X3通不过检验,则模型存在的问题是自变量之间可能存在多重共线性。另一方面,从定性角度来看,模型中的回归变量住宅建筑成本X1、住宅估价X2和使用面积X3存在一定的相关关系,故需要对该模型回归变量做进一步的检验,判断变量间多重共线性程度。2016年对外经济贸易大学432统计学专业硕士考研真题2016年对外经济贸易大学432统计学专业硕士考研真题及详解一、单项选择题(每小题2分,共20分)1下列各项
33、中,会受极端值影响的是()A四分位差B中位数C方差D众数C【答案】C项,方差是各变量值与其平均数离差平方和的平均数,它测度了数据的离散程度,方差的计算需要使用全部样本数据,因此它受极端值的影响。四分位差是上四分位数与下四分位数之差,反映了中间50%数据的离散程度,它不受极端值的影响;中位数和众数都属于位置平均数,中位数是一组数据排序后处于中间位置上的变量值,众数是一组数据中出现次数最多的变量值,它们都不受极端值的影响。【解析】2根据各季度季节商品销售额数据计算的季节指数分别为:一季度125%,二季度80%,三季度95%,四季度100%,受季节因素影响最大的是()A一季度B二季度C三季度D四季度
34、A【答案】在乘法模型中,季节指数反映了某一月份或季度的平均数值占全年平均数值的大小。若不受季节因素影响,则季节指数应为100%,相对于这个平均值的变动越大,说明受季节因素的影响越大,比较四个选项可知,一季度的季节指数与平均值相差最大。【解析】3将一枚硬币掷n次,以X和Y分别表表示正面朝上和反面朝上的次数,则X和Y的相关系数等于()A1B0C0.5D1A【答案】由题可知,XYn,则X越大,Y越小;X越小,Y越大。二者呈完全负相关关系,故X和Y的相关系数为1。【解析】4设是参数的无偏估计量,且D()0,则2()2的无偏估计量A一定是B不一定是C一定不是D可能是C【答案】由于D()E(2)E2()0
35、,而是的无偏估计量,E(),所以D()E(2)20,即E(2)2,因此2一定不是2的无偏估计量。【解析】5对总体均值进行区间估计时,影响置信区间宽度的因素不包括()A样本均值B置信水平C样本容量D数据的离散程度A【答案】总体均值的置信区间为【解析】其中表示置信区间的半径,因此置信水平、样本容量和数据的离散程度都对置信区间宽度有影响,样本均值x决定的是置信区间在数轴上的位置,不会影响区间的宽度。6在假设检验中,如果所计算出的P值越小,说明()A检验的结果越不显著B拒绝原假设的可能性越小C检验的结果越真实D不利于原假设的证据越强D【答案】假设检验中的P值是指样本观察结果或更极端情况出现的概率,P值
36、越小,说明在原假设成立的条件下,观察值出现的可能性越小,因此不利于原假设的证据越强。【解析】7用一组有30个观测值的样本估计模型Yi01Xiui,在0.05显著性水平下对1的显著性作t检验,则推断1显著不等于零的条件是其统计量t的绝对值大于()At0.05(30)Bt0.025(30)Ct0.05(28)Dt0.025(28)D【答案】在一元线性回归方程中,检验回归系数显著性的统计量为【解析】检验的拒绝域为W|t|ta/2(n2),本题中即为W|t|t0.025(28)。8在多元线性回归分析中,如果F检验表明线性关系显著,则意味着()A在多个自变量中至少有一个自变量与因变量之间的线性关系显著B
37、所有的自变量与因变量之间的线性关系都显著C在多个自变量中至少有一个自变量与因变量之间的线性关系不显著D所有的自变量与因变量之间的线性关系都不显著A【答案】在多元回归分析中,k个自变量中只要有一个自变量与因变量的线性关系显著,F检验就能通过,但这不一定意味着每个自变量与因变量的关系都显著,还需要对每个回归系数分别进行检验。因此,F检验通过表明在多个自变量中至少有一个自变量与因变量之间的线性关系显著。【解析】9根据样本资料已估计得出人均消费支出(Y)对人均收入(X)的回归模型为lnYi2.000.75lnXi,这表明人均收入每增加1%,人均消费支出平均将增加()A2.75%B0.275%C0.75
38、%D7.5%C【答案】在双对数回归模型lnYi01lnXi中,回归系数1表示自变量X每增加一个百分点,对应因变量平均增加1%。【解析】10在方差分析中,检验统计量F是()A组间均方除以总均方B组间均方除以组内均方C组间平方除以总平方和D组间平方和除以组内平方和B【答案】方差分析中要比较的是组间均方和组内均方之间的差异,检验统计量FMSA/MSE,即组间均方除以组内均方。【解析】二、判断题(每小题2分,共20分。判断正确与错误,无须说明理由)1配额抽样是按照随机原则抽取样本的。【答案】配额抽样是非概率抽样的一种,它是首先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样
39、或判断抽样的方式选取样本单位。在抽取具体样本单位时,并不是依据随机原则。【解析】2抽样误差产生的原因是由于在抽样过程中没有遵循随机性原则。【答案】抽样误差是由抽样的随机性引起的样本结果与总体真值之间的误差。它只存在于概率抽样中,而概率抽样都是遵循随机原则的。【解析】3在某公司进行的计算机水平测试中,新员工的平均得分是80分,标准差是5分,中位数是86分,则新员工得分的分布形状是左偏的。【答案】中位数大于平均数,说明数据呈左偏分布。【解析】4总体参数的90%的置信区间,是指总体参数有90%的概率落在这一区间内。【答案】置信度为90%是指,将构造置信区间的步骤重复多次,得出的区间中包含总体参数真值
40、的区间个数所占的比例为90%。因此,这个概率不是用来描述某个特定的区间包含总体参数真值的可能性,而是针对随机区间而言的。总体参数的真值是确定的,一个特定的区间总是“包含”或“绝对不包含”参数的真值,不存在“总体参数以多大的概率【解析】落在某个区间”的说法。5假设置信水平相同,对方差未知的正态总体进行样本量相同的N次抽样,来估计总体均值的置信区间,得到的N个置信区间的宽度一定相等。【答案】当总体方差未知时,总体均值的置信区间为【解析】其中s为样本标准差,部分表示置信区间的半径,即置信水平、样本容量和数据的离散程度都对置信区间宽度有影响。置信水平相同,样本量相同,但是对于不同的样本,其方差一般不相
41、同,所以置信区间的宽度一般也不相等。6在单侧检验时,如果将原假设和备择假设互换方向,其检验结论也正好相反。【答案】原假设与备择假设互换方向之后,检验的拒绝域不相同,互换方向后检验结论是否相反未知。单侧检验中当检验统计量的观测值既不是很大也不是很小时,原假设和备择假设互换方向前后都没有足够充分的证据拒绝原假设,故并非互换后检验结论一定正好相反。【解析】7估计回归模型Yi01X1i2X2iui,使用的样本容量为100。则检验H0:20所用的统计量服从t(97)。【答案】多元线性回归模型中,回归系数显著性检验的统计量【解析】其中k表示解释变量的个数。8在由n31的一组样本估计包含5个解释变量的线性回
42、归模型中,计算得到多重判定系数为0.8500,则调整的多重判定系数为0.8200。【答案】调整的多重判定系数【解析】代入数据计算得到此处Ra20.82。9当时间序列不受季节变动影响时,季节指数应该小于100%。【答案】在乘法模型中,季节指数反映了某一月份或季度的平均数值占全年平均数值的大小,当时间序列不受季节变动的影响时,季节指【解析】数应等于100%。10拉氏价格指数是以各商品报告期数量指标为权重计算的。【答案】拉氏价格指数是以各商品基期数量指标为权重计算的,帕氏价格指数才是以各商品报告期数量指标为权重计算的。【解析】三、名词解释(每小题4分,共20分)1系统抽样答:将总体中的所有单位(抽样
43、单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位,这种抽样方法称为系统抽样。典型的系统抽样是先从数字1k之间随机抽取一个数字r作为初始单位,以后依次取rk,r2k,。2异众比率答:异众比率是指非众数组的频数占总频数的比例,用Vr表示,它主要用于衡量众数对一组数据的代表程度,适合用于测度分类数据的离散程度。其计算公式为:式中,fi为变量值的总频数,fm为众数组的频数。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。3统计量答:设X1,X2,Xn是从
44、总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,Xn),不依赖于任何未知参数,则称函数T(X1,X2,Xn)是一个统计量。统计量是样本的一个函数。由样本构造具体的统计量,实际上是对样本所包含的总体信息按某种要求进行加工处理,把分散在样本中的信息集中到统计量中,不同的统计推断问题要求构造不同的统计量。统计量在统计学中具有极其重要的地位,它是统计推断的基础。4置信区间答:在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间,其中区间的最小值称为置信下限,最大值称为置信上限。对置信区间的理解,需要注意:(1)如果用某种方法构造的所有区间中有95%的区间包含总体参
45、数的真值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平为95%的置信区间。(2)置信区间是一个随机区间,它会因样本的不同而不同,而且不是所有的区间都包含总体参数的真值。(3)在实际问题中,用样本所构造的区间是一个特定的区间,而不再是随机区间,所以无法知道这个样本所产生的区间是否包含总体参数的真值。5多重共线性答:当回归模型中两个或两个以上的自变量彼此相关时,称回归模型中存在多重共线性。当变量之间高度相关时,可能会使回归的结果混乱,甚至会把分析引入歧途;多重共线性可能对参数估计值的正负号产生影响,特别是i的正负号有可能同预期的正负号相反。四、简答题(每小题5分,共30分)
46、1分层抽样与整群抽样的差别是什么?答:(1)分层抽样与整群抽样的概念 分层抽样是将抽样单位按某种特征或规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,再将各层的样本结合起来,对总体的目标量进行估计;整群抽样是将总体中若干个单位合并为组,这样的组称为群,抽样时直接随机抽取一个群,然后对中选群中的所有单位全部实施调查。(2)二者的区别 分层抽样保证了样本中包含各种特征的抽样单位,样本结构与总体结构相近,因此可以有效提高估计的精度;而在样本量相同的条件下,整群抽样的抽样误差通常比较大。分层抽样通常要求具有所有单位的抽样框,但在实际中,这个要求通常难以满足;而整群抽样在抽取样本时没有这个要求
47、,大大简化了编制抽样框的工作量。在对总体进行划分时:分层抽样要求层内方差尽可能小,层间方差尽可能大;而整群抽样要求群内方差尽可能大,群间方差尽可能小。2你如何理解统计相关关系和因果关系的差异?答:(1)相关关系是指两个数值型变量彼此相关,呈现有规律的变化趋势,它是变量之间不确定的数量关系。因果关系是指一个变量的变化引起另一个变量的变化,变量之间通常有确定的数量关系。(2)在相关关系中,两个变量都是随机变量,具有对称性;而在因果关系中,两个变量是不对称的,一个作因变量,一个作自变量。另外,变量之间存在相关关系不代表二者一定有因果关系;但是变量之间若存在因果关系,则二者之间一定存在相关关系。3时间
48、序列可以分解为哪四个部分?答:(1)定义:时间序列是同一现象在不同时间上的相继观察值排列而成的序列。时间序列可分为平稳序列和非平稳序列。平稳序列是基本上不存在趋势的序列,非平稳序列是包含趋势、季节性或周期性的序列,它可能只含有其中的一种成分,也可能是几种成分的组合。(2)非平稳时间序列可分解为四种成分:趋势,是时间序列在长期内呈现出来的某种持续上升或持续下降的变动,也称长期趋势;季节性,也称季节波动,它是时间序列在一年内重复出现的周期性波动。季节性中的“季节”一词是广义的,它不仅仅是指一年中的四季,其实是指任何一种周期性的变化;周期性,也称循环波动,它是时间序列中呈现出来的围绕长期趋势的一种波
49、浪形或振荡式变动。周期性通常是由商业和经济活动引起的,它是一种涨落相间的交替波动,无固定规律,变动周期多在一年以上,且周期长短不一;随机性,也称不规则波动,它是时间序列中除去趋势、周期性和季节性之后的由偶然性因素引起的随机波动。4单侧检验中原假设和备择假设的方向如何确定?答:在单侧检验中,通常把想要证明其错误的结论放在原假设,把试图找到证据证明的结论放在备择假设,方向的确定与想要证明的方向一致。例如:想要证明一批食品的平均净重不足250g,设食品平均净重为,则原假设为250,备择假设为250。5简述多元线型回归模型中调整的多重判定系数的作用。答:(1)多重判定系数R2是多元回归中的回归平方和占
50、总平方和的比例,即R2SSR/SST,它是度量多元回归方程拟合程度的一个统计量,反映了在因变量Y的变差中被估计的回归方程所解释的比例。但是随着自变量个数的增加,预测误差会减小,由于回归平方和SSRSSTSSE,当SSE变小时,SSR就会变大,从而使R2变大。(2)调整的多重判定系数Ra2的解释与R2类似,不同的是:Ra2同时考虑了样本量(n)和模型中自变量的个数(k)的影响,避免了由于增加自变量而高估了R2,而且Ra2的值永远小于R2,不会由于模型中自变量个数的增加而越来越接近1。因此在多元回归分析中,通常用调整的多重判定系数。6要检验多个总体均值是否相等时,为什么不作两两比较而用方差分析方法