人民大学统计学在职题库统计综述答案.doc

资源描述

1中国人民大学接受同等学历人员申请硕士学位考试试题招生专业：统计学考试科目：统计思想综述课程代码：123201 考题卷号：1 一、（20分）随机抽取20块手机电池，测得其使用寿命数据如下（单位：小时）： 1008 993 998 1007 1011 1002 1013 999 1008 995 983 995 1000 977 1015 1010 998 1005 1011 996 列出描述上述数据所适用的统计图形，并说明这些图形的用途。直方图：直观的展示一组数据（电池使用寿命）的分布情况。箱线图：直观反映原始数据（电池寿命）的数据分布的特征，如偏态，是否有离群点。二、（20分）方差分析中有哪些基本假定？这些假定中对哪个假定的要求比较严格？ 1、方差分析有3个基本假定：（1）正态性：每个总体都应服从正态分布，即对于因子的每一个水平，其观测值是来自正态分布总体的简单随机样本；（2）方差齐性：各个总体的方差必须相同；（3）独立性：每个样本数据是来自因子各水平的独立样本 2、对独立性要求比较严格，独立性得不到满足会对方差分析结果有较大影响，对正态性和方差齐性的要求相对比较宽松。三、（20分）某种食品每袋的标准重量是100克，从该批食品中抽取一个随机样本，检验假设，。（1）如果拒绝，你的结论是什么？，如果不拒绝，你的结论是什么？（2）能否得到一个样本能够证明该食品的平均重量是100克？请说明理由。（3）如果由该样本得到的检验的，你的结论是什么？0.03这个值是犯第Ⅰ类错误的概率，是实际算出来的显著性水平，你怎样解释这个值？（1）拒绝：该种食品每袋的平均重量不是100g 不拒绝：提供的样本不能证明该种食品每袋的平均重量不是100g （2）不能，样本得出的结论只能是拒绝或不拒绝原假设，并不能直接确定原假设为真（3）结论：若给定显著性水平为0.05，则可以拒绝原假设，认为该食品每袋的平均重量不是100克；但若给定显著性水平为0.01，则不能拒绝原假设 P值：如果该种食品每袋的平均重量是100g，样本结果会像实际观测那样极端或更极端的概率仅为0.03 四、（20分）在建立多元线性回归模型时，通常需要对自变量进行筛选。（1）请谈谈你对变量筛选的必要性的看法。（2）列出变量筛选的方法，请简要说明这些方法的特点。（1）若将所有的自变量都引入回归模型，往往会导致所建立的模型不能进行有效的解释，也可能会导致多重共线性，增加自变量还会导致判定系数增大，从而高估模型拟合优度。（2）变量筛选有向前选择、向后剔除、逐步回归等方法。特点如下：向前选择：从没有自变量开始，不停向模型中增加自变量，直到增加不能导致SSE显著增加为止。向后剔除：从所有自变量开始，不停从模型中剔除自变量，直到剔除不能导致SSE显著减小为止。逐步回归：结合向前选择和向后剔除，从没有自变量开始，不停向模型中增加自变量，每增加一个自变量就对所有现有的自变量进行考察，若某个自变量对模型的贡献变得不显著就剔除。如此反复，直到增加变量不能导致SSE显著减少为止。五、（20分）如果一个时间序列包含趋势、季节成分、随机波动，适用的预测方法有哪些？对这些方法做检验说明。可以使用Winter指数平滑模型、引入季节哑变量的多元回归和分解法等进行预测。（1）Winter指数平滑模型包含三个平滑参数，即（取值均在0~1），以及平滑值、趋势项更新、季节项更新、未来第k期的预测值。 L为季节周期的长度，对于季度数据，L=4，对于月份数据，L=12；I为季节调节因子。平滑值消除季节变动，趋势项更新是对趋势值得修正，季节项更新是t期的季节调整因子，是用于预测的模型。使用Winter 模型进行预测，要求数据至少是按季度或月份收集的，而且需要有四个以上的季节周期（4年以上的数据）。使用Winter 模型进行预测，要求数据至少是按季度或月份收集的，而且需要有四个以上的季节周期（4年以上的数据）。（2）引入季节哑变量的多元回归对于以季度记录的数据，引入3个哑变量，其中=1(第1季度)或0(其他季度)，以此类推，则季节性多元回归模型表示为：其中b0是常数项，b1是趋势成分的系数，表示趋势给时间序列带来的影响，b2、b3、b4表示每一季度与参照的第1季度的平均差值。（3）分解预测第1步，确定并分离季节成分。计算季节指数，然后将季节成分从时间序列中分离出去，即用每一个时间序列观测值除以相应的季节指数以消除季节性。第2步，建立预测模型并进行预测。对消除了季节成分的时间序列建立适当的预测模型，并根据这一模型进行预测。第3步，计算出最后的预测值。用预测值乘以相应的季节指数，得到最终的预测值。 2中国人民大学接受同等学历人员申请硕士学位考试试题招生专业：统计学考试科目：统计思想综述课程代码：123201 考题卷号：2 一、（20分）在某小学随机抽取35名小学生，调查他们每周购买零食的花费情况，得到的数据如下（单位：元）： 24 17 26 29 38 6 28 44 39 8 30 17 26 32 40 10 20 27 43 33 15 4 28 35 26 47 25 17 26 45 16 36 29 37 5 列出描述上述数据所适用的统计量，并说明这些统计量的用途。平均数：用于度量对象的一般水平。中位数（分位数）：用中间（某个）位置上的值代表数据水平，也用于度量对象的一般情况，且不受极值的影响具有稳定性。方差（标准差）：用于描述一组数据的差异水平，越大说明数据的分布越分散不稳定。偏态系数：用于描述数据分布的不对称性，越接近0越对称。峰度系数：用于描述数据分布峰值高低，大于0为尖峰，小于0为扁平分布。二、（20分）简要说明分布和分布在推断统计中应用。 t分布：当正态总体标准差未知时，在小样本的条件下对总体均值的估计和检验要用到t分布。描述样本均值分布，用于对两个样本均值差异进行显著性测试、估算置信区间等。 F分布：通常用于比较不同总体的方差是否有显著差异。应用于方差分析、协方差分析和回归分析等，还可用于似然比检验。三、（20分）什么是值？要证明原假设不正确，如何确定合理的值？ P值：犯第I类错误的真实概率，也称观察到的显著性水平。是当原假设为真时，得到的样本结果会像实际观测结果这样极端或者更极端的概率。若要证明原假设不正确，则由样本得到的P值应小于给定的显著性水平。四、（20分）某企业准备用三种方法组装一种新的产品，为确定哪种方法每小时生产的产品数量最多，随机抽取了30名工人，并指定每个人使用其中的一种方法。通过对每个工人生产的产品数进行方差分析得到下面的结果：方差分析表差异源 SS df MS F P-value 组间 210 0.245946 组内 3836 — — 总计 2 — — — (1) 完成上面的方差分析表。 (2) 组装方法与组装产品数量之间的关系强度如何？ (3) 若显著性水平，检验三种方法组装的产品数量之间是否有显著差异？（1）差异源 SS df MS F P-value 组间 2*210=420 I-1=2 210 0.245946 组内 3836 30-3=27 =142.07 — — 总计 420+3836=4256 29 — — — （2）从P值来看，组装方法与组装产品数量之间的关系强度较弱。（3）原假设：三种方法每小时组装的产品数量没有差异若显著性水平为0.05，则P>0.05，因此不能拒绝原假设，即不能证明三种方法组装的产品数量之间有显著差异。五、（20分）简要说明分解预测的基本步骤。第1步，确定并分离季节成分。计算季节指数，然后将季节成分从时间序列中分离出去，即用每一个时间序列观测值除以相应的季节指数以消除季节性。第2步，建立预测模型并进行预测。对消除了季节成分的时间序列建立适当的预测模型，并根据这一模型进行预测。第3步，计算出最后的预测值。用预测值乘以相应的季节指数，得到最终的预测值。 3中国人民大学接受同等学历人员申请硕士学位考试试题招生专业：统计学考试科目：统计思想综述课程代码：123201 考题卷号：3 一、（20分）在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中，进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表：要对各名运动员进行综合评价，使用的统计量有哪些？简要说明这些统计量的用途。（1）集中趋势：指一组数据向某一中心值靠拢的程度，它可以反映选手射击成绩中心点的位置平均数：一组数据相加后除以数据的个数得到的结果。若各组数据在组内是平均分布的，则计算的结果还是比较准确的，否则误差会比较大。（如中国选手发挥很稳定，适合使用平均数判断其成绩）中位数：一组数据排序后处于中间位置上的变量值，但不受极端值的影响。（如波兰选手大多数成绩比较平均，但有一枪打到8.1，会严重影响其平均值，但不会影响中位数）（2）离散程度：各变量值远离其中心值的程度，它可以反映选手发挥的稳定性标准差：方差的平方根，能够很好的反映出数据的离散程度，若选手的平均成绩差异不大，可以通过直接比较标准差的方式进行衡量离散系数：一组数据的标准差与其相应的平均数之比，离散系数越大则数据的离散程度也大，若选手的平均成绩差异很大，则需要计算离散系数比较稳定性极差：一组数据的最大值与最小值之差，它容易受极端值的影响，不能反映中间数据的分散情况，但可从另一方面选手是否存在发挥异常（3）分布形状峰态：峰态是对数据分布平峰或尖峰程度的测度，当K>0时为尖峰分布，数据的分布更集中；当K<0时为扁平分布，数据的分布越分散。通过对选手的峰态分布情况分析，可看出成绩分布是否平均。偏态：偏态是对数据分布对称性的测量，若偏态系数明显不等于0，表明分布是非对称的，偏态系数的数值越大，表示偏斜的程度越大。通过对选手的偏态分布情况情况分析，可看出选手成绩分布是否对称，是否受比赛时长影响。二、（20分）为什么说假设检验不能证明原假设正确？（1）假设检验的目的主要是收集证据拒绝原假设，而支持你所倾向的备择假设。因为假设检验只提供不利于原假设的证据（证据的强弱取决于P值的大小）。因此，当拒绝原假设时，表明样本提供的证据证明它是错误的；当没有拒绝原假设时，我们也没法证明它是正确的，因为假设检验的程序没有提供它正确的证据。（2）假设检验得出的结论都是根据原假设进行阐述的。我们要么拒绝原假设，要么不拒绝原假设。当不能拒绝原假设时，我们也不能说“接受原假设”，因为没有足够的证据拒绝原假设并不等于你已经证明了原假设时真的，它仅仅意味着目前我们还没有足够的证据证明原假设，只表示目前的样本提供的证据还不足以拒绝原假设。（3）假设检验通常是先确定显著性水平α，这等于控制了第Ⅰ类错误的概率；但犯第Ⅱ类错误的概率β却是不确定的。在拒绝H0时，犯第Ⅰ类错误的概率不超过给定的显著性水平α；当样本结果显示没有充分理由拒绝原假设时，也难以确定第Ⅱ类错误发生的概率。因此，在假设检验中采用“不拒绝H0”而不采用“接受H0”的表述方法，这样在多数场合下便避免了第Ⅱ类错误发生的风险。三、（20分）为估计公共汽车从起点到终点平均行驶的时间，一家公交公司随机抽取36班公共汽车，得到平均行驶的时间为26分钟，标准差为8分钟。（1）说明样本均值服从什么分布？依据是什么？（2）计算平均行驶时间95%的置信区间。（3）解释95%的置信水平的含义。（，，，）（1）样本均值服从正态分布。通过中心极限定理：设从均值为，方差为（有限）的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值、方差的正态分布。一般统计学中的n30为大样本，本题中抽取了36个样本，因此样本均值服从正态分布。（2）已知n=36，=26，s=8，置信区间95%所以==1.96 平均行驶时间95%的置信区间为： = 261.96 x = 262.61 即（23.39,28.61）（3）一般地，如果将构造置信区间的步骤重复多次，置信区间中包含总体参数真值的次数所占的比例称为置信水平。如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值，5%的区间不包含总体参数的真值，那么用该方法构造的区间称为置信水平为95%的置信区间。四、（20分）设单因素方差分析的数学模型为：。解释这一模型的含义，并说明对这一模型的基本假定。单因素方差分析指的是只有一种处理因素在影响结果，或者说只有一个自变量在影响因变量的情况。（1）设任何一次实验结果都可以表示成如下形式:Yi=μ+εi 其中Yi是第i次实验的实际结果，μ是该结果的最佳估计值，其实就是总体均值，εi是均值和实际结果的偏差也就是随机误差（2）假定εi服从均值为0，标准差为某个定值的正态分布，把以上形式按照方差分析进行推广，假设我们要研究几种水平之间的差异，每种水平抽取一定样本并收集相关数据，那么模型公式可以表示为：Yij=μi+εij 其中Yij是第i组水平的第j个样本的实际结果，μi是第i组的均值，εij是第i组第j个样本相对于实际结果的偏差。同样假定εi服从均值为0，标准差为某个定值的正态分布，如果这i组水平没有差异，则Yij应等于总体均值加上随机误差项。（3）为了方便统计推断，模型公式改为如下形式：Yij=μ+αi+εij 其中μ表示不考虑分组时的总体均值，αi表示第i组的附加效应，即在第i组时的均值改变情况，例如αi=10，表示第i组的均值要比总体均值多10，如果这i组均值并无差异，那么α1=α2=α3=.....=αi，反之则不等，据此我们可以建立假设： H0：i取任意值时，αi=0 H1：i取任意值时，至少有一个αi<>0 结合差异分解的方差分析思路，我们发现αi实际上就是处理因素导致的差异。五、（20分）在多元回归中，判断共线性的统计量有哪些？简要解释这些统计量。（1）自变量间的相关系数矩阵：如果相关系数超过0.9的变量在分析时将会存在共线性问题。在0.8以上可能会有问题。但这种方法只能对共线性作初步的判断，并不全面。（2）容忍度（Tolerance）:以每个自变量作为应变量对其他自变量进、行回归分析时得到的残差比例，大小用1减决定系数来表示。该指标越小，则说明该自变量被其余变量预测的越精确，共线性可能就越严重。（3）方差膨胀因子（Variance inflation factor, VIF）：其中为与其余（m-1）个自变量线性回归的决定系数。值越大，多元共线程度越严重。 4、特征根（Eigenvalue）：主要包括条件指数和方差比。条件指数是最大特征根与每个特征根之比的平方根。当对应的方差比大于0.5时，可认为多元共线性严重存在 4中国人民大学接受同等学历人员申请硕士学位考试试题招生专业：统计学考试科目：统计思想综述课程代码：123201 考题卷号：4 一、（20分）在2008年8月10日举行的第29届北京奥运会男子10米气手枪决赛中，最后获得金牌和银牌的两名运动员10枪的决赛成绩如下表所示：运动员决赛成绩庞伟 9.3 10.3 10.5 10.3 10.4 10.3 10.7 10.4 10.7 9.3 秦钟午 9.5 9.9 10.6 10.3 9.4 10.2 10.1 10.8 9.9 9.8 根据上表计算的韩国运动员秦钟午的平均环数是10.05环，标准差是0.445环。比较分析哪个运动员的发挥更稳定。（1）平均数、标准差：庞伟的平均环数=10.22环，标准差是0.507；秦钟午的平均环数=10.05环，标准差是0.445环，由于庞伟的平均环数明显大于秦钟午，因此只比较标准差不能说明二人的稳定性（2）中位数：庞伟的中位数=10.35，秦钟午的中位数=10，同样可以看出庞伟的成绩更优秀一些（3）极差：庞伟的极差=1.4，秦钟午的极差=1.4，两者极差相同（4）离散系数：庞伟的离散系数=0.0496，秦钟午的离散系数=0.0443 综上所述，选手庞伟的成绩更优秀，但秦钟午的发挥更稳定。二、（20分）什么是统计意义上的显著性？为什么说统计上显著不一定就有现实意义？（1）在假设检验中，拒绝原假设称样本结果在“统计上是显著的” ；不拒绝原假设则称结果是“统计上不显著的”。“显著的”在这里的意思是指非偶然的，它表示这样的样本结果不是偶然得到的，同样，结果是不显著的则表明这样的样本结果很可能是偶然得到的。（2）在进行决策时，我们只能说P值越小，拒绝原假设的证据就越强，检验的结果也就越显著。当P值很小而拒绝原假设时，并不一定意味着检验的结果就有实际意义。因为在假设检验中的“显著”仅仅是“统计意义上的显著”。P值与样本的大小密切相关，样本量越大，检验统计量的值也就越大，P值就越小，就越可能拒绝原假设。因此，当样本量很大时，解释假设检验的结果需要小心，因为在大样本情况下，总能把与假设值的任何细微差别查出来，即使这种差别几乎没有任何实际意义。因此，在实际检验中，不能把“统计意义上的显著性”与“实际意义上的显著性”混同起来。三、（20分）简要说明判断一组数据是否服从正态分布的统计方法。（1）图示法 1. P-P图以样本的累计频率作为横坐标，以按照正态分布计算的相应累计概率作为纵坐标，以样本值表现为直角坐标系的散点。如果数据服从正态分布，则样本点应围绕第一象限的对角线分布。 2. Q-Q图以样本的分位数作为横坐标，以按照正态分布计算的相应分位点作为纵坐标，把样本表现为直角坐标系的散点。如果数据服从正太分布，则样本点应围绕第一象限的对角线分布。 3. 直方图（频率直方图）判断方法：是否以钟型分布，同时可以选择输出正态性曲线。 4. 箱线图判断方法：观察矩形位置和中位数,若矩形位于中间位置且中位数位于矩形的中间位置，则分布较为对称，否则是偏态分布。 5. 茎叶图判断方法：观察图形的分布状态,是否是对称分布。（2）偏度、峰度检验法峰态：峰态是对数据分布平峰或尖峰程度的测度，当K>0时为尖峰分布，数据的分布更集中；当K<0时为扁平分布，数据的分布越分散。偏态：偏态是对数据分布对称性的测量，若偏态系数明显不等于0，表明分布是非对称的，偏态系数的数值越大，表示偏斜的程度越大。（3）非参数检验非参数检验方法包括Kolmogorov-Smirnov检验（D检验）和Shapiro- Wilk（ W检验）。当样本数N<2000时，shapiro-wilk的W统计量检验正态性；当样本数N>2000时，Kolmogorov-Smirnov的D统计量检验正态性；检验时，根据样本计算一个统计量即检验统计量D。它把样本分布的形状和正态分布相比较，比较得出一个数值p（0<p<1，即实际的显著性水平）来描述对这个想法的怀疑程度。如果p值小于给定的显著性水平，则拒绝原假设，认为数据不是来自正态分布，反之则认为数据来自正态分布。正态分布的拟合优度检验如 Pearson χ 2 检验、对数似然比检验四、（20分）国家统计局目前对地区的划分中，将我国31个省市自治区划分为东部地区、中部地区、西部地区、东北地区。（1）要分析四个地区的平均消费水平是否存在显著差异，所用的统计方法有哪些？这些方法的区别是什么？（2）你会选择什么方法进行分析？你的假设是什么？（1）可两两之间进行t检验或4组数据进行方差分析。 T检验：两独立样本t 检验(two independent samples t-test)，又称成组 t 检验。适用于完全随机设计的两样本均数的比较，其目的是检验两样本所来自总体的均数是否相等。完全随机设计是分别从不同总体中随机抽样进行研究，即本项目中从不同地区随机抽样进行研究相符合。单因素方差分析：研究一个分类型自变量对一个数值型因变量的影响，如本项目中就是研究四个不同地区对平均消费水平的影响。区别：T检验属于均值分析，它是用来检验两类母体均值是否相等。均值分析是来考察不同样本之间是否存在差异，即两个不同地区之间消费水平是否存在显著差异；而方差分析则是评估不同样本之间的差异是否由某个因素起主要作用，即消费水平的显著差异是否是由地区不同引起的。并且通过单因素方差分析只能得出4组数据是否存在显著差异，并不能得出具体是哪几个地区之间有显著差异。 Kruskal-Wallis 检验。用于检验多个独立总体是否相同的一种非参数检验方法。原假设：四个地区平均消费水平相等，备择假设：四个地区平均消费水平不全相等。不需要方差分析的正态分布且方差相等的假设。该检验可用于顺序数据也可用于数值型数据（2）我选择用单因素方差分析，因为本项目共分为4组数据，只要求分析他们之间是否存在显著差异，并不用确定具体差异如何存在的。原假设为：四个地区之间的平均消费水平没有显著差异。若最终拒绝原假设，则说明四个地区之间的平均水平存在显著差异。即证明了题目中的要求。因为对四个地区的分布和方差未知，选择非参数方法。五、（20分）一家房地产评估公司想对某城市的房地产销售价格（元/m2）与地产的评估价值（万元）、房产的评估价值（万元）和使用面积（m2）建立一个模型，以便对销售价格作出合理预测。为此，收集了20栋住宅的房地产评估数据，由统计软件给出的部分回归结果如下（显著性水平为95%）：方差分析　 df SS MS F Sig. 回归 3 87803505.46 29267835.15 46.70 3.879E-08 残差 16 10028174.54 626760.91 总计 19 97831680 　　　　 Coefficients 标准误差 t Stat P-value Intercept 148.7005 574.4213 0.2589 0.799 X Variable 1 0.8147 0.512 1.5913 0.1311 X Variable 2 0.821 0.2112 3.8876 0.0013 X Variable 3 0.135 0.0659 2.0503 0.0571 对所建立的回归模型进行综合评价。（1）线性回归方程为其中第个回归系数的意义是，在其它自变量保持不变时，每变动一个单位，就平均变动个单位。例如在房产的评估价值和使用面积都不变的情况下，地产的评估价值每上升1万元，房地产销售价格就上升8147元。（2）设=0.05，由值=3.879*<知，回归方程的线性关系是显著的。（3）第1，2，3个回归系数显著性检验值分别是 0.1311>，0.0013<，0.0571> 故第2个回归系数显著，第1、3个回归系数不显著。（4）多重判定系数它反映了因变量变异中能用自变量解释的比例，描述了回归直线拟合样本观测值的优劣程度。此处，表明回归拟合效果很好。（5）估计标准误差是的标准差的估计，反映了（房地产销售价格）的波动程度。（6）有用。虽然该变量的部分系数没通过显著性检验，但并不意味着该变量没用，它在经济解释上可能还是有一定意义的，方程总体显著，说明方程包含该变量总体上是有用的。也可能是多重共线性造成了不显著。 5中国人民大学接受同等学历人员申请硕士学位考试试题招生专业：统计学考试科目：统计思想综述课程代码：123201 考题卷号：5 一、（20分）为研究大学生的逃课情况。随机抽取350名大学生进行调查，得到的男女学生逃课情况的汇总表如下。是否逃课男女合计逃过课 84 88 172 未逃过课 78 100 178 合计 162 188 350 （1）这里涉及的变量有哪些？这些变量属于什么类型？涉及的变量有性别、是否逃课。是否逃课及性别为分类型变量，不同性别的逃课和非逃课人数，为数值变量。（2）描述上述数据所适用的统计图形有哪些？可以用条形图、复式条形图，饼图、复式饼图，环形图。二、（20分）现从一批零件中随机抽取16只，测得其长度（单位：厘米）如下： 15.1 14.5 14.8 14.6 15.2 14.8 14.9 14.6 14.8 15.1 15.3 14.7 15.0 15. 15.1 14.7 （1）如果要使用分布构建零件平均长度的置信区间，基本的假定条件是什么？在小样本(n<30)情况下 ,对钟体均值得估计都是建立在总体服从正太分布假设前提下。当正态总体的未知，样本均值经过标准化后服从自由度为n-1的t分布，用样本方差 s2代替总体方差。（2）构建该批零件平均长度的95%的置信区间。样本均值平均长度为=14.9，95%的置信区间为，即（14.77，15.03）（3）能否确定该批零件的实际平均长度就在你所构建的区间内？为什么？（注：）不能。因为该样本所构造的是一个特定的区间，不再是随机区间。只能说在95%置信水平下，该区间是大量包含真值的区间中的一个。也可能是少数几个不包含参数真值的区间中的一个。三、（20分）在假设检验中，当不拒绝原假设时，为什么一般不采取“接受原假设”的表示方式？ 1、假设检验的目的主要是收集证据拒绝原假设，而支持你所倾向的备择假设。因为假设检验只提供不利于原假设的证据 2. 假设检验得出的结论都是根据原假设进行阐述的。当不能拒绝原假设时，我们也从来不说“接受原假设”，因为没有证明原假设是真的。没有足够的证据拒绝原假设并不等于你已经“证明”了原假设是真的，它仅仅意为着目前还没有足够的证据拒绝原假设，只表示手头上这个样本提供的证据还不足以拒绝原假设。“不拒绝”的表述方式实际上意味着没有得出明确的结论 3. 假设检验中通常是先确定显著性水平，这就等于控制了第Ι类错误的概率，但犯第Ⅱ类错误的概率却是不确定的。四、（20分）简要说明分布在统计中的应用。卡方分布应用很广，常用于假设检验和置信区间的计算，比如应用到独立性检验中，同质性检验、适合性检验等等独立性检验：主要用于两个或两个以上因素多项分类的计数资料分析，也就是研究两类变量之间的关联性和依存性问题拟合优度检验：检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致的问题同质性检验：检验两个或两个以上总体的某一特性分布，也就是各“类别”的比例是否统一或相近适合性检验：检验某一类分类资料所在总体的分布是否符合某个假设或理论的分布【感觉简答题可以适当写多点，也可以只说检验名字】五、（20分）简要说明解决多元回归中共线性的方法。 1：变量的选择方法：向前选择、向后剔除、逐步回归。 2：岭回归方法：有偏估计 3：主成分分析：降维，提取信息 4：偏最小二乘回归法：原理与主成分方法相似 6中国人民大学接受同等学历人员申请硕士学位考试试题招生专业：统计学考试科目：统计思想综述课程代码：123201 考题卷号：6 一、（20分）一家电视台为了解观众对某档娱乐节目的喜欢程度，对不同年龄段的男女观众进行了调查，得到喜欢该档娱乐节目的观众比例（单位：%）如下：年龄段男性女性 20岁以下 5 6 20—30岁 25 32 30—40岁 16 15 40—50岁 12 12 50岁以上 6 8 （1）这里涉及的变量有哪些？这些变量属于什么类型？有分类变量和数量变量。分类变量有性别，年龄段。数量变量有各年龄段的男女人数。（2）描述上述数据所适用的统计图形有哪些？可以用条形图和饼图【直方图用于连续变量的这里最好不用】二、（20分）假定总体共有1000个个体，均值，标准差。从中抽取容量为100的所有简单随机样本。样本均值的期望值和标准差各是多少？得出上述结论所依据的是统计中的哪一个定理？请简要叙述这一定理。样本均值的期望值为32，标准差为0.5 是中心极限定理，定理如下设从均值为μ、方差为σ^2;（有限）的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ^2/n的正态分布三、（20分）在假设检验中，利用决策与利用统计量决策有什么不同？ P值：如果能把犯第Ⅰ类错误的真实概率算出来，就可以直接用这个概率做出决策。而不需要管什么事先给定的显著性水平α，这个犯第Ⅰ类错误的真实概率就是P值。统计量检验是根据事先确定的显著性水平α围成的拒绝域作出决策，不论检验统计量的值是大是小，只要把它落入拒绝域就拒绝原假设H。否则就不拒绝H。这样，无论统计量落在拒绝域的什么位置，你也只能说犯第一错误的概率为α，而用P值检验则能把犯第Ⅰ类错误的真实概率算出来。P 值决策优于统计量决策。 P 值决策提供了更多的信息。四、（20分）简要说明方差分析的基本原理。方差分析被解释为检验多个总体均值是否相等的统计方法，这种解释侧重于方差分析的过程和形式。本质上，方差分析研究的是分类自变量对数值因变量的影响方差分析总的思想是通过计算来比较因某一特定因素带来的样本值的差异与随机偶然因素对样本值的差异的大小，从而判断该因素对总体是否有统计意义五、（20 分）比较说明指数曲线和直线的异同。一、相同点：指数曲线模型和直线模型都可以对时间序列进行拟合；都可以进行参数估计和假设检验；都可以对于未来的时点进行预测。二、不同点： 1、直线为线性的，指数曲线为非线性的。 2、两者适用于不同特点的时间序列；线性趋势是时间序列按一个固定的常数（不变的斜率）增长或下降，指数曲线是时间序列各期观察值按一定的增长率增长或衰减； 3、两者的模型表达式不同； 4、系数的求解方法不同。直线用最小二乘法求得。指数曲线，需先采取线性化手段将其化为对数直线形式，根据最小二乘法，求解出系数的对数，再取其反对数。 5、两者的预测方法不同，直线趋势可以用 Holt 指数平滑和一元线性回归法预测，指数曲线可以用指数模型来预测。 7中国人民大学接受同等学历人员申请硕士学位考试试题招生专业：统计学考试科目：统计思想综述课程代码：123201 考题卷号：7 一、（20分）一项关于大学生体重状况的研究发现，男生的平均体重为60kg，标准差为5kg；女生的平均体重为50kg，标准差为5kg。请回答下面的问题（1）是男生的体重差异大还是女生的体重差异大？为什么？（2）粗略地估计一下，男生中有百分之几的人体重在55kg到65kg之间？（3）粗略地估计一下，女生中有百分之几的人体重在40kg到60kg之间？（1）女生的体重差异大。男生体重的离散系数是V1=5/60=0.083 女生体重的离散系数是V2=5/50=0.1 离散系数大的离散程度也就大，V2> V1,因此，女生的体重差异大（2）设男生的体重为X1,X1~N(60,52) 设Z1=(X1-60) / 5 男生体重在55kg到65kg之间的概率为P,则 P()=P(-1Z11)=68% 因此，男生有68%的体重在55~65kg之间。（3）设女生的体重为X2,则X2~N(50,52), 设Z2=（X2-50）/ 5,则Z2~N(0,1) P(40X2 60)=P(-2Z22)=95% 故女生有95%的体制在40~60kg之间。二、（20分）叙述评价估计量的标准。评价估计量的标准主要有3个。 <1> 无偏性。无偏性是指估计量抽样分布的期望值等于被估计的总体参数。设总体参数为，所选择的估计量为，如果E()=,则称为的无偏估计量。 <2>有效性。有效性是指估计量的方差尽可能小。一个无偏估计量并不意味着它就非常接近被估计的总体参数，估计量与参数的接近程度是用估计量的方差来度量的。对同一总体参数的两个无偏估计量，有更小方差的估计量更有效。 <3>一致性。一致性是指随着样本量的增大，点估计量的值越接近总体参数。一个大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。样本均值的标准误差`x=/与样本量的大小有关，样本量越大，`x的值就越小。因此，大样本量给出的估计量更接近总体均值u，从这个意义上来说，样本均值是总体均值的一个一致估计量。三、（20分）一家房地产开发公司准备购进一批灯泡，公司打算在两个供货商之间选择一家购买，两家供货商生产的灯泡使用寿命的方差大小基本相同，价格也很相近，房地产公司购进灯泡时考虑的主要因素就是使用寿命。其中一家供货商声称其生产的灯泡平均使用寿命在1500小时以上。如果在1500小时以上，在房地产公司就考虑购买。由36只灯泡组成的随机样本表明，平均使用寿命为1510小时，标准差为193小时。（1）如果是房地产开发公司进行检验，会提出怎样的假设？请说明理由。（2）如果是灯泡供应商进行检验，会提出怎样的假设，请说明理由。 (1) 设灯泡的平均使用寿命为u H0:u1500(使用寿命符合标准) H1:u<1500(使用寿命不符合标准) 房地产开发公司倾向于证明灯泡的使用寿命小于1500个小时。因为这会损害公司的利益（如果房地产公司非常相信灯泡的使用寿命在1500小时以上，也就没有必要抽检了）通常备择假设用于表达研究者倾向于支持的看法，因此，备择假设为u< 1500小时，原假设为u1500。 (2)设灯泡的平均使用寿命为u. H0: u 1500 H1: u > 1500 灯泡供应商倾向于支持灯泡的使用寿命大于1500小时，所以备择假设为：u > 1500；原假设为：u 1500 四、（20分）什么是判定系数？它在回归分析中的主要作用是什么？ 1.判定系数是对估计的回归方程拟合优度的度量。引起y值变化的这种波动称为变差。变差主要有两种：一是自变量x的变化引起y变化，这部分的平方和称为回归平

展开阅读全文