北京交通大学经济管理学院《432统计学》[专业硕士]历年考研真题及详解.pdf

资源描述

目录2011年北京交通大学经济管理学院432统计学专业硕士考研真题2011年北京交通大学经济管理学院432统计学专业硕士考研真题及详解2012年北京交通大学经济管理学院432统计学专业硕士考研真题2012年北京交通大学经济管理学院432统计学专业硕士考研真题及详解2013年北京交通大学经济管理学院432统计学专业硕士考研真题2013年北京交通大学经济管理学院432统计学专业硕士考研真题及详解2014年北京交通大学经济管理学院432统计学专业硕士考研真题2014年北京交通大学经济管理学院432统计学专业硕士考研真题及详解2015年北京交通大学经济管理学院432统计学专业硕士考研真题2015年北京交通大学经济管理学院432统计学专业硕士考研真题及详解2011年北京交通大学经济管理学院432统计学专业硕士考研真题2011年北京交通大学经济管理学院432统计学专业硕士考研真题及详解一、简要回答下列问题1举例说明区分数据类型对统计分析的重要性。统计数据是对现象进行测量的结果。区分数据的类型对统计分析很重要，因为对不同类型的数据，需要采用不同的统计方法来处理和分析。比如，对分类数据，通常需要计算出各组的频数或频率，计算其众数和异众比率，进行列联表分析和检验等；对顺序数据，可以计算其中位数和四分位差，计算等级相关系数等；对数值型数据，可以用更多的统计方法进行分析，如计算各种统计量，进行参数估计和假设检验等。如果不对数据进行区分，则会导致统计方法的滥用，使得得出的结论缺乏可靠性。22008年12月，据美国媒体报道：“本国12月新房中位价为20.65万美元，相比2007年12月的22.77万美元下滑了9.3%”，为什么采用中位数而不采用算数平均值？试应用描述统计学知识解释其中的缘由。答：中位数是一组数据排序后处于中间位置上的变量值，中位数将全部数据等分成两部分，每部分包含50%的数据，一部分数据比中位数大，另一部分则比中位数小。中位数主要用于测度顺序数据的集中趋势，也适用于测度数值型数据的集中趋势，但不适用于分类数据。平均数也称为均值，它是一组数据相加后除以数据的个数得到的结果。平均数在统计学中具有重要的地位，是集中趋势的最主要测度值，它主要适用于数值型数据，而不适用于分类数据和顺序数据。题干中关于测度新房集中趋势的指标，由于房屋价格的分布是正偏分布，存在很大的极大值，而算术平均数的主要缺点是易受数据极端值的影响，对于偏态分布的数据，平均数的代表性较差。相反，中位数是一组数据中间位置上的代表值，不受数据极端值的影响。当一组数据的分布偏斜程度较大时，其作为集中趋势测度的代表性较好。因此选用房价中位数作为房价分布集中趋势的代表值。3一家连锁超市，近期不断接到消费者关于500克包装的某产品薯片重量的投诉。店方猜想，这些投诉是由于运输过程中沉积在口袋底部的碎片所引起。为此店方决定对来自该品牌的下一批薯片的平均重量（克）进行检验，如果有证据说明重量小于500克，就拒收这批薯片并向供应商进行投诉。请建立适当的原假设和备择假设，使得一旦拒绝原假设就拒收这批薯片并向供应商进行投诉；第类错误和第类错误是什么？连锁超市的顾客将哪类错误看的较严重？连锁超市的供应商将哪类错误看的较严重？答：（1）原假设：薯片的平均重量不低于500克；备择假设：薯片的平均重量低于500克。（2）第类错误是指原假设为真时拒绝原假设所犯的错误，本题中指薯片的平均重量是大于500克的，但是由样本所得结果是拒绝原假设，即认为薯片的平均重量低于500克。第类错误是指原假设为假而接受原假设所犯的错误，本题中是指薯片的平均重量是小于500克的，但是由抽取样本所得结果是接受了原假设，认为薯片的平均重量不低于500克。（3）连锁超市的顾客将第类错误看得比较严重，因为犯第类错误的概率偏大，会使得顾客受到的损失较大。（4）连锁超市的供应商将第类错误看得比较严重，因为犯第类错误的概率偏大，会导致供应商受到的损失较大。4数据的误差有哪两类，它们的本质差别是什么？答：（1）数据误差的类型数据的误差是指通过调查搜集到的数据与研究对象真实结果之间的差异。数据的误差有两类：抽样误差和非抽样误差。抽样误差抽样误差是由抽样的随机性引起的样本结果与总体真值之间的误差。在概率抽样中，我们依据随机原则抽取样本，可能抽中由这样一些单位组成的样本，也可能抽中由另外一些单位组成的样本。根据不同的样本，可以得到不同的观测结果。抽样误差并不是针对某个具体样本的检测结果与总体真实结果的差异而言的，抽样误差描述的是所有样本可能的结果与总体真值之间的平均差异。抽样误差的大小与样本容量、总体的变异性等因素有关。非抽样误差非抽样误差是相对抽样误差而言的，是指除抽样误差之外的，由其他原因引起的样本观察结果与总体真值之间的差异。抽样误差是一种随机性误差，只是存在于概率抽样中；非抽样误差则不同，无论是概率抽样、非概率抽样，或是在全面调查中，都有可能产生非抽样误差。非抽样误差包括有抽样框误差、回答误差、无回答误差、调查员误差、测量误差等。（2）两种误差的本质差别抽样误差与非抽样误差最根本的差别是抽样误差是可以计算和控制的，且其只存在于概率抽样中。而非抽样误差控制的重要方面是调查过程的质量控制。5“截至2010年8月，京津城际高铁进行两年，已经累计放松4328万人次，武广高铁9个月时间完成客运输送1331万人次，沪宁线进行两个月，发送旅客1071万人次”，人们对这样的数据描述并无多少概念，如何更好的量化它们，一遍使人们印象深刻？答：文中给出了三条高铁各自开通以来的客运数量，由于运行年限的不同，使得无法直接做出对三条高铁客运繁忙程度的直接比较与评价，而只能观察其总量特征。若以各高铁客运总量除以其各自的运营时间，则可得到其单位时间的发送量，便可以对但这之间客运量的差异做出直接比较。如果利用图形来显示单位时间内客运量的频数分布，就可以使得人们更加形象和直观地度量数据的集中趋势，也便于人们对不同的数据进行比较，观察差别。二、计算回答下列问题12008年，某地区工业总产值按当年价格计算为42.55亿元，2007为33.27亿元，其增长速度为多少？按2000年不变价格计算，2008年，该地区工业总产值为33.61亿元，2007年为28.50亿元，其增长速度是多少？你认为哪种方法计算出来的增长速度更可信？利用指数等知识，请给出合理的解释。请解释不变价格指数的概念。答：（1）由题意其增长速度为：即2008年相对于2007年，工业总产值的增长速度为27.89%。（2）以不变价格计算的增长速度为：即按2000年不变的价格计算，2008年相对于2007年，工业总产值的增长速度为17.93%。（3）第二种方法计算的增长速度更可信，因为按照第一种方法计算出来的增长速度中包含有通货膨胀的影响，而第二种计算方法采用不变价格计算增长速度则剔除了通货膨胀的影响，相比较而言更能反映工业总产值增长速度。（4）不变价格又称“可比价格”或“固定价格”，与“现行价格”（当年价格）相对应。不变价格指数是指计划统计工作中用来计算一定时期内不同年份的商品价值指标而规定使用的某一固定期的价格。旨在消除价格变动的影响，便于比较各年之间的经济增长速度。2研究美国1780年到1970年之间人口变化情况（人口单位：百万）。虽然影响人口变化的因素很多，但这里只选定时间作为其解释变量进行了回归分析，结果如下：若将时间变量的二次项引入回归模型，则结果如下：试分别说明两个模型检验效果，并分析哪种模型的效果更好，给出理由。答：通过对比两个模型的回归结果可得，将时间变量的二次项引入回归模型后，模型回归效果更好。（如下所述将时间变量的一次项的回归模型称为模型1，将引入时间变量二次项的回归模型称为模型2。）理由如下：（1）模型拟合程度的分析模型1中的模型2中的比较可知，模型2中的可决系数和调整之后的可决系数均大于模型1中相应的值可知模型2比模型1的拟合效果要好。（2）回归系数的分析模型1和模型2中的各系数均通过t统计量的显著性检验。相比较而言，模型2中各系数的t统计量的值远远大于其临界值，故模型2比模型1的拟合效果应该更好。综上所述，人口变化与时间应该是曲线关系而不是简单的线性关系。三、综合题1有些预定了宾馆客房而没有去住宿的旅客，若不能及时取消预订，这样的客人就被称为“未出现者”，宾馆一般采用超员预订客房的方法，防止未出现者过多给宾馆造成的损失。有一拥有4000个客房的大型连锁宾馆正在进行这方面的研究，它们抽取30天的随机样本，记录其每一天的未出现者人数，频数分布如下：根据这一样本，运用经验法则，宾馆至少应超员预订多少客房？旅游年鉴的数据显示，宾馆业每天的未出现者人数连续3年均稳定在20人这一平均水平。请问上述样本能否说明宾馆业每天的未出现者人数明显降低了？答：（1）根据上述样本，可计算出每天未出现人数的平均值为：每天未出现人数的样本方差为：其中Mi是第i组的组中值，fi是对应的频数。根据经验法则，约有99%的数据在平均数3个标准差的范围之内，即宾馆每天未到人数在（6.04，22.9）之间的人数包含了99%。即宾馆至少应超员预定7个客房。（2）对样本数据进行假设检验如下：提出假设原假设：宾馆业每天的未出现者人数未明显降低；备择假设：宾馆业每天的未出现者人数明显降低。计算统计量作出决策由于，故拒绝原假设，即宾馆业每天的未出现者人数明显降低。2估计成本是回归分析在会计学上的一个重要应用。根据搜集到的产量和成本数据，利用最小二乘法可以求出关于成本和产量估计的回归方程。下面的Excel结果是给予某一制造业的产量（单位：台）和总成本（单位：万元）计算得到的。将方差分析表和参数估计表中的7个缺失值补齐；写出总成本与产量的估计一元线性回归方程式，并解释回归系数的含义；检验回归方程的线性关系是否显著（c0.05）；计算判定系数R2，它有什么用途？计算估计标准误差se，它有什么用途？公司的生产计划进度表明，下个月必须生产60台产品，下个月总成本的点估计值是多少？不用计算，对下个月总成本的95%的置信区间和预期区间做简单说明。答：（1）由题意得：SSA3695.50，SST4046.97，k2，n129可得出：SSESSTSSA4046.973695.50351.47，而由此可得方差分析表如下：（2）由表中数据可得回归方程为：回归系数表示产量为0时的成本为12.677万元；回归系数表示产量每增加1台，成本平均增加0.731万元。（3）由方差分析表知：故拒绝原假设，即回归方程是显著的。（4）由题意知可决系数为：表示回归方程中，成本的变化有91.32%是由于产量的变化引起的。（5）由题意知估计的标准误差为：估计的标准误差反映了用估计的回归方程预测因变量y时预测误差的大小。（6）将60代入估计的回归方程可得：即下个月生产60台产品时，成本的点估计为56.54万元。（7）回归估计的置信区间为：回归估计的预测区间为：比较两个公式可知，预测区间的宽度比置信区间的宽度要宽。3一家电器商店经营已有5年之久，在这期间，iPod touch的销售量（单位：千台）持续上升，见下表数据：下图为销售量的时间序列图。“可以看出，销售量有明显的季节成分，并且后面年份的销售量比前面年份的高，因此其中还有趋势成分，但周期性难以判断。可以认定iPodtouch销售量序列是一个含有季节成分和趋势成分的时间序列。”请结合复合型时间序列的分解、预测模型，分析、评述上面这段话的合理性。上表中，中心化移动平均值和比值两列共有6出空格，请计算补充这6个数据。用移动平均将趋势剔除之后的序列（比值列），计算销售量的季节指数（要求列出必要的表格）。从销售量数据中剔除季节成分后，用一元线性模型求得销售量的线性长期趋势方程为：，用此趋势方程并考虑季节变动，预测2010年四个季度iPod touch销售量。（要求有计算过程）答：（1）复合型序列是指含有趋势、季节、周期和随机成分的序列。对这类序列的预测方法通常是将时间序列的各个因素依次分解出来，然后进行预测。结合复合型时间序列可知，上面这段话对iPod touch的预测是合理的。（2）由题意得表中数据计算如下：（3）由题意得各季节指数计算表如下：（4）预测2010年四个季度的销售量，将t2124分别代入趋势方程，得：考虑季节变动，2010年四个季度的预测值分别为：19970 1.12222（千台）20890 0.55011（千台）21810 0.78917（千台）22730 1.54135（千台）即2010第一个季度的iPod touch的销售量为22千台；第二个季度的iPodtouch的销售量为11千台；第三个季度的iPod touch的销售量为17千台；第四个季度的iPod touch的销售量为35千台。2012年北京交通大学经济管理学院432统计学专业硕士考研真题2012年北京交通大学经济管理学院432统计学专业硕士考研真题及详解一、简要回答下列问题（本题共包括5个小题，每小题8分，共40分）1对于大多数工厂来说，按时获得原材料和货物供给时很重要的。因此对大多数的采购代理商来说，交货时间的变异程度往往是选择供应商的最主要考虑因素。数据的变异程度如何反应？就选择供应商而言，你能给采购代理人怎样的建议？答：数据的变异程度是指各变量值偏离其中心值的程度。数据的变异程度越大，其集中趋势对该组数据的代表性就越差。反映数据变异程度是根据数据的不同类型采取不同的测度值，主要有：四分位差、方差和标准差等。方差、标准差、四分位差的数值越大，则样本的变异程度越大。在选择供应商的时候，采购人应该计算分析供应商的交货时间的平均数和标准差，如果供应商交货时间的标准差较大说明交货时间的变异程度很大，采购代理人选择应该谨慎。2一个班级进行了期中考试，其中5名学生的分数为：72、66、81、89、77。试分析下面的说法哪个正确，哪个应受到怀疑？（注：只做简单计算。如样本均值，但不用计算样本标准差）作为样本的5名学生的期中平均分时77；全班学生的期中平均分时77；全班学生的期中平均分的估计是77；班级中一半以上得分将在785之间；如果样本中再加上5名学生，他们的分数会在6590之间。答：以上说法中第、种说法是正确的。由样本数据可以计算样本中的5名学生的平均分数是77分，因此是正确的；仅仅由5个样本的平均值就能得出全班学生的平均成绩，样本缺乏对总体的代表性；77分是全班学生的平均成绩的估计值；由于抽选的样本数量较少，仅仅由样本数据中有一半以上的学生成绩在7085就推断全班学生有一半以上的学生成绩在7085，这种推断是不可靠的；样本中再加5名学生，他们的成绩不一定在6590之间，因为可能存在有极端值的情况。3容量为1000毫升的桃汁包装上的标签标明，该种桃汁的脂肪含量的均值不超过1克。回答下列问题以验证标签上的说明。建立原假设和备择假设；这时第类错误指什么？发生这类错误会导致怎样的后果？这时第类错误指什么？发生这类错误会导致怎样的后果？答：（1）原假设：该种桃汁的脂肪含量的均值不超过1克；备择假设：该种桃汁的脂肪含量超过1克。（2）第类错误是指原假设为真时，拒绝原假设的情况。本题中，第类错误是指桃汁的脂肪含量是不超过1克，但是假设检验的结果却是拒绝了原假设。发生这类错误将会导致由于报告了本来不存在的现象，则因此现象而衍生出的后续研究、应用的危害。（3）假设检验的第类错误是指原假设为假，但是没有拒绝原假设。本题中的第类错误是该种桃汁的脂肪含量超过1克，但是假设检验得出的结论是不拒绝原假设。犯取伪错误，使得本应该被推翻的假设仍然被保留，不利于研究的发展。4一元线性回归中，一个大的R2意味着两个变量之间存在因果关系吗？试解释。答：判定系数R2测度了回归直线对观测数据的拟合程度。一个大的R2并不意味着两个变量之间存在因果关系，大的R2只能表示在线性回归模型中回归平方和占总平方和的比例越大，回归直线与各观测点越接近，因变量的变化中能用自变量解释的比例比较大，反映模型的拟合程度较好。若自变量和因变量之间存在很强的相关关系，而不是因果关系的话，此时的R2也非常大。5一个小店的经营者想对未来几个月的小店的销售额做预测。它提供了自2007年一月开店以来各月的销售额。请你给他一些预测程序上的提示。答：时间序列分析的一个主要目的就是根据已有的历史数据对未来进行预测。时间序列含有不同的成分，如趋势、季节性、周期性和随机性等。对于一个具体的时间序列，它可能只含有一种成分，也可能同时含有几种成分。含有不同成分的时间序列所用的预测方法是不同的。因此，经营者在对时间序列进行预测时可以，通常包括以下几个步骤：确定时间序列所包含的成分，也就是确定时间序列的类型；找出适合此类时间序列的预测方法；对可能的预测方法进行评估，以确定最佳预测方案；利用最佳预测方案进行预测。二、推断题（本题包括1个小题，共15分）试推导出一元线性回归分析中总平方和与回归平方和、残差平方和的关系。答：一元线性回归分析中，每个观测点的离差都可以分解为：将上述式子的两边同时平方，并对所有的n个点求和，可得：又根据ei的性质因此其中：即，总平方和（SST）回归平方和（SSR）残差平方和（SSE）。三、综合题（本题共包括5个小题，共95分）1历史数据标明，考入西部大学的学生入学时学术考试成绩的均值为900，标准差为160。每年选取一个实际样本来检测该年的考试成绩是否与上一年在同一水平。今年有256名学生组成的样本表明分数的样本均值为930。回答下列问题（显著性水平取0.05）建立原假设和备择假设；用置信区间的方法进行假设检验；用检验统计量进行假设检验；检验的p值是多少？（10分）答：（1）建立假设如下：原假设：该年考试成绩与上一年在同一水平；备择假设：该年考试成绩与上一年有差别。（2）由样本可得参数置信水平为10.95的置信区间为：考虑检验问题：，由于，故拒绝原假设，即该年考试成绩与上一年不在同一水平。（3）计算统计量，由于总体标准差已知，因此选择Z统计量，计算如下：又因为，故拒绝原假设，即该年考试成绩与上一年不在同一水平。（4）2企业管理者管理能力高低是影响企业成长的一项不可忽视的因素，不同层级的员工对管理者的评价也会有所不同。随机抽取24名不同层级员工对公司1名管理者的管理能力打分，样本数据如下。分值越高，说明对该管理者管理能力评价越好。解释本题中的因素和水平各指什么？写出解决该问题时所建立的原假设；解释本题中的随机误差和系统误差；算出F统计量的值；取显著性水平为0.05，检验不同层级员工对管理层管理能力评价是否有显著性影响。（15分）答：（1）在方差分析中，所要检验的对象称为因素，因素的不同表现称为水平。本题中的因素是指评估的1名管理者，水平是指对管理者进行评价的上级、同级、下级这三个不同的评价层级。（2）解决该问题建立的原假设为：即不同层级员工对管理者能力评价无显著差异。（3）随机误差（SSE）是指每个水平各样本数据与其组均值的误差平方和，反映了每个样本各观测值的离散状况，本题中，是指不同层级评估者对管理者评价差别是由随机因素引起的。系统误差（SSA）是各样本均值之间的差异程度，本题中，是指不同层级评估者对管理者评价的差别。（4）由题意可得：（5）查F分布表可知，而，故不拒绝原假设，即不同层级员工对管理者能力评价无显著差异。3某投资公司有一笔资金用于投资，现有两个项目可选择。试分析应投资与哪个项目，并解释原因。（20分）答：应该投资于A项目，分析如下：（1）分别计算两个公司的投资期望回报率如下项目A：项目B：（2）分别求出两个项目的方差：项目A：项目B：（3）比较A、B两个项目的期望回报率和标准差因为，即项目A的期望回报率高于项目B，且其标准差较小，说明项目A的持有到期回报率比较稳定，风险更小，因此，应该投资于A项目。4某地交通部门想要确定公共汽车安全使用的时间（年）与年维修费用（千元）之间的关系。对10辆公共汽车组成的一个样本，采集的数据如下表。利用最小二乘法，确定估计的回归方程：对一元线性回归模型的误差项做了哪些规定？根据所求出的回归方程，计算残差，进而做出关于x的残差图，并据此评价回归模型是否合理。（20分）答：（1）用最小二乘法对回归系数的估计如下：由题中表的数据可计算：可得：因此回归方程为：（2）一元线性回归模型的误差项的假定条件主要如下：因变量y与自变量x之间具有线性关系；在重复抽样中，自变量x的取值是固定的，即假定x是非随机的；误差项是一个期望值为0的随机变量，即；对于所有的x值，的方差都相同。这意味着对于一个特定的x值，y的方差也都等于；误差项是一个服从正态分布的随机变量，且独立，即。独立性意味着对于一个特定的x值，它所对应的与其他x值所对应的不相关。（3）根据回归方程计算的残差（）如表1所示，残差图如图1所示：表1图1由残差的分布可以看出，残差具有零均值，同方差且不相关的性质，符合回归模型的GM假定，可以认为该模型充分提取了样本的有效信息，因此认为回归模型合理。5为解决交通拥堵问题，某城市对居民出行行为进行了问卷调查。该城市人口为100万，为使估计总体比例的抽样误差小于1%，置信水平为95%。请确定所需的样本容量。该调查采用简单随机抽样方式。试对该项调查的数据所存在的误差进行分析，并说明如何实现对误差的控制。（30分）答：由抽样误差的公式：可以看出，样本量越大，则抽样误差越小又因为p为比率估计量，有0pp，则应该拒绝原假设，认为饮食的纤维含量与血液中胆固醇含量的降低是显著相关的。9乔在写一篇有关美国总统背景的报告。他查了所有44位总统入主白宫时的年龄。因为乔曾修过统计课，他就用这44个数字，建立了一个历任总统平均年龄的95%的置信区间。我们认为这样做是行不通的。为什么？答：仅仅只是依据44名总统入住白宫时的年龄去推断历任总统任职时的平均年龄，简单的计算他们的平均年龄然后构造置信区间缺乏可靠性。历任美国总统上任时的年量差异很大，因此计算的平均年龄由于存在极端值的情况会使得平均值的代表性很差。10抽样调查的组织者都喜欢大一些的样本。请你描述一下，增加样本容量会对以下项目产生什么影响？95%置信区间的估计误差；当H0不正确、而所有其他条件均不改变时，检验的P值。答：（1）根据公式：可知：在95%置信水平下，增大样本容量会使得估计误差变小。（2）由于p值是样本概率的一个体现，因此也是一个随机变量，样本容量增加，抽样必然要重新进行，p的取值亦会受样本随机性的影响，因此不能确定p值是否一定会变大或是减小。但从概率意义上来看，当H0不正确，而其他条件不变时，随着样本容量的增大，检验统计量的值将逐渐趋于稳定，检验对应的p值在很大概率上也会变小。二、计算回答些列问题（本题共包括2个小题，每小题10分，共20分）1根据统计资料，2012年暑期毕业的大学生中有一半报考了公务员。2012年11月，某城市调查队对当地800名大四学生求职意向开展了问卷调查，其中368人准备报考公务员。我们想知道是否该城市大四学生报考公务员的意向和去年的全国比例有差别。此问题中的参数是什么？写出原假设和备择假设。样本比例的值是多少？检验的p值是指什么事件的概率？p值为0.0238。说明为什么这是合理足够的证据指向H0不对而H1正确。结果有5%的统计显著性水平吗？有1%的显著性水平吗？答：（1）题干中的参数是指毕业的大学生报考公务员的比例。（2）原假设（H0）：该城市大四学生报考公务员的意向和去年的全国比例无差别；备择假设（H1）：该城市大四学生报考公务员的意向和去年的全国比例有差别。（3）样本比例的值为：，检验的P值是指在假设该城市大四学生报考公务员的意向和去年的全国比例无差别的条件下，调查抽出的报考公务员的比例小于等于0.46的概率。（4）P值为0.0238，即在原假设为真的情况下，样本观察结果或更极端的结果出现的概率为0.0238。说明原假设出现的事件是一个小概率事件，即应该拒绝原假设而接受备择假设。（5）由于P0.02380.05，因此，在5%的显著性水平下应该拒绝原假设，即结果有5%的统计显著性水平；p0.02380.01，因此在1%的显著性水平下不拒绝原假设，即结果没有1%的统计显著性水平。2美国商法曾经发表过的一篇文章提供了一个典型的存在性别歧视情况下的雇员工资水平y（美元）的模型：其中x1为工龄，x2为受教育年数，x31（女性雇员），x30（男性雇员）。从500名雇员取得样本数据，拟合后得到如下回归方程（括号内的数据为t值）：文章对回归分析有下列说法，请你对这些说法作出评论。“就这个样本而言，在其他变量保持不变的条件下，工龄每增加1年，预期工资将平均增加289美元。”“我们不能以95%的置信度说，所观察到的受教育年数和工资之间的关系是统计显著的。”“可以预期，一名女雇员的工资在考虑了工龄和受教育年数差别之后将比男雇员少397美元。”“这些自变量合在一起，解释了（工资水平中）的绝大部分变差。”答：（1）拟合之后的回归方程的各参数应该经过显著性检验之后才能对各回归系数进行经济意义的解释，否则，得出的结论会缺乏可靠性。由估计的回归方程可以看出，x2所对应的t值为1.02，达不到显著性水平，因此应将x2变量剔除之后重新拟合回归方程，然后进行回归预测。（2）由于受教育程度的统计量t1.02t/2（n4），即在5%的显著性水平（95%的置信度）下，所观察到的受教育程度与工资之间的关系不是统计显著的。（3）各系数的经济意义应该是在不考虑变量的影响之下，该解释变量对被解释变量的影响。而且由于估计的回归方程中存在不显著的变量，因此要将该变量剔除之后重新拟合回归方程，然后进行预测。（4）题干中的评价不准确，应该是影响雇员工资的所有因素中，90%是由工资、受教育程度以及性别所决定的。三、综合题（本题共包括4个小题，每小题20分，共80分）1一家百货公司在某市经营两个商场，一个位于市区，另一个地处郊区。公司经理发现在一个商场畅销的商品在另一个商场卖得不一定好，他初步认为这种情况是因为市区和郊区顾客群的差异。顾客可能在年龄、教育程度、收入等方面有差异。一个项目小组负责调查两个商场的顾客平均年龄的差异，下表所示为项目小组收集的顾客年龄数据：此题为例，说明在假设检验中涉及到检验统计量选择问题时，一般要考虑哪些方面？两个商场的顾客平均年龄是否有显著差异（0.05。写出检验的具体步骤）？答：（1）假设检验中选择统计量时，需要考虑的问题有：样本量的大小样本量大小是选择检验统计量的一个要素。在样本量大的条件下，如果总体为正态分布，样本统计量服从正态分布；如果总体为非正态分布，样本统计量渐近服从正态分布。所以在这种情况下，都可以把样本统计量视为正态分布，这时可以使用z统计量（z分布）。总体标准差是否已知在样本量较小的情况下，如果总体标准差已知，样本统计量服从正态分布，这时可以采用z统计量。如果总体标准差未知，进行检验所依赖的信息有所减少，这时只能使用样本标准差，样本统计量服从t分布，应该采用t统计量。（2）假设检验的具体步骤如下：建立假设原假设（）：两个商场顾客的平均年龄无差别；备择假设（）：两个商场顾客的平均年龄有差别。构造统计量作出决策时，由于，所以拒绝原假设，即两个商场顾客的平均年龄有显著差异。2管理部门每月向公众公布当地失业统计数据，包括失业人数和平均失业周数。在2012年10月，管理部门报告当地的平均失业周数为14.6周。某个城市的市长想了解其所管辖的城市的失业状况，为此，他收集了城市内30名失业居民组成的样本，了解了他们的年龄和已失业周数等数据，有关数据及初步计算见下表：建立该城市失业居民平均失业周数的95%的置信区间：该城市居民的平均失业周数是否显著低于当地平均失业周数（0.05）？失业年龄和失业周数之间是否有关系？请解释。答：（1）由表中数据可得：样本的平均失业周数为：平均失业周数的方差为：故该城市失业居民平均失业周数的95%的置信区间为：即该城市失业居民平均失业周数的95%的置信区间为（10.75，16.44）。（2）假设检验的具体步骤如下：建立假设原假设：；备择假设：。构造统计量作出决策由于，则不拒绝原假设，即该城市居民的平均失业周期数没有显著低于当地居民的平均失业周期数。（3）计算失业年龄与失业周期数的相关系数：因此可得失业年龄与失业周期数是有关系的。因为年龄越大，相对于年轻者而言，找到工作的时间会变长，因此失业周期也会变长。3下面是A、B两个班学生的考试成绩数据：A班：B班：做直方图表示两个班成绩分布的特点；两个班考试成绩的概括性度量如下，据此再对两个班的成绩做进一步的分析：要判断考试成绩是否有离群点，可以用哪些方法？要判断考试成绩是否服从正态分布，可使用哪些方法？答：（1）对A、B两个班的成绩分布作直方图如图1、2所示：图1 A班的成绩分布作直方图图2 B班的成绩分布作直方图（2）由表中数据可知，A班同学考试成绩的平均数、中位数以及众数都大于B班的，可知A班同学考试成绩整体水平比B班高，A班同学考试成绩的方差也小于B班，可知A班同学的考试成绩比较稳定，A班同学考试成绩的偏态系数和峰态系数也均小于B班，可知A班同学的考试成绩分布是较均匀的，由区域值可知，A班同学的考试成绩的极差比B班小，B班存在极大值和极小值情况较严重。（3）判断考试成绩是否有离群点可以画出考试成绩分布的茎叶图或者箱线图。（4）判断考试成绩是否服从正态分布，可以对考试成绩的平均数、众数、中位数三者进行对比，判断考试成绩的分布是否对称，从而判断是否属于正态分布。4某企业准备用三种方法组装一种新产品，为确定哪种方法每小时生产的产品数量最多，随机抽取了30名工人，并指定每个人使用其中的一种方法。通过对每个工人生产的产量进行方差分析得到如下结果。方差分析表完成上面的方差分析表；若显著性水平0.05，检验三种方法组装的产品数量之间是否有显著差异；上面的方差分析中包含了哪些基本假定？简述多重比较的前提和作用。答：（1）由题意得：SSE3836，MSA210，k3，n30可得出：由此可得方差分析表如下：（2）提出假设：三种方法组装对产品生产数量没有显著影响；：、不全相等三种方法组装对产品生产数量有显著影响。构造统计量F1.48作出决策由于，故不拒绝原假设，即三种方法组装对产品生产数量没有显著影响。（3）上述方差分析包含以下三个基本假定：每个总体都应服从正态分布；各个总体的方差2必须相同；观测值是独立的。（4）多重比较的前提是：多重比较检验的前提为：方差分析的三个基本假定，以及通过方差分析已经得出结论，即至少有一组的平均水平和其他组的平均水平有显著区别。多重比较的作用是在方差分析确定了分类型自变量对数值型因变量有影响之后，可以通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。2014年北京交通大学经济管理学院432统计学专业硕士考研真题2014年北京交通大学经济管理学院432统计学专业硕士考研真题及详解一、简述题（本大题共5个小题，每小题10分，共50分）1试述概率抽样和非概率抽样的区别与联系。答：概率抽样又称随机抽样，是指遵循随机原则进行的抽样，总体中每个单位都有一定的机会被选入样本；非概率抽样是相对于概率抽样而言的，指抽取样本时不是依据随机原则，而是根据研究目的对数据的要求，采用某种方式从总体中抽出部分单位对其实施调查。（1）概率抽样与非概率抽样的联系概率抽样与非概率抽样都是从被抽取样品单位的分析、研究结果来估计和推断全部样品特性，是科学实验、质量检验、社会调查普遍采用的经济有效的工作和研究方法。（2）概率抽样与非概率抽样的区别概率抽样是依据随机原则抽选样本，这时样本统计量的理论分布是存在的，因此可以根据调查的结果对总体的有关参数进行估计，计算估计误差，得到总体参数的置信区间，并且在进行抽样设计时，对估计的精度提出要求，计算为满足特定精度要求所需要的样本量；非概率抽样不是依据随机原则抽选样本，样本统计量的分布是不确切的，因而无法使用样本的结果对总体相应的参数进行推断。概率抽样的技术含量更高，无论是抽选样本还是对调查数据进行分析，都要求有较高的统计学专业知识，调查的成本也比非概率抽样高；非概率抽样操作简便、时效快、成本低，而且对于抽样中的统计学专业技术要求不是很高。2试述如何评价估计量的好坏。答：评价估计量好坏的标准有无偏性、有效性和一致性。（1）无偏性若估计量的数学期望等于未知参数，即，则称为的无偏估计量。估计量的值不一定就是的真值，因为它是一个随机变量，若是的无偏估计量，则尽管的值随样本的不同而变化，但平均来说它会等于的真值。（2）有效性设与都是的无偏估计量，若对于任意，有，且至少对于某一个，上式中的不等号成立，则称比有效。（3）一致性（相合性）如果随着n的增大，依概率收敛于，即，有则称是的一致估计量。3试说明按采用计量尺度的不同，统计数据的分类。答：按照数据的计量尺度的不同，统计数据分为分类数据、顺序数据和数值型数据。（1）分类数据是只能归于某一类别的非数字型数据，它是对事物进行分类的结果，数据表现为类别，是用文字来表述的。例如，人口按照性别分为男、女两类。（2）顺序数据是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别，但这些类别是有序的。比如将产品分为一等品、二等品、三等品、次品等。（3）数值型数据是按数字尺度测量的观察值，其结果表现为具体的数值。现实中所处理的大多数都是数值型数据。分类数据和顺序数据说明的是事物的品质特征，通常是用文字来表述的，其结果均表现为类别，因而也可统称为定性数据或品质数据；数值型数据说明的是现象的数量特征，通常是用数值来表现的，因此也可称为定量数据或数量数据。4试述居民消费价格指数的作用。答：居民消费价格指数是度量居民消费品和服务项目价格水平随时间变动的相对数，反映居民家庭购买的消费品和服务价格水平的变动情况。居民消费价格指数的作用有：（1）反映通货膨胀状况。通货膨胀的严重程度是用通货膨胀率来反映的，它说明了一定时期内商品价格持续上升的幅度。（2）反映居民购买力水平。货币购买力是指单位货币购买到的消费品和服务的数量。居民消费价格指数上涨，货币购买力则下降，反之则上升。（3）测定职工实际工资水平。消费价格指数的提高意味着实际工资的减少，消费价格指数下降则意味着实际工资的提高。5试说明相关系数的性质。答：相关系数（r）是根据样本数据计算的度量两个变量之间线性关系强度的统计量。相关系数的性质有：（1）r的取值范围在1到1之间，即1r1。若0r1，表明x与y之间存在正线性相关关系；若1r0，表明x与y之间存在负线性相关关系；若r1，表明x与y之间存在完全的线性相关关系，即y的取值完全依赖于x，二者之间即为函数关系；当r0时，说明y的取值与x无关，即二者之间不存在线性相关关系。（2）r具有对称性。即rxyryx。（3）r的数值大小与x和y的原点以及计量尺度无关。改变x和y的数据原点及计量尺度，并不改变r的数值大小。（4）r仅仅是x与y之间线性关系的一个度量，它不能用于描述非线性关系。即r0只表示两个变量之间没有线性相关关系，并不能说明两个变量之间没有任何关系，它们之间可能存在非线性相关关系。因此当r0或者很小时，不能轻易得出两个变量之间不存在相关关系的结论，而应该结合散点图作出合理解释。（5）r虽然是两个变量线性关系的一个度量，但却不一定意味着x与y一定有因果关系。二、综合分析题（本大题共5个小题，共100分）1为更好地了解顾客的购买情况，某商店需要估计每位顾客来店购物比例。根据以往的历史资料分析，购物比例为60%。现要求对顾客来店购物比例进行估计，要求估计误差不超过3%。请设计抽取顾客的样本容量大小，并说明样本容量与估计误差的关系。（10分）答：样本估计误差：由此可得：由题意知：E3%，p60%，取显著性水平为5%，则代入上式可得n1025，即设计抽取顾客的样本容量为1025人。由上述公式可知，样本容量与估计误差是负相关的关系，样本容量越大，估计误差越小；反之，估计误差越大。2为检验培训方式对工作效率的影响，某公司用三种培训方式A，B，C员工进行培训。为确定哪种方式效果最好，随机抽取了48名员工，并指定每名员工只采用其中的一种方式。通过对每个员工生产的产品数量

展开阅读全文