1、第1章 统计和统计数据第2章 1。1 指出下面的变量类型. (1) 年龄. (2) 性别。 (3) 汽车产量。 (4) 员工对企业某项改革措施的态度(赞成、中立、反对)。 (5) 购买商品时的支付方式(现金、信用卡、支票). 详细答案: (1)数值变量。 (2)分类变量。 (3)数值变量。 (4)顺序变量. (5)分类变量。 1。2 一家研究机构从IT从业者中随机抽取1000人作为样本进行调查,其中60回答他们的月收入在5000元以上,50%的人回答他们的消费支付方式是用信用卡。 (1) 这一研究的总体是什么?样本是什么?样本量是多少? (2) “月收入是分类变量、顺序变量还是数值变量? (3
2、) “消费支付方式”是分类变量、顺序变量还是数值变量? 详细答案: (1)总体是“所有IT从业者”,样本是“所抽取的1000名IT从业者”,样本量是1000。 (2)数值变量。 (3)分类变量。 1.3 一项调查表明,消费者每月在网上购物的平均花费是200元,他们选择在网上购物的主要原因是“价格便宜”。 (1) 这一研究的总体是什么? (2) “消费者在网上购物的原因”是分类变量、顺序变量还是数值变量? 详细答案: (1)总体是“所有的网上购物者”。 (2)分类变量。 1.4 某大学的商学院为了解毕业生的就业倾向,分别在会计专业抽取50人、市场营销专业抽取30、企业管理20人进行调查。 (1)
3、 这种抽样方式是分层抽样、系统抽样还是整群抽样? (2) 样本量是多少? 详细答案: (1)分层抽样。 (2)100. 第2章用图表展示数据2。1 为评价家电行业售后服务的质量,随机抽取由100家庭构成的一个样本.服务质量的等级分别表示为:A.好;B.较好;C。一般;D.较差;E。差。调查结果如下: BECCADCBAEDACBCDECEEADBCCAEDCBBACDEABDDCCBCEDBCCBCDACBCDECEBBECCADCBAEBACDEABDDCADBCCAEDCBCBCEDBCCBC(1)用Excel制作一张频数分布表。 (2)。绘制一张条形图,反映评价等级的分布. (3).绘制
4、评价等级的Pareto图。 (4)。绘制一张饼图,反映评价等级的构成。详细答案: (1)频数分布表如下: 服务质量等级评价的频数分布 服务质量等级 家庭数(频数) 频率(%) A1414B2121C3232D1818E1515合计 100100(2)条形图如下: (3)帕累托图如下: (4)饼图如下: 2.2 为确定灯泡的使用寿命(单位:小时),在一批灯泡中随机抽取100只进行测试,所得数据如下: 700716728719685709691684705718706715712722691708690692707701708729694681695685706661735665668710693
5、6976746586986666966987066926917476996826987007107226946907366896966516737497087276886896836857027416987136767027016717187076837177337126836926936976646817217206776796956917136997257267047297036967176881.以组距为10进行分组,整理成频数分布表。 2.根据分组数据绘制直方图,说明数据分布的特点. 3。制作茎叶图,并与直方图作比较。详细答案: (1)频数分布表如下: 100只灯泡使用寿命的频数分 按
6、使用寿命分组(小时) 灯泡个数(只) 频率() 650660226606705567068066680690141469070026267007101818710720131372073010107307403374075033合计 100 100 (2)直方图如下:从直方图可以看出,灯泡使用寿命的分布基本上是对称的。 (3)茎叶图如下 茎 叶 数据个数 6518266145685671346796681123334555889914690011112223344556667788889926700011223456667788891871002233567788913720122567899
7、10733563741473茎叶图与直方图所反映的数据分布是一致的,不同的是茎叶图中保留了原始数据。 2.3 甲乙两个班各有40名学生,期末统计学考试成绩的分布如下: 考试成绩 人数 甲班 乙班 优 36良 615中 189及格 98不及格 42(1)根据上面的数据,画出两个班考试成绩的环形图,比较它们的构成。 (2)画出雷达图,比较两个班考试成绩的分布是否相似。详细答案: (1)环形图如下: (2 )雷达图如下: 从雷达图可以看出,甲班成绩为优良的人数高于乙班,说明甲班的考试成绩好于乙班.从雷达图的形状看,两个班考试成绩的分布没有相似之处. 2。4 下面是我国10个城市2006年各月份的气温
8、数据: 月份 北京 沈阳 上海 南昌 郑州 武汉 广州 海口 重庆 昆明 1月 -1.912。75。76。60。34。215。818.57。810。82月 -0.98.15。66.53。95。817。320。59。013。23月 8.00.511.112.711.512.817。921.813.315.94月 13.58。016。619。317.119。023。626.719。218.05月 20。418。320.822。721。823。925.328。322。918。06月 25。921.625.626.027。828.427.829.425。420.47月 25.924。229.430.0
9、27.130。229。830.031。021。38月 26.424。330。230.026.129.729。428.532。420。69月 21.817。523.924。321.224。027.027.424。818。310月 16.111。622.122。119。021。026。427.120.616.911月 6.70.815.715。010。814。021.925。314。613.212月 1.0-6。78。28.13.06。816。020。89.49.8绘制各城市月气温的箱线图,并比较各城市气温分布的特点。详细答案: 箱线图如下: 从箱线图可以看出,10个城市中气温变化最小的是昆明,最
10、大的是沈阳。从中位数来看,多数靠近上四分位数,说明多数城市的气温分布都有一定的左偏。 第3章用统计量描述数据3。1 随机抽取25个网络用户,得到他们的年 19152925242321382218302019191623272234244120311723龄数据如下(单位:周岁):计算网民年龄的描述统计量,并对网民年龄的分布特征进行综合分析。 详细答案: 网民年龄的描述统计量如下: 平均 24中位数 2325四分位数 1975四分位数 26。5众数 19标准差 6.65方差 44。25峰度 0。77偏度 1。08极差 26最小值 15最大值 41 从集中度来看,网民平均年龄为24岁,中位数为23
11、岁。从离散度来看,标准差在为6。65岁,极差达到26岁,说明离散程度较大。从分布的形状上看,年龄呈现右偏,而且偏斜程度较大。3。2 某银行为缩短顾客到银行办理业务等待的时间,准备采用两种排队方式进行试验。一种是所有顾客都进入一个等待队列;另一种是顾客在3个业务窗口处列队3排等待。为比较哪种排队方式使顾客等待的时间更短,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟,第二种排队方式的等待时间(单位:分钟)如下: 5。5 6。6 6.7 6.8 7.1 7。3 7.4 7。8 7.8 (1)计算第二种排队时间的平均数和标准差。 (2)比两种排队方
12、式等待时间的离散程度。 (3)如果让你选择一种排队方式,你会选择哪一种?试说明理由。 详细答案: (1) (岁); (岁)。 (2) ; 。第一中排队方式的离散程度大. (3)选方法二,因为平均等待时间短,且离散程度小. 3。3 在某地区随机抽取120家企业,按利润额进行分组后结果如下: 按利润额分组(万元) 企业数(个) 300以下 19300400304005004250060018600以上 11合计 120计算120家企业利润额的平均数和标准差(注:第一组和最后一组的组距按相邻组计算)。 详细答案: =426。67(万元); (万元)。 3.4 一家公司在招收职员时,首先要通过两项能力
13、测试。在A项测试中,其平均分数是100分,标准差是15分;在B项测试中,其平均分数是400分,标准差是50分。一位应试者在A项测试中得了115分,在B项测试中得了425分。与平均分数相比,该位应试者哪一项测试更为理想? 详细答案: 通过计算标准化值来判断, , ,说明在项测试中该应试者比平均分 数高出1个标准差,而在B项测试中只高出平均分数0.5个标准差,由于A项测试的标准化值高于B项测试,所以A项测试比较理想。3.5 一种产品需要人工组装,现有3种可供选择的组装方法。为检验哪种方法更好,随机抽取15个工人,让他们分别用3种方法组装.下面是15个工人分别用3种方法在相同的时间内组装的产品数量(
14、单位:个): 方法A方法B方法C1641291251671301261681291261651301271701311261651301281641291271681271261641281271621281271631271251661281261671281161661251261651321251.你准备用哪些统计量来评价组装方法的优劣? 2。如果让你选择一种方法,你会做出怎样的选择?试说明理由。 详细答案: 3种方法的主要描述统计量如下:方法A 方法B方法C平均 165.6平均 128。73平均 125。53中位数 165中位数 129中位数 126众数 164众数 128众数 126
15、标准差 2.13标准差 1。75标准差 2。77峰度 -0。13峰度 0。45峰度 11.66偏度 0.35偏度 -0.17偏度 3.24极差 8极差 7极差 12离散系数 0.013离散系数 0.014离散系数 0。022最小值 162最小值 125最小值 116最大值 170最大值 132最大值 128 (1)从集中度、离散度和分布的形状三个角度的统计量来评价。从集中度看,方法A的平均水平最高,方法C最低;从离散度看,方法A的离散系数最小,方法C最大;从分布的形状看,方法A和方法B的偏斜程度都不大,方法C则较大。 (2)综合来看,应该选择方法A,因为平均水平较高且离散程度较小。第4章概率分
16、布4。1 消费者协会经过调查发现,某品牌空调器有重要缺陷的产品数出现的概率分布如下: X012345678910P0.0410.1300.2090.2230。1780。1140.0610.0280。0110.0040.001根据这些数值,分别计算:(1)有2到5个(包括2个与5个在内)空调器出现重要缺陷的概率。(2)只有不到2个空调器出现重要缺陷的概率。(3)有超过5个空调器出现重要缺陷的概率。详细答案: (1)0.724.(2)0.171。(3)0。105。 4。2 设 是参数为 和 的二项随机变量。求以下概率:(1) ;(2) 。详细答案: (1)0。375。(2)0。6875。4.3 求
17、标准正态分布的概率:(1) ;(2) ;(3) 。详细答案: (1)0.3849。(2)0。1844.(3)0.0918。 4。4 由30辆汽车构成的一个随机样本,测得每百公里的耗油量数据如下(单位:公升) 9.1910.019。609.279。788。829。638.8210。508.839。358。6510。109。4310.129。399.548。519.7010.039.499.489.369。1410.099.859.379。649.689.75绘制正态概率图,判断该种汽车的耗油量是否近似服从正态分布?详细答案:正态概率图如下:由正态概率图可以看出,汽车耗油量基本服从正态分布。4。5
18、 从均值为200、标准差为50的总体中,抽取 的简单随机样本,用样本均值 估计总体均值。(1) 的期望值是多少?(2) 的标准差是多少?(3) 的概率分布是什么?详细答案: (1)200。(2)5。(3)近似正态分布. 4.6 从 的总体中,抽取一个容量为500的简单随机样本。(1) 的期望值是多少?(2) 的标准差是多少?(3) 的分布是什么?详细答案: (1)0.4。(2)0.0219 。(3)近似正态分布。 4。7 假设一个总体共有8个数值,54,55,59,63,64,68,69,70。从该总体中按重复抽样方式抽取的随机样本。(1)计算出总体的均值和方差。(2)一共有多少个可能的样本?
19、(3)抽出所有可能的样本,并计算出每个样本的均值。(4)画出样本均值的正态概率图,判断样本均值是否服从正态分布?(5)计算所有样本均值的平均数和标准差,并与总体的均值和标准差进行比较,得到的结论是什么?详细答案: (1) , 。 (2)共有64个样本。 (3)所有样本的样本均值如下: 54。0 54.556.558.559。061。061.562。054。555。057。059.059.561。562.062。556。557.059。061.061.563。564.064.558。559.061。063。063。565。566.066。559.059。561.563。564.066.066。5
20、67。061.061.563.565.566。068。068.069。061.562。064.066。066.568。569。069.562。062.564.566.567.069。069。570。0(4)样本均值的正态概率图如下: 从正态概率图可以看出,样本均值近似服从正态分布。 (5) , 。样本均值的平均数等于总体平均数,样本均值的标准差等于总体标准差的 。第5章参数估计5.1 某快餐店想要估计每位顾客午餐的平均花费金额,在为期3周的时间里选取49名顾客组成了一个简单随机样本。(1)假定总体标准差为15元,求样本均值的标准误差。(2)在95%的置信水平下,求估计误差。(3)如果样本均值为
21、120元,求总体均值 的95的置信区间。详细答案: (1) . (2)E=4.2. (3)(115。8,124.2)。5。2 利用下面的信息,构建总体均值 的置信区间。(1)总体服从正态分布,且已知 , , ,置信水平为95%.(2)总体不服从正态分布,且已知 , , ,置信水平为95%。(3)总体不服从正态分布,未知, , ,置信水平为90。(4)总体不服从正态分布,未知, , ,置信水平为99%。详细答案: (1)(8647,9153)。 (2)(8734,9066)。 (3)(8761,9039)。 (4)(8682,9118)。 5。3 某大学为了解学生每天上网的时间,在全校学生中随机
22、抽取36人,调查他们每天上网的时间,得到下面的数据(单位:小时)如下: 3。33.16.25.82。34。15.44.53。24.42。05。42。66.41.83。55.72.32.11.91.25。14.34.23。60.81。54.71.41.22。93。52.40.53.62.5求该校大学生平均上网时间的置信区间,置信水平分别为90%、95和99.详细答案: (1)(2。88,3。76); (2)(2。80,3.84); (3)(2.63,4。01). 5。4 某居民小区共有居民500户,小区管理者准备采取一项新的供水设施,想了解居民是否赞成。采取重复抽样方法随机抽取了50户,其中有3
23、2户赞成,18户反对。(1)求总体中赞成新措施的户数比例的置信区间,置信水平为95。(2)如果小区管理者预计赞成的比例能达到80%,要求估计误差不超过10%.应抽取多少户进行调查?详细答案: (1)(51。37%,76。63)。 (2)62. 5.5 顾客到银行办理业务时往往需要等待一些时间,而等待时间的长短与许多因素有关,比如,银行的业务员办理业务的速度,顾客等待排队的方式等等。为此,某银行准备采取两种排队方式进行试验,第一种排队方式是:所有顾客都进入一个等待队列;第二种排队方式是:顾客在三个业务窗口处列队三排等待。为比较哪种排队方式使顾客等待的时间更短,银行各随机抽取的10名顾客,他们在办
24、理业务时所等待的时间(单位:分钟)如下: 方式16.56.66。76。87.17.37。47.77。77.7方式24。25.45。86。26.77。77。78.59。310.0(1)构建第一种排队方式等待时间标准差的95%的置信区间.(2)构建第二种排队方式等待时间标准差的95%的置信区间。(3)根据(1)和(2)的结果,你认为哪种排队方式更好?详细答案: (1)(0.33,0.87)。 (2)(1。25,3.33)。 (3)第一种排队方式更好。 5.6 两个正态总体的方差 和 未知但相等.从两个总体中分别抽取两个独立的随机样本,它们的均值和标准差如下: 来自总体1的样本 来自总体2的样本 (
25、1)求 的95%的置信区间。(2)求 的99%的置信区间。详细答案: (1)(1.86,17。74)。 (2)(0.19,19。41)。 (3)(3.34,22.94)。 5.7 一家人才测评机构对随机抽取的10名小企业的经理人用两种方法进行自信心测试,得到的自信心测试分数如下: 人员编号 方法1方法2178712634437261489845917464951768558766098577105539构建两种方法平均自信心得分之差的95%的置信区间。详细答案: (6.33,15。67)。 5。8 从两个总体中各抽取一个 的独立随机样本,来自总体1的样本比例为 ,来自总体2的样本比例为 .(1
26、)构造 的90%的置信区间。(2)构造 的95%的置信区间。详细答案: (1)(3。02,16。98%). (2)(1。68%,18。32)。 5.9 生产工序的方差是工序质量的一个重要度量。当方差较大时,需要对工序进行改进以减小方差.下面是两部机器生产的袋茶重量(单位:克)的数据: 机器1机器23.453。223。903.223.283。353。202。983.703。383.193。303.223.753。283。303。203。053.503.383.353。303.293.332。953.453。203。343。353。273.163。483.123.283.163。283.203。1
27、83。253。303.343.25构造两个总体方差比 的95的置信区间。详细答案: (4。06,24.35)。 5.10 某超市想要估计每个顾客平均每次购物花费的金额。根据过去的经验,标准差大约为120元,现要求以95%的置信水平估计每个顾客平均购物金额的置信区间,并要求估计误差不超过20元,应抽取多少个顾客作为样本?详细答案: 139. 5.11 假定两个总体的标准差分别为: , ,若要求估计误差不超过5,相应的置信水平为95%,假定 ,估计两个总体均值之差 时所需的样本量为多大? 详细答案: 57。5。12 假定,估计误差 ,相应的置信水平为95%,估计两个总体比例之差 时所需的样本量为多
28、大?详细答案: 769。 第6章假设检验6。1 一项包括了200个家庭的调查显示,每个家庭每天看电视的平均时间为7.25小时,标准差为2.5小时。据报道,10年前每天每个家庭看电视的平均时间是6.70小时。取显著性水平 ,这个调查能否证明“如今每个家庭每天收看电视的平均时间增加了”?详细答案: , 3.11,拒绝 ,如今每个家庭每天收看电视的平均时间显著地增加了. 6.2 为监测空气质量,某城市环保部门每隔几周对空气烟尘质量进行一次随机测试。已知该城市过去每立方米空气中悬浮颗粒的平均值是82微克。在最近一段时间的检测中,每立方米空气中悬浮颗粒的数值如下(单位:微克): 81.686.680.0
29、85。878。658.368。773。296.674.983.066.668。670。971。771.677.376。192.272。461.775。685.572。574.082。587.073.288。586.994.983。0根据最近的测量数据,当显著性水平 时,能否认为该城市空气中悬浮颗粒的平均值显著低于过去的平均值? 详细答案: , 2。39, ,拒绝 ,该城市空气中悬浮颗粒的平均值显著低于过去的平均值。 6.3 安装在一种联合收割机的金属板的平均重量为25公斤。对某企业生产的20块金属板进行测量,得到的重量数据如下: 22.626。623.123.527。025.328.624.5
30、26。230。427。424.925。823。226.926。122.228.124.223。6 假设金属板的重量服从正态分布,在显著性水平下,检验该企业生产的金属板是否符合要求?详细答案: , , ,不拒绝 ,没有证据表明该企业生产的金属板不符合要求。 6.4 在对消费者的一项调查表明,17%的人早餐饮料是牛奶。某城市的牛奶生产商认为,该城市的人早餐饮用牛奶的比例更高.为验证这一说法,生产商随机抽取550人的一个随机样本,其中115人早餐饮用牛奶。在 显著性水平下,检验该生产商的说法是否属实?详细答案: , , ,拒绝,该生产商的说法属实。 6。5 某生产线是按照两种操作平均装配时间之差为5
31、分钟而设计的,两种装配操作的独立样本产生如下结果: 操作A操作B=100=50=14.8=10。4 =0.8=0。6对 0。02,检验平均装配时间之差是否等于5分钟。详细答案: , 5.145, ,拒绝 ,两种装配操作的平均装配时间之差不等于5分钟。 6。6 某市场研究机构用一组被调查者样本来给某特定商品的潜在购买力打分。样本中每个人都分别在看过该产品的新的电视广告之前与之后打分。潜在购买力的分值为010分,分值越高表示潜在购买力越高。原假设认为“看后平均得分小于或等于“看前”平均得分,拒绝该假设就表明广告提高了平均潜在购买力得分。对 0。05的显著性水平,用下列数据检验该假设,并对该广告给予
32、评价。 购买力得分 购买力得分 个体 看后 看前 个体 看后 看前 165535264698377775443866详细答案: 设 , 。 , 1.36, ,不拒绝 ,广告提高了平均潜在购买力得分。 6。7 某企业为比较两种方法对员工进行培训的效果,采用方法1对15名员工进行培训,采用方法2 对12名员工进行培训。培训后的测试分数如下: 方法1方法2565145595753475243525665425352535553504248546457474444两种方法培训得分的总体方差未知且不相等。在 显著性水平下,检验两种方法的培训效果是否有显著差异?详细答案: , , ,拒绝 ,两种方法的培训
33、效果是有显著差异。 6。8 为研究小企业经理们是否认为他们获得了成功,在随机抽取 100个小企业的女性经理中,认为自己成功的人数为24人;而在对95个男性经理的调查中,认为自己成功的人数为39人。在 的显著性水平下,检验男女经理认为自己成功的人数比例是否有显著差异?详细答案: 设 , 。 , , ,拒绝 ,男女经理认为自己成功的人数比例有显著差异。 6.9 为比较新旧两种肥料对产量的影响,以便决定是否采用新肥料。研究者选择了面积相等、土壤等条件相同的40块田地,分别施用新旧两种肥料,得到的产量数据如下: 旧肥料 新肥料 1091019798100105109110118109989894991
34、0411311111199112103881081021061061179910711997105102104101110111103110119取显著性水平 ,检验:(1)新肥料获得的平均产量是否显著地高于旧肥料?假定条件为: 两种肥料产量的方差未但相等,即 。 两种肥料产量的方差未且不相等,即 .(2)两种肥料产量的方差是否有显著差异?详细答案: (1)设 , 。 , , ,拒绝 ,新肥料获得的平均产量显著地高于旧肥料。 (2) ,拒绝 ,新肥料获得的平均产量显著地高于旧肥料。 (3) , . , ,两种肥料产量的方差有显著差异。 6.10 生产工序中的方差是工序质量的一个重要测度,通常较
35、大的方差就意味着要通过寻找减小工序方差的途径来改进工序.某杂志上刊载了关于两部机器生产的袋茶重量的数据(单位:克)如下,检验这两部机器生产的袋茶重量的方差是否存在显著差异(0。05). 机器12.953。453.503.753。483。263.333.203.163.203。223.383。903.363。253.283.203。222.983.453。703.343。183.353。12机器23。223。303.343.283。293。253。303.273.383.343.353.193。353.053。363.283.303。283。303。203.163。33详细答案: , . 8.2
36、8, ,拒绝 ,两部机器生产的袋茶重量的方差存在显著差异。 第7章方差分析与实验设计教材习题答案7.1 一家牛奶公司有4台机器装填牛奶,每桶的容量为4升。下面是从4台机器中抽取的装填量样本数据: 机器1机器2机器3机器44。053.993。974。004。014。023。984.024。024.013.973。994.043。993。954。014.004。004.00取显著性水平 ,检验4台机器的装填量是否相同? 详细答案: 7。2 一家管理咨询公司为不同的客户进行人力资源管理讲座。每次讲座的内容基本上一样的,但讲座的听课者有时是高级管理者,有时是中级管理者,有时是低级管理者。该咨询公司认为
37、,不同层次的管理者对讲座的满意度是不同的。对听完讲座后随机抽取的不同层次管理者的满意度评分如下(评分标准是从110,10 代表非常满意): 高级管理者 中级管理者 低级管理者 78579688571079941088取显著性水平 ,检验管理者的水平不同是否会导致评分的显著性差异? 详细答案: 7.3 某家电制造公司准备购进一批5电池,现有A、B、C三个电池生产企业愿意供货,为比较它们生产的电池质量,从每个企业各随机抽取5只电池,经实验得其寿命(单位:小时)数据如下: 实验号 电池生产企业 ABC12345505043403932283034264542384840试分析3个企业生产的电池的平均寿命之间有无显著差异?( )如果有差异,用LSD方法检验哪些企业之间有差异? 详细答案: 7。4 某企业准备用3种方法组装一种新的产品,为确定哪种方法每小时生产的产品数量最多,随机抽取了30名工人,并指定每个人使用其中的一种方法。通过对每个工人生产的产品数进行