1、第一章 导论 1。11(1)数值型变量.(2)分类变量.(3)离散型变量。(4)顺序变量.(5)分类变量。1。2 (1)总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。 (2)参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。1。3 (1)总体是所有IT从业者的集合。 (2)数值型变量。 (3)分类变量。 (4)截面数据。1.4 (1)总体是所有在网上购物的消费者的集合。 (2)分类变量。 (3)参数是所有在网上购物者的月平均花费。 (4)参数 (5)推断统计方法。第二章数据的搜集1。什么是二手资料?使用二手资料需要注意些什么?与研究内容有关
2、的原始信息已经存在,是由别人调查和实验得来的,并会被我们利用的资料称为“二手资料”。 使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用.在引用二手资料时,要注明数据来源。2.比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样.概率抽样是指抽样时按一定概率以随机原则抽取样本。每个单位被抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高.如果调查的目的在于掌握和研究总体的数量
3、特征,得到总体参数的置信区间,就使用概率抽样。非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高.它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备.非概率抽样也适合市场调查中的概念测试。3.调查中搜集数据的方法主要有自填式、面方式、电话式,除此之外,还有那些搜集数据的方法?实验式、观察式等。4. 自填式、面方式、电话式调查个有什么利弊?自填式优点:调查组织者管理容易,成本低,可以进行较大规模调查,对被调查者可以刻选择方便时间答卷,减少回
4、答敏感问题的压力。缺点:返回率低,调查时间长,在数据搜集过程中遇到问题不能及时调整。面谈式优点:回答率高,数据质量高,在数据搜集过程中遇到问题可以及时调整可以充分发挥调查员的作用。缺点:成本比较高,对调查过程的质量控制有一定难度。对于敏感问题,被访者会有压力。电话式优点:速度快,对调查员比较安全,对访问过程的控制比较容易,缺点:实施地区有限,调查时间不宜过长,问卷要简单,被访者不愿回答时,不宜劝服.5.请举出(或设计)几个实验数据的例子。不同饲料对牲畜增重有无影响,新旧技术的机器对组装同一产品所需时间的影响.6。你认为应当如何控制调查中的回答误差?对于理解误差,要注意表述中的措辞,学习一定的心
5、里学知识。对于记忆误差,尽量缩短所涉及问题的时间范围。对于有意识误差,调查人员要想法打消被调查者得思想顾虑,调查人员要遵守职业道德,为被调查者保密,尽量避免敏感问题。7。怎样减少无回答?请通过一个例子,说明你所考虑到的减少无回答的具体措施。对于随机误差,可以通过增加样本容量来控制。对于系统误差,做好预防,在调查前做好各方面的准备工作,尽量把无回答率降到最低程度。无回答出现后,分析武回答产生的原因,采取补救措施。比如要收回一百份,就要做好一百二十份或一百三十份问卷的准备,当被调查者不愿意回答时,可以通过一定的方法劝服被访者,还可以通过馈赠小礼品等的方式提高回收率.第三章 数据的图表搜集一、思考题
6、3。1数据的预处理包括哪些内容?答:审核、筛选、排序等。3。2分类数据和顺序数据的整理和显示方法各有哪些?答:分类数据在整理时候先列出所分的类别,计算各组的频数、频率,得到频数分布表,如果是两个或两个以上变量可以制作交叉表。对于分类数据可以绘制条形图、帕累托图、饼图、环形图等.根据不同的资料或者目的选择不同的图。对于顺序数据,可以计算各种的频数、频率,以及累计频数、累计频率。可根据需要绘制条形图、饼图、环形图等。3。3数值型数据的分组方法有哪些?简述组距分组的步骤。答:单变量值分组和组距分组.其中组距分组:第一步,确定组数,组数多少由数据的多少和特点等决定,一般515组;第二步,确定各组组距,
7、宜取5或10的倍数;第三步,根据分组整理出频数分布表,注意遵循“不重不漏”和“上限不在内”的原则。3。4直方图和条形图有何区别?答:1,条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,高度与宽度都有意义;2直方图各矩形连续排列,条形图分开排列;3条形图主要展示分类数据,直方图主要展示数值型数据。3。5绘制线图应注意问题?答:时间在横轴,观测值绘在纵轴。一般是长宽比例10:7的长方形,纵轴下端一般从0开始,数据与0距离过大的话用折断符号折断。3。6饼图和环形图的不同?答:饼图只能显示一个样本或总体各部分所占比例,环形
8、图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞”,每个样本或总体的数据系类为一个环。3。7茎叶图比直方图的优势,他们各自的应用场合?答:茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据.3.8鉴别图标优劣的准则?答:P65明确有答案,我就不写了。3.9制作统计表应注意的问题?答:1,合理安排统计表结构;2表头一般包括表号,总标题和表中数据的单位等内容;3表中的上下两条横线一般用粗线,中间的其他用细线,两端开口,数字右对齐,不要有空白格;4在使用统计表时,必要时可在下方加注释,注明数据来源。
9、二、练习题3.1答: (1)表中数据属于顺序数据。(2)用Excel制作一张频数分布表。 服务等级家庭数目(个)好14较好21一般32较差18差15(3)绘制一张条形图,反映评价等级的分布。(4)绘制评价等级的帕累托图。32 某行业管理局所属40个企业2002年的产品销售收入数据如下:1521241291161001039295127104105119114115871031181421351251171081051101071371201361171089788123115119138112146113126要求:(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率
10、。1、确定组数:,取k=62、确定组距:组距( 最大值 - 最小值) 组数=(15287)6=10。83,取103、分组频数表销售收入频数频率向上累计频数向上累计频率%80 90252590 10037。5512.5100 110922.51435110 12012302665120 130717.53382.5130 1404103792。5140 15025.03997.5150以上12.540100合计40100。0(2)按规定,销售收入在125万元以上为先进企业,115125万元为良好企业,105115 万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业
11、进行分组。频数频率向上累计频数向上累计频率先进企业10251025良好企业12302255一般企业922.53177。5落后企业922.540100合计4010033 某百货公司连续40天的商品销售额如下: 单位:万元41252947383430384340463645373736454333443528463430374426384442363737493942323635要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。答 :1、确定组数: ,取k=62、确定组距:组距( 最大值 - 最小值) 组数=(4925)6=4,取53、分组频数表(根据实际资料,调整成分5个组)销售
12、收入(万元)频数频率%向上累计频数向上累计频率%30以下41041030 - 35615102535 - 401537。52562.540 - 45922。5348545以上61540100合计40100.04、直方图34 利用下面的数据构建茎叶图和箱线图。572929363123472328283551391846182650293321464152282143194220答:茎叶图 Frequency Stem Leaf 3。00 1 。 889 5。00 2 。 01133 7。00 2 . 6888999 2。00 3 . 13 3.00 3 。 569 3。00 4 。 123 3。
13、00 4 . 667 3.00 5 。 012 1.00 5 。 7箱线图3.5答 :频数分布表灯泡寿命频率向上累积频率(%)660以下2266067057%670-680613%680-6901427%69070026537007101871710-72013847207301094%730-740397 740以上3100%合计100直方图 从直方图看,数据的分布呈左偏分布。3。6答 :频数分布表,取k=72、确定组距:组距( 最大值 - 最小值) 组数=(61-40)7=3,取33、分组频数表(根据实际资料,调整成分5个组)食品重量(g)频数频率%向上累计频数向上累计频率%43以下334
14、343 4699121246 492424363649 521919555552 -5524247979 55 5814149393 58 以上77100100合计100100。0从直方图看,数据的分布呈双峰分布.3。7频数分布表重量误差(g)频数频率向上累计频数向上累计频率%1929510510293971412243949816204049591326336659-69918428469-79612489679-892450100合计50100-从直方图看,数据的分布呈左偏分布3.8(1)数值型数据(2)频数分布表,取k=72、确定组距: 组距( 最大值 - 最小值) 组数=(9+25)7
15、=4。86,取5气温()频数频率%向上累计频数向上累计频率(25,-20)610。00610.00(20,-15)813。331423。33(15,-10)1016.672440.00(10。5)1321.673761.67(5.0)1220.004981。67(0,5)46。675388.33(5,10)711。6760100。00合计60100从直方图看,数据的分布呈左偏分布.3。9 自学考试人员年龄分布集中在2024之间,分布图呈右偏。3.103。11 3。12 (1)复式条形图(2)甲班成绩分布图近似正态分布,分布较均衡;乙班成绩分布图右偏.(3)根据雷达图,两班成绩分布不相似。3.1
16、33。14 第四章习题答案4。1数据排列:2,4,7,10,10,10,12,12,14,15(1)众数:10;中位数:10平均数:9.6(2)四分位数:Q位置=2。5.所以Q=5。5Q位置=7。5,所以Q=13(3)标准差:4。17(4)峰度-0。25,偏度0。694.2 (1)众数:19;23中位数:23平均数:24(2)四分位数:Q位置=6.25。所以Q=19+0.250=19Q位置=18。75,所以Q=25+20。75=26。5(3)标准差:6。65(4)峰度0.77,偏度1.084。3(1)茎叶图略(2) 平均数:7,标准差0。71(3)第一种方式的离散系数=0.28第二种方式的离散
17、系数=0.10所以,第二种排队方式等待时间更集中。(4)选择第二种,因为平均等待的时间短,而且等待时间的集中程度高4.4 (1)平均数:274.1,中位数:272。5(2)Q位置=7.5。所以Q=258+0。253=258.75Q位置=22.5,所以Q=284+70.75=289.25(3)日销售额的标准差:21。174.5产品名称单位成本(元)总成本/元产量甲企业乙企业甲企业乙企业A1521003255140217B203000150015075C30150015005050合计-66006255340342甲企业总平均成本=19。41(元)乙企业总平均成本=所以甲企业的总平均成本比乙企业的
18、高,原因是甲企业高成本的产品B生产的产量比乙企业多,所以把总平均成本提高了。4。6计算数据如表:按利润额分组(万元)组中值企业数(个)利润额2003002501947505930333004003503010500176349400500450421890022860500600550189900273785600以上650117150548639合计120512001614666利润总额的平均数=利润总额标准差= 峰态系数偏态系数=4。7(1)不同.1000名的平均身高较高;(2)不同。100名的样本容量的标准差更大;(3)不同,调查1000名的样本容量得到最高和最低者的机会较大。4.8对于
19、不同的总体的差异程度的比较采用标准差系数,计算如下:; (1)女生的体重差异大,因为离散系数大;(2)以磅为单位,男生的平均体重为132.6磅,标准差为11。05磅;女生的平均体重为110.5磅,标准差为11。05磅(3),所以大约有68的人体重在55kg65kg之间;(4),所以大约有95的女生体重在40kg60kg之间。4.9;由此可以判断第二项测试更理想。4.10时间周一周二周三周四周五周六周日产量3850367036903720361035903700z值30。60.20。41.82。20可以看出,周一和周六两天生产线失去了控制.4。11(1)采用离散系数,因为如果比较身高差异,儿童和
20、成年人属于不同的总体;(2),所以,儿童的身高差异更大。4.12(1)对集中程度和离散程度分别评价,选择集中趋势数值大的,而且离散程度数值小的方式(2)选择方法A,因为A方法下,工人的平均组装数量为165.6,而且该方法下,工人组装数量的离散系数只有0.012,所以选择A方法。4.13(1)用离散系数(2)商业类(3)高科技第六章 统计量与抽样分布 由样本构建具体的统计量,实际上是对样本所含的总体信息按某种要求进行加工处理,把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造不同的统计量。构造统计量的主要目的就是对总体的未知参数进行推断,如果统计量中含有总体的未知参数就没办法再
21、对参数进行统计推断。2、是统计量,在不是统计量. 4、假若一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来,这样的统计量称充分统计量。5、统计学上的自由度指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的资料的个数。6、 7、在重复选取容量为n的样本时,由样本统计量的所有取值形成的相对频数分布为统计量的抽样分布. 二、练习1、易知由这台机器灌装的9个瓶子形成的样本,其平均灌装量服从正态分布,均值为标准差为,故 2、若,则,即,又知,故。3、易知服从自由度为6的卡方分布,得(左侧分位数)4、因为服从分布,我们已知,故服从9)分布,,我们若取,则可以得到,故。(题中均为左侧
22、分位数)第七章 参数估计7。1 (1)(2)由于1=95 =5 所以 估计误差7.2 (1)(2)因为 所以(3)的置信区间为7。3 由于 n=100所以的95%置信区间为7。4(1)的90置信区间为(2)的95%置信区间为(3)的99%置信区间为7.5 (1)(2)(3)7.6 (1)(2)(3)(4)7.7 90置信区间为95置信区间为99%置信区间为7。8 所以95%置信区间为7。9 由于 所以95%置信区间为7。10 (1)(2)中心极限定理7.11 (1)(2)由于所以 合格率的95%置信区间为7。12 由于 所以99%置信区间为7.13 所以90置信区间为7.14(1)(2)(3)
23、7。15(1)90置信区间为(2)95置信区间为7。16 所以n为1667。17(1) 所以n为254(2) 所以n为151(3) 所以n为2687。18(1)(2) 所以n为627。19(1) 所以(2) (3) 7.20(1) (2)7.21 =(1)的90%置信区间为: = =(2)的95%置信区间为: = =(3)的99置信区间为: =7。22(1)=(2)=18=(3)=17。78=(4)=18。714= =(5)=20。05 =7.23(1) =(2)=7.24 , 的置信区间为:=7。25(1)=(2)=7.26 =2.464=0.405767。27 =47。06所以 n =48
24、7.28=138。30所以 n =139第8章 假设检验 二、练习题(说明:为了便于查找书后正态分布表,本答案中,正态分布的分位点均采用了下侧分位点。其他分位点也可。为了便于查找书后t分布表方便,本答案中,正态分布的分位点均采用了上侧分位点。)8。1解:根据题意,这是双侧检验问题. 已知:总体方差 当,查表得。 拒绝域W= 因为,所以不能拒绝H0,认为现在生产的铁水平均含碳量为4.55.(注:为正态分布的1/2下侧分位点 )8.2解:根据题意,这是左单侧检验问题。 已知:总体方差 当,查表得。 拒绝域W= 因为,所以拒绝H0,认为该元件的使用寿命低于700小时。(注:为正态分布的1下侧分位点
25、)8.3解:根据题意,这是右单侧检验问题。 已知:总体方差 当,查表得。拒绝域W= 因为,所以拒绝H0,认为这种化肥能使小麦明显增产。(注:为正态分布的1下侧分位点 )8.4解:根据题意,这是双侧检验问题。 方差未知。 已知:总体 根据样本计算得: 当,查表得。 拒绝域W=因为,所以不能拒绝H0,认为该日打包机工作正常.(注:为t分布的/2上侧分位点 )8.5解:根据题意,这是右单侧检验问题。 已知: 当,查表得。拒绝域W= 因为,所以拒绝H0,认为不符合标准的比例超过5,该批食品不能出厂。(注:为正态分布的1下侧分位点 )8。6解:根据题意,这是右单侧检验问题. 已知: 当,查表得。拒绝域W
26、= 因为,所以不能拒绝H0,认为该厂家的广告不真实.(注:为t分布的上侧分位点 )8.7解:根据题意,这是右单侧检验问题。 已知: 当,查表得。拒绝域W= 因为,所以不能拒绝H0,认为元件的平均寿命不大于225小时。(注:为t分布的上侧分位点 )8。8解:根据题意,这是右侧检验问题。 已知: 当,查表得。拒绝域W= 因为,所以拒绝H0,认为成立.(注:为分布的上侧分位点 )8。9解:根据题意,这是双侧检验问题。 已知:总体方差 当,查表得。拒绝域W= 因为,所以拒绝H0,可以认为A,B两厂生产的材料平均抗压强度不相同.(注:为正态分布的1-/2下侧分位点 )8.10解:根据题意,这是双侧检验问
27、题. 已知:总体方差,但未知 2。3579 当,查表得。拒绝域W= 因为,所以拒绝H0,认为两种方法的装配时间有显著差异。(注:为t分布的上侧分位点 )8。11解:根据题意,这是双侧检验问题。 已知: 在大样本条件下 当,查表得。拒绝域W= 因为,所以拒绝H0,认为调查数据支持“吸烟者容易患慢性气管炎”这种观点.(注:为正态分布的1/2下侧分位点 )8。12解:根据题意,这是右单侧检验问题. (1)等同于(2) 已知: 在n=144情况下,(2)中的H0成立时,t近似服从标准正态分布。 因此P=P(t 2。16)=1-0。9846=0。0154。所以在=0.01的显著水平,不能拒绝H0,认为贷
28、款的平均规模没有明显超过60万元。8。13解:根据题意,这是左单侧检验问题。 已知: 在大样本条件下 当,查表得。拒绝域W= 因为,所以拒绝H0,认为阿司匹林可以降低心脏病发生率。(注:为正态分布的1下侧分位点 )8.14解:(1)根据题意,这是双侧检验问题。 已知: 当,利用EXCEL提供的统计函数“CHIINV”,得.拒绝域W= 因为,所以不能拒绝H0,认为成立。(注:为-分布的上侧分位点 )(2)根据题意,这是双侧检验问题。 已知:总体方差 当,查表得。 拒绝域W= 因为,所以不能拒绝H0,认为螺栓口径为7.0cm 。(注:为正态分布的1/2下侧分位点 )因此,由(1)和(2)可得:这批
29、螺栓达到了规定的要求。8。15(1)根据题意,这是双侧检验问题. 已知: 当,利用EXCEL提供的统计函数“FINV”,得。拒绝域W= 因为,所以不能拒绝H0,认为成立。(注:为F-分布的/2上侧分位点 )(2)根据题意,这是右单侧检验问题。 由(1)的分析可知:总体方差,但未知 当,查表得。拒绝域W= 因为,所以拒绝H0,认为有显著大学中男生学习成绩比女生好。(注:为t分布的上侧分位点 )第十章 方差分析一、思考题10.1 什么是方差分析?它研究的是什么? 答:方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。它所研究的是分类型自变量对数值型因变量的影响
30、。10。2 要检验多个总体均值是否相等时,为什么不作两两比较,而用方差分析方法? 答:做两两比较十分繁琐,进行检验的次数较多,会使得犯第I类错误的概率相应增加,而且随着增加个体显著性检验的次数,偶然因素导致差别的可能性也会增加。而方差分析方法是同时考虑所有的样本,因此排除了错误累积的概率,从而避免一个真实的原假设。10。3 方差分析包括哪些类型?它们有何区别? 答:方差分析可分为单因素方差分析和双因素方差分析.区别:单因素方差分析研究的是一个分类自变量对一个数值型因变量的影响,而双因素涉及两个分类型自变量.10。4 方差分析中有哪些基本假定? 答:(1)每个总体都应服从正态分布 (2)各个总体
31、的方差必须相同 (3)观测值是独立的10.5 简述方差分析的基本思想 答:它是通过对数据误差来源的分析来判断不同总体的均值是否相等,进而分析自变量对因变量是否有显著影响.10。6 解释因子和处理的含义 答:在方差分析中,所要检验的对象称为因素或因子,因素的不同表现称为水平或处理。10。7 解释组内误差和组间误差的含义 答:组内平均值误差的误差(SSE)是指每个水平或组的各个样本数据与其组平均值误差平方和,反映了每个样本个观测值的离散状况;组间误差(SSA)是指各组平均值与总平均值的误差平方和,反映了各样本均值之间的差异程度。10.8 解释组内方差和组间方差的含义 答:组内方差指因素的同一个水平
32、下样本数据的方差;组间方差指因素的不同水平下各个样本之间的方差。10.9 简述方差分析的基本步骤 答:(1)提出假设 (2)构造检验统计量 (3)统计决策10.10 方差分析中多重比较的作用是什么? 答:通过对总体均值之间的配对比较来进一步检验哪些均值之间存在差异。二、练习题10.1 解: 方差分析差异源SSdfMSFPvalue组间618.91672309。45834。65740.04087724组内598966.44444总计1216。91711相同10。2 解:方差分析差异源SSdfMSFP-value组间93.76812423.4420315.823371.02431E-05组内26.
33、66667181.481481总计120。434822不相同10。3 解:ANOVA每桶容量(L) 平方和df均方F显著性组间0。00730。0028.7210。001组内0.004150。000总数0。01118不相同。10。4 解: 方差分析差异源SSdfMSFPvalue组间29.60952214.8047611.755730.000849组内18。89048151。259365总计48.517有显著性差异。10。5 解:方差分析差异源SSdfMSFPvalue组间615.62307。817。068390.00031组内216。41218.03333总计83214有显著差异。LSD检验:
34、计算得,有因为,则决策:(1),所以A生产企业生产的电池与B生产企业生产的电池平均寿命有显著差异;(2),所以不能认为A生产企业生产的电池与C生产企业生产的电池平均寿命有显著差异;(3),所以B生产企业生产的电池与C生产企业生产的电池平均寿命有显著差异。10。6 解:方差分析差异源SSdfMSFPvalue组间5.34915622。6745788。2745180.001962组内7.434306230.323231总计12。7834625有显著性差异107 (1) 方差分析表差异源SSDfMSFPvalueF crit组间42022101.478102190。2459463。354131组内3
35、83627142。0740741总计425629 (2)若显著性水平a=0。05,检验三种方法组装的产品数量之间是否有显著差异?P=0。025a=0。05,没有显著差异.10.8 解:方差分析差异源SSdfMSFPvalueF crit行1。54933340.38733321.719630.0002367。006077列3.48421.74297。682242.39E-068。649111误差0。14266780.017833总计5。17614(1)或p=0.000236,所以不同车速对磨损程度有显著性差异;(2) 或p=2。39E-06,所以不同供应商生产的轮胎的磨损程度有显著性差异。10。
36、9 解: 方差分析差异源SSdfMSFPvalueF crit行19。06744.766757.2397160.0033153.259167列18.181536。06059.2046580.0019493.490295误差7.901120.658417总计45.149519结果表明施肥方法和品种都对收获量有显著影响。10.10 解:方差分析差异源SSdfMSFPvalueF crit行22.22222211.111110。0727270。9310566.944272列955。55562477。77783.1272730。1521556.944272误差611.11114152。7778总计15
37、88.8898(1)或p=0。931056,所以不同销售地区对食品的销售量无显著性差异;(2) 或p=0。152,所以不同包装对食品的销售量无显著性差异。10.11 解:方差分析差异源SSdfMSFPvalueF crit样本1752287648.666675.49E-086.012905列798239922。166671。4E-056。012905交互182.6667445.666672。5370370.0759024.579036内部3241818总计3056.66726(1) 竞争者的数量对销售额有显著影响(2) 超市位置对销售额有显著影响(3) 无交互作用10.12 解:方差分析差异源SSdfMSFPvalueF crit样本344217210.750。0103865.143253列4814830。1339755.987378交互562281.750.2519325。143253内部96616总计54411(1) 广告方案对销售量有显著影响(2) 广告媒体形式对销售量无显著影响(3) 无交互作用第11章 一元线性回归