资源描述
第十二单元统计、概率知识体系-I频率事件I-L概率加法公式1概率的实 际应用统计与古典概型统 计(随 蜃数据用样本的频率分布整理、分析数据,估计,推断用样本估计总体用样本的数字特征 估计总体数字特征第一节随机抽样基础梳理1.简单随机抽样(1)定义:设一个总体含有N个个体,从中,抽取n个个体作为样本(n&N),如果每次抽取时总体内的各个个体被抽到的机会都:,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:法.2.系统抽样假设要从容量为N的总体中抽取容量为n的样本,步骤如下:(1)先将总体的N个个体二 n n(2)确定二_,对编号进行,当工是整数时,取k;_ rl 力(3)在第1段用_原定第1个个体编号/(/4k);(4)按照一定的规则抽取样本,通常是将/加上间隔k得到第2个个体编号,再加k得到第3个个体编号,依次进行下去,直到获取整个样本.3.分层抽样(1)定义:在抽样时,将总体分成 的层,然后按照 例,各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为 样本,这种抽样方法叫做分层抽样.(2)分层抽样的应用范围:当总体是由,组成时,往往选用分层抽样.4.三种抽样方法比较类别共同点各自特点相互联系适用范围简单随机 抽样抽样过程 中每个个 体被抽到 的机会均 等从总体中:_抽取总体中的个体 数较少系统抽样将总体 分成 几部分,按一定 的规则分别在各 部分中抽取在起始部分 抽样时采用1_抽总体中的个体 数较多样分层抽样将总体分成几层,分层进行抽取各层抽样时 采用_抽样或总体由差异明 显的几部分组 成典例分析 题型一简单随机抽样【例1】某车间工人加工一种轴100件,为了 了解这种轴的直径,要从 中抽取10件在同一条件下测量,请设计一种抽样方案.分析 考虑到总体中个体数较少,利用抽签法或随机数法容易获取样本.解 方法一(抽签法):将100件轴编号为1,2,,100,并做好大小、形 状相同的号签,分别写上这100个数,臀这些号签放在一起,进行均匀搅 拌,接着连续抽取10个号签,与这10个号签号码相同的轴的直径即为所要 抽取的样本.方法二(随机数表法):将100件轴编号为00,01,,99,在随机数表(见教 材附表)中选定一个起始位置,如取第21行第1个数开始,选取10个为89,56,86 66,20,31,86,23,42,85,这10个号码对应的轴的直径即为 所要抽取的样本.学后反思(1)随机数法的步骤:将总体的个体编号;在随机数表 中选择开始数字;读数获取样本号码.随机数法简单易行,它很好地解 决了抽签法在总体个数较多时制签难的问题,但是当总体中的个体很多,需要的样本容量也很大时,用随机数法抽取样本仍不方便;(2)一个抽样试验能否用抽签法,关键要看:制签是否方便;号签 是否容易被搅匀.一般地,总体容量和样本容量都较小时,可用抽签法.举一反三1.某事业单位有102名职工,从中抽取10人参加体检,试采用简单 随机抽样进行具体实施.解析:将每一个人编一个号由001至102;制作大小相同的号签并写上号码;放入容器中,均匀搅拌;依次抽取10个号码,具有这十个编号的人组成一个样本.题型二 系统抽样【例2】从某厂生产的905辆家用轿车中随机抽取90辆测试某项性能,请合理选择抽样方法进行抽样,并写出抽样过程.分析由于总体容量较大,容量不能被样本容量整除,本容量整除,取间隔k=222 90因此,采用系统抽样法进行抽样,又因总体 需先剔除5辆家用轿车,使得总体容量能被样=10;然后利用系统抽样的方法进行抽样.解 可用系统抽样法进行抽样,抽样步骤如下:第一步,将905辆轿车用随机方式编号;第二步,从总体中剔除5辆(剔除法可用随机数法),将剩下的900辆轿车重新编号(分别为001,002,900)并分成90段;第三步,在第一段001,002,010这十个编号中用简单随机抽样法抽出一个作为起始号码(如006);第四步,把起始号码依次加间隔10,可获得样本.学后反思 在利用系统抽样时,经常遇到总体容量不能被样本容量整除的 情况,则可以先从总体中随机地剔除几个个体,使得总体中剩余的个体数 能被样本容量整除.举一反三2.某工厂有1 003名工人,从中抽取10人参加体检,试用系 统抽样进行具体实施.解析:(1)将每个人编一个号由0001至1003;(2)利用随机数表法找到3个号,将这3名工人排除;(3)将剩余的1 000名工人重新编号0001至1000;(4)分段,取间隔左=&2=ioo,将总体均分为10组,每组含 10100个工人;(5)从第一段,即从0001号到0100号中随机抽取一个号L;(6)按编号将L,10 0+L,20 0+L,90 0+L共10个号选出.这10个号所对应的工人组成样本.题型三 分层抽样【例3】某单位最近组织了一次健身活动,活动分为登山组和游泳组,且每 个职工至多参加了其中一组.在参加活动的职工中,青年人占42.5%,中年人 占47.5%,老年人占10%.登山组的职工占参加活动总人数的“且该组中,青 年人占50%,中年人占40%,老年人占10%.为了了解各组不同的年龄层次的职 工对本次活动的满意程度,现从参加活动的全体职工中抽取一个容量为2 0 0 的样本.(1)在游泳组中,试确定青年人、中年人、老年人分别所占的比例;(2)在游泳组中,试确定青年人、中年人、老年人分别应抽取的人数.分析 因本题中已给出了青年人、中年人和老年人三类,如何分配他们 之间的比例和他们各自的人数是解决本题的关键.解采用分层抽样的方法.(1)设登山组人数为x,在游泳组中,青年人、中年人、老年人各占比例分别为a、b、c,根据题意得xx40%+3x _n/xxlO%+3xc _n/-=47.5%,-=10%4x 4x解得b=50%,c=10%.故a=10 0%-50%-10%=40%,即在游泳组中,青年人、中年人、老年人各占比例分别为40%、50%、10%.3(2)在游泳组中,抽取的青年人人数为20Ox I x 40260(人);抽取3 3的中年人人数为200 x-x 50%=75(人);抽取的老年人人数为20 0 x Ix 10%=15(人).学后反思 分层抽样是当总体由差异明显的几部分组成时采用的抽样 方法,进行分层抽样时应注意以下几点:(1)分层抽样中分多少层、如何分层要视具体情况而定,总的原则 是,层内样本的差异要小,两层之间的样本差异要大,且互不重叠;(2)为保证每个个体等可能入样,所有层中每个个体被抽到的可能 性应相同;(3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽 样.举一反三3.某单位有工程师6人,技术员12人,技工18人,要从这些人中 抽取一个容量为n的样本.(1)如果采用系统抽样法和分层抽样 法抽取,不用剔除个体,求样本容量n;(2)如果样本容量增加 一个,则在采用系统抽样时,需要在总体中先剔除一个个体,求 样本容量n.解析:(1)总体容量为6+12+18=36.当样本容量是n时,由 题意知,系统抽样的间隔为变,分层抽样的比例是2,抽取 工程师&x 6=2(人),抽取技术员2 x 12=2(人),抽36 6 36 3取技工2义18=弓(人).所以n应是6的倍数,36的约数,即 36 2n=6,12,18,36.当样本容量为(n+1)时,总体容量是35,系统抽样的间隔 为卫.因为卫 必须是整数,所以n只能取6,即样本容量 +1 n+1n=6.题型四 抽样方法的综合应用【例4】(12分)为了考察某校的教学水平,将抽查这个学校高三年级的部 分学生本年度的考试成绩.为了全面反映实际情况,采取以下三种方式进 行抽查(已知该校高三年级共有20个班,并且每个班内的学生已经按随机 方式编好了学号,假定该校每班学生的人数相同):从高三年级20个班 中任意抽取一个班,再从该班中任意抽取20名学生,考察他们的学习成绩;每个班抽取1人,共计20人,考察这20名学生的成绩;把学生按成绩 分成优秀、良好、普通三个级别,从其中共抽取100名学生进行考察(已 知该校高三学生共1 000人,若按成绩分,其中优秀生共150人,良好生共 600人,普通生共250人).根据上面的叙述,试回答下列问题:(1)上面三种抽取方式的总体、个体、样本分别是什么?每一种抽取方 式抽取的样本中,样本容量分别是多少?(2)上面三种抽取方式各自采用的是何种抽取样本的方法?(3)试分别写出上面三种抽取方式各自抽取样本的步骤.分析 本题主要考查基本概念和三种抽样方法的联系与区别,准确把握三 种抽样方法的概念与特点是解此题的关键;另外要注意叙述的完整性和条 理性.解(1)这三种抽取方式的总体都是指该校高三全体学生本年度的考试 成绩,个体都是指高三年级每个学生本年度的考试成绩.其中第一种抽 取方式的样本为所抽取的20名学生本年度的考试成绩,样本容量为20;第二种抽取方式的样本为所抽取的20名学生本年度的考试成绩,样本容 量为20;第三种抽取方式的样本为所抽取的100名学生本年度的考试成 绩,样本容量为100.3,(2)三种抽取方式中,第一种采用的是简单随机抽样法;第二种采用 的是系统抽样法和简单随机抽样法;第三种采用的是分层抽样法和简单 随机抽样法.6,(3)第一种方式抽样的步骤:第一步,用抽签法在这20个班中任意抽 取一个班;第二步,从这个班中按学号用随机数表法或抽签法抽取20名 学生,考察其考试成绩.V第二种方式抽样的步骤如下:第一步,用简单随机抽样法从第一个班中 任意抽取一名学生,记其学号为a;第二步,在其余的19个班中,选取学 号为a的学生,加上第一个班中的一名学生,共计20人.9,第三种方式抽样的步骤如下:第一步,分层.因为若按成绩分,其中 优秀生共150人,良好生共600人,普通生共250人,所以在抽取样本 时,应该把全体学生分成三个层次;第二步,确定各个层次抽取的人 数.因为样本容量与总体的个数之比为100:1 000=1:10,所以在每个 层次中抽取的个体数依次为下,箸,*,即15,60,25;第三步,按层 次分别抽取.在优秀生中用简单随机抽样法抽15人;在良好生中用简 单随机抽样法抽取60人;在普通生中用简单随机抽样法抽取25人.12,学后反思 本题主要考查数理统计中一些基本的概念和方法.做这种题目 时,应该注意叙述的完整性和条理性.举一反三4.判断下面这几个抽样调查选取样本的方法是否合适.一啤酒厂为了了解其产品的质量情况,在其生产流水线上 每隔1 000瓶选取一瓶检验其质量;(2)一手表厂欲了解611岁少年儿童带手表的比例,周末来 到一家业余艺术学校调查200名在那里学习的学生;(3)为调查全校学生对购买正版书籍、唱片和软件的支持率,用简单随机抽样方法在全校所有的班级中抽取8个班级,调查 这8个班级中所有学生对购买正版书籍、唱片和软件的支持率;(4)为调查一个省的环境污染情况,调查省会城市的环境污染 情况.解析:(1)合适;(2)不合适,这所学校的200名学生不能代表全部 的611岁儿童;(3)合适;(4)不合适,调查的城市为省会,不满足随机抽样的随机性和机会均等性原理.易错警示【例】下列抽取样本的方式是否属于简单随机抽样?并说明理由.(1)从无限多个个体中抽取100个个体作样本.(2)盒子里共有80个零件,从中选出5个零件进行质量检查,在抽样操 作时,从中任意拿出一个零件进行质量检验后,再把它放回盒子中.错解(1)是简单随机抽样,因为样本是随机任意抽取的.(2)是简单随机抽样,因为就是从80个零件中任取5个零件的抽样.错解分析 上述两问题不具有简单随机抽样的特点:不放回、有限性.正解(1)不是简单随机抽样,由于被抽取样本的总体的个数不是有 限的而是无限的.(2)不是简单随机抽样,由于它是放回抽样,而简单随机抽样的前提 是不放回抽样.考点演练10.(2010茂名模拟)一个总体中有100个个体,随机编号0,1,2,99.依编号顺序平均分成10个小组,组号依次为1,2,3,10.现用系统抽样方法抽取一个容量为10的样本,规定如果在第一组随机抽取的号码为t,则在第k组中抽取的号码个位数 字与t+k的个位数字相同,若t=7,则在第8组中抽取的号码应是.解析:t+k=7+8=15,第8组中75的个位数字与t+k的个位数字相同,所以为75.答案:7511.某校有在校高中学生1 600人,其中高一学生520人,高二学生500 人,高三学生580人.如果想抽查其中的80人来调查学生的消费情况,考 虑到学生的年级高低消费情况有明显差别,而同一年级内消费情况差异 较小,应当采用 抽样,高三学生中应抽查 人.解析 因为不同年级的学生消费情况有明显的差别,所以应采用分层抽 样.由于520:500:580=26:25:29,于是将80分成26:25:29三部分,设三部分各抽个体数分别为26x,25x,29x,则26x+25x+29x=80,解得x=l,故高三年级中应抽取29 x 1=29(人).答案分层 2912.某校高中三年级有253名学生,为了解他们的身体状况,准备按1:5的比例抽取一个样本,试写出用系统抽样法进行抽样的过程.解析 第一步,计算要抽取的个体数:汉=50。,所以先从253个个 5 5体中随机剔除3个;第二步,把剩下的250名学生随机编号为:250,然后分组为15,6 10,,246250;第三步,在15之 间任选一个号,记为i(1 4 i45),然后依次在第n组选取i+(n-1)x 5号(24n450).这样就得到所需的样本.第二节用样本估计总体基础梳理1.作频率分布直方图的步骤(1)求极差(即一组数据中 与 的差);(2)决定 与;(3)将数据?一(4)列 一一;(5)画 一2.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的,就得到频率分布折线图;一(2)总体密度曲线:随着 的增加,作图时 增加,_减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲3.众数、中位数、平均数(1)在一组数据中,出现次数.一的数据叫做这组数据的众数.(2)将一组数据按大小依次排列把处在,位置的一个数据(或中间 两个数据的平均数)叫做这组数据的中位数1(3)如果有n个数下,2Z,那么:叫做这n个数的平均数.-u-4.标准差和方差(1)标准差是样本数据到平均数的一种平均距离;(2)s=(3)方差4=(%是样本数据,n 是样本容量,x是样本平均数).5.用茎叶图刻画数据有两个优点所有的信息都可以从;茎叶图便于:能够展示数据的分布情况.但当样本数据较多或数据位数较多时,茎叶图的效果就不是很好 了.典例分析 题型一图形信息题【例1】为了了解九年级学生中女生的身高(单位:c m)情况,某 中学对九年级女生进行了一次身高测量,所得数据整理后,列出了 频率分布表如下:分组频数频率145.5-149.510.02149.5-153.540.08153.5-157.5200.40157.5-161.5150.30161.5-165.580.16165.5-169.5mn合计MN(1)求出表中m,n,M,N所表示的数分别是多少;(2)画出频率分布直方图;(3)试问:全体女生中身高在哪组范围内的人数最多?估计九年级学 生中女生的身高在161.5 c m以上的概率.分析 每一组距的频率是该组距中个体的个数与所研究对象的个数之 比;所有组距的频率之和为1;每一组距的频率是频率分布直方图中该 组距所对应的矩形的面积.(2)作出直角 出直方图如图:频率解(1)M=50,m=50-(1+4+20+15+8)=2,N=1,号W=0 4 横轴表示身高,画(3)在153.5-157.5 c m范围内最多,估计身高在161.5 c m以上的概十,10率为=0.2.频率学后反思 频率分布直方图反映样本的频率分布(其中纵轴表示猫I,频率=/譬一,横轴表示样本数据)秤不忠里直方图中每一个矩形的面积是样本数据落在这个区间上的频率,所有的小 矩形的面积之和等于1,即频率之和为1.由此可以估计样本数据落在某个区 间的频率或概率或鲁总体的数字特征.举一反三1.一个社会调查机构就某地居民的月收入调查了 10 000人,并根 据所得数据画了样本的频率分布直方图(如图).为了分析居民的 收入与年龄、学历、职业等方面的关系,要从这10 000人中再用 分层抽样方法抽出100人作进一步调查,则在2 500,3 000)(元)月 收入段应抽出 人.解析:.月收入在2 500,3 000)(元)段的频率为0.000 5 x 50 0=0.25,应抽人数为 100 x 0.25=25(人).答案:25题型二用样本分布估计总体【例2】对某电子元件进行寿命追踪调查,情况如下:寿命(h)10 0,200)20 0,300)30 0,400)40 0,500)50 0,60 0 个数2030804030(1)列出频率分布表;(2)画出频率分布直方图;(3)估计电子元件寿命在100 1T400 h以内的频率;(4)估计电子元件寿命在400 h以上的频率.分析 从分组中看寿命在某一范围内的电子元件的比例即寿命在 该范围内的频率.解(1)样本频率分布表如下:寿命(h)频数频率10 0,200)200.1020 0,300)300.1530 0,400)800.4040 0,500)300.1550 0,60 0 300.15合计2001(2)频率分布直方图如图:(3)电子元件寿命在100 h400 h以内的频数为130,则频率%130 八为-=0.65.200(4)寿命在400 h以上的电子元件的频数为70,则频率斗 70八为-=0.35.200学后反思利用样本的频率分布可近似地估计总体的分布.从本例 可以看出,要比较准确地反映出辩分布的情况,必须准确地作 出频率分布表或频率分布直方图,充分利用所给的数据正确地作 出估计.举一反三2.(2009银川模拟)某校对高三年级的学生进行体检,现将高三男生的体重(单位:kg)数据进行整理后分成五组,并绘制频率分布直方图(如下图).根据一般标准,高三男生的体重超过65 kg属于偏胖,低于55 kg属于偏瘦.已知图中从左到右第一、第三、第四、第五小组的频率分别为0.25、0.20.0.10.0.05,第二小组的频数为400,则该校高三年级的男生总数和体重正常的频率分别为(A.1 000,0.50C.800,0.60的频率为1-B.80 0,0.50D.1 000,0.60解析:由题知,体重在 55,60)(0.25+0.20+0.10+0.05)=0.40,又频数为400,故总人数为 1000;体重正常的频率为0.4+0.2=0.60.答案:D题型三 用样本的数字特征估计总体的数字特征【例3】对划艇运动员甲、乙二人在相同的条件下进行了 6次测试,测得他们最大速度的数据如下:甲:27,38,30,37,35,31;乙:33,29,38,34,28,36.根据以上数据,试判断他们谁更优秀.分析要判断甲、乙两人谁更优秀,只需计算它们的平均数与方差即可.已知一组数据再,%2,%3工,则 平均数=%+.2+13+%2 I-方差(%-%),标准差5=i=l V i=l X解考=:(27+38+30+37+35+31)=33,1坛=-(33+29+38+34+28+36)=33,s2甲(27-33)2+(38-33)2+(30-33)2+(37-33)2+(35-33)2=1x94=15-,6 3S2乙=,(33_33)2+(29 33)2+(38 33)2+(34_33+(28_33+(36 33)2 6 L=x 76=12?6 32 2.X甲=X乙,S甲 S乙由此可以说明,甲、乙二人的最大速度的平均值相同,但乙比甲更稳定,故乙比甲更优秀.学后反思 平均数反映了数据取值的平均水平,标准差、方差描述了一 组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越 大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.举一反三3.据调查,某公司的33名职工的月工资(单位:元)如下:职务董事长副董事长董事总经理经理管理员职员人数11215320工资5500500035003000250020001500(1)计算该公司职工月工资的平均数、中位数、众数;(2)假如副董事长的工资从5 000提升到20 000,董事长的 工资从5 500提升到30 000,那么新的平均数、中位数、众数 又是多少?(3)你认为哪个统计量更能反映这个公司员工的工资水平?结合此问题谈谈你的看法.解析:(1)该公司职工的月工资的平均数为x=(5 500+5 000+2 x 3 500+3 000+5 x 2 500+3 x 2 000+20 x 13350 0)=x 69 0 0 0-2 0 91.33中位数是1 50 0,众数是1 50 0.(2)当副董事长的工资从5 000提升到20 000,董事长的工资从5500提升到30 000时,所得新数据的平均数为=30 000+20 0 0 0+2 x 3 500+3 000+5 x 2 500+3 x 2/V33 i000+20 x 1 500)=x 108 50 0-3 288.33所以平均数为3 288,中位数是1 500,众数是1 50 0.(3)在这个问题中,中位数或众数均能反映该公司员工的工资水平.因为公司中少数人的月工资额与大多数人的月工资额差别较大,这 样导致了平均数与中位数的偏差较大,所以平均数不能客观真实地 反映这个公司员工的工资水平.题型四 综合问题【例4】(12分)某种瓶装溶液,因为装瓶机的不稳定性,所以很可能每 瓶装的容量都不是标准的容量.我们随机抽出了 20瓶,测得它们的容量(单位:百毫升)如下:12.1 11.9 12.2 12.2 12.0 12.1 12.9 12.112.3 12.5 11.7 12.4 12.3 11.8 11.3 12.111.4 11.6 11.2 12.2(1)根据数据列出频数分布表,画出频数分布图;(2)计算出这组数据的平均数和标准差(结果精确到0.01);(3)结合(1)、(2)的结果,描述一下样本的分布情况,并根据实际 意义写一个简短的报告(对总体情况作出估计).分析 现实中对一组数据,往往是从多角度、多层面进行分析.主要标 准是平均数、方差的大小,频率分布直方图是否集中等.解(1)频数分布表如下:分组频数11.0,11.5)311.5,12.0)412.0,12.5)1112.5,13.0 2_ i 740 a(2)平均数 x=(12.1+11.9+12.2+.+12.2)=。12.0 2.29.20.6,标准差S /(12.1-12.0 2)2+(11.9-12.0 2)2+.+(12.2-12.0 2V 20=0.41.8,(3)标准差相对于平均数来说比较小;从频数分布图中可以看出,每 瓶的容量大致位于1 150毫升到1 250毫升之间.因此判断装瓶机工作稳定.12,学后反思 数据的图形分布情况和数字特征从不同方面对总体(或样本)的分布作出了刻画.在解决实际问题时,这两个方面应结合起来,发挥各 自的长处,以便能更清晰地描绘总体(或样本)的分布.举一反三4.(2009海南、宁夏)某工厂有工人1 000名,其中250名工人参加过 短期培训(称为A类工人),另夕卜750名工人参加过长期培训(称为B类工 人).现用分层抽样方法(按A类、B类分二层)从该工厂的工人中共抽查 100名工人,调查他们的生产能力(此处生产能力指一天加工的零件数),从A类工人中的抽查结果和从B类工人中的抽查结果分别如下表1和表2.表 1:生产能 力分组100,110)110,120)120,130)130,140)140,150)人数48X53生产能 力分组110,120)120,130)130,140)140,150)人数6y3618先确定X、y,再完成下列频率分布直方图,就生产能力而言,A类工人中个体间的差异程度与B类工人中个体间的差异程度哪个 更小?(不用计算,可通过观察直方图直接回答结论)频率/组距频率/组距0.0360.0320.0280.0240.0200.0160.0120.0080.004OITTT+xl+二二二二I TFt-J-t-u-4.4.二二二二IL 厂厂100 110 120 130 140 15畦产能力0.048 0.044 0.040 0.036 0.032 0.028 0.024 0.0200.016 0.012 0.008 0.004,O二二一 二卜-T1-.I r I-卜L 二 I-二一lrrt-4-4-l-L LL300级别IIIIIIIIIIIIVIV状况优良轻微污染轻度 行染中度 万染中度重 万染重度 万染(1)求直方图中X的值;(2)计算一年中空气质量分别为 良和轻微污染的天数.解析:(1)根据频率分布直方图可知,:(3 2 7 3 8 1“H9x 1-1-1-1-1-x 50+50-_ 11825 365 1825 1825 9125)J 18250空气质量为Y的天数=(Y对应的频率。组距)x组距*365天,所以一年中空气质量为良和轻微污染的天数分别是 x 50 x 365=119(天)和 x 50 x 365=100(天).119 21825036512.为了解A、B两种轮胎的性能,某汽车制造厂分别从这两种轮胎 中随机抽取了 8个进行测试,下面列出了每个轮胎行驶的最远里程数(单位:1 000 km):轮胎A:96,112,97,108,100,103,86,98轮胎B:108,101,94,105,96,93,97,106(1)分别计算A、B两种轮胎行驶的最远里程数的平均数、中位数;(2)分别计算A、B两种轮胎行驶的最远里程数的极差、标准差;(3)根据以上数据你认为哪种型号的轮胎性能更加稳定?解析(1)A轮胎行驶的最远里程数的平均数为96+112+97+108+100+103+86+98-=1008f/、花4100+98。中位数为一一=B轮胎行驶的最远里程数的平均数为108+101+94+105+96+93+97+106-=1008,、业乙 u 101+97 中位数为一-1=99A轮胎行驶的最远里程数的极差为112-86=26,标准差为S=42+122+32+82+0+32+142+22-=-h 7.4328B轮胎行驶的最远里程数的极差为10 8-9 3=15,标准差浜=严三手亘逵省(3)由于B轮胎行驶的最远里程数的极差和标准差较小,所以B轮胎性能 更加稳定.第三节变量间的相关关系基础梳理1.两个变量间的相关关系(1)正相关如果一个变量的值由小变大时另一个变量的值也,这种相关称为正相关.(2)负相关如果一个变量的值由小变大时另一个变量的值由大变小,这种相关称 为负相关.(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在 就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.线性回归方程(1)最小二乘法 便 的方法叫做最小二乘法.(2)线性回归方程方程 是两个具有线性相关关系的变量的一组数据y=bxa 的线性回归方程,其中2方是待定参数。(玉,乂),(%2,%),(z,y)nz玉乂一 而h-E2 2x.nxi=la=y-bx典例分析题型一相关关系的判断【例1】下列两个变量之间的关系是相关关系的是()A.正方体的棱长与体积B.单位面积产量为常数时,土地面积与产量C.日照时间与水稻的亩产量D.电压一定时,电流与电阻分析函数关系和相关关系都是指两个变量之间的关系,函数关系 是两变量之间的一种确定关系,而相关关系是一种不确定关系.解 A、B、D中两个变量间的关系都是确定的,所以是函数关系,C中的两个变量间是相关关系,对于日照时间一定的水稻,仍可以有 不同的亩产.学后反思判断两个变量间的关系是函数关系还是相关关系,关 键是判断两个变量间的关系是否是确定的.若确定,则是函数关系;若不确定,则是相关关系.举一反三1.有五组变量:汽车的重量和汽车每消耗1升汽油所行驶的平 均路程;平均日学习时间和平均学习成绩;某人每日吸烟 量和其身体健康情况;正方形的边长和面积;汽车的载重量 和百公里耗油量.其中两个变量成正相关的是()A.B.C.D.解析:由相关的有关概念可知为正相关,为负相关,为函数关系.答案:C【例2】下面是水稻产量与施化肥量的一组观测数据施化肥量15202530354045水稻产量320330360410460470480(1)将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水 稻产量会一直随施化肥量的增加而增长吗?分析 判断变量间是否是线性相关,一种常用的简便可行的方法就是作 散点图.解(1)散点图如下:京:.Dvv 40 0-.,30 0-0 20 0-10 0-I I I I I I 1111 O 5 10 15 20 25 30 35 40 45 50 x(2)从图中可以发现施化肥量与水稻产量具有线性相关 关系.当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量 和水稻产量近似成线性相关关系,但水稻产量只是在一定 范围内随着化肥施用量的增加而增长.学后反思 散点图是由大量数据点分布构成的,是定义在 具有相关关系的两个变量基础之上的,对于性质不明确的 两组数据可先作散点图,直观地分析它们有无关系及关系 的密切程度.举一反三2.下表是某地的年降雨量(mm)与年平均气温(C)的数据资 料,两者是线性相关关系吗?求回归直线方程有意义吗?年平均气温()12.5112.8412.8413.6913.3312.4713.0 5年降雨量(mm)748542507813574701432解析:以x轴为年平均气温,y轴为年降雨量,可得相应的散点图如图 所示.因为图中各点并不在一条直线的附近,所以两者不具有线性相 关关系,没必要用回归直线进行拟合.如果用公式求得回归直线方程 也是没有意义的.年降雨量(mm)80 0-*70 0-60 0-50 0-*400;0 12 12.5 13 13.5 年平均气温()题型二求回归直线方程【例3】在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水 中的溶解度,得观测结果如下:温度(X)010205070溶解度(y)66.776.085.0112.3128.0由资料看y对x呈线性相关,试求回归直线方程.分析 利用公式确定参数a、b的值,从而求出回归直线方程.解元=30,_ 66.7+76.0+85.0+112.3+128.0 2y=-=93.6.55工西卜一 5斤b=气-x 0.880 9.Z=1a=y-bx=93.6-0.880 9 x30 67.173.回归直线方程为9=0.880 9x+67.173.学后反思 因为y对x呈线性相关关系,所以可以用一元线性相关的方法解决问题.(1)利用公式Z*一师 i=ln2 2乙玉-nxa=y-bx来计算回归系数,有寻常制表对应求出王王,以便于求和.(2)本题在计算时可以借助计算器.举一反三3.(2009日照模拟)某中学期中考试后,对成绩进行分析,从某班中选出5名学 生的总成绩和外语成绩如下表:学生12345总成绩(x)482383421364362外语成绩(y)7865716461则外语成绩对总成绩的回归直线方程是_解析:设回归直线方程是J)=bx+a,将以上数据代入nS Xnxyb=E-1 g 2 2,X%一nxi=l 1a=ybx.所以回归直线方程为9=0.132x+14.7.答案:y=O.132x+14.7题型三利用回归直线方程对总体进行估计【例4】(12分)下表是几个国家近年来男性与女性的平均寿命(单位:岁)情况:国家男性平均寿命(X)女性平均寿(y)调查年号中国70732000韩国73.480.42002马来西亚7175.52003美国78.182.62005法国75.5822001日本78.685.62004(1)如果男性与女性的平均寿命近似成线性关系,求它们之间的回归直线方程;(2)科学家预测,到2075年,加拿大男性平均寿命为87岁.现请你预测,到2075 年,加拿大女性的平均寿命(精确到0.1岁).分析(1)本题若没有告诉我们y与x间是呈线性相关的,应首先进行相关性检验.如果两个变量不具备线性相关关系,或者说它们之间相关关系不显著时,即使求 出回归直线方程也是没有意义的,而且其估计与预测也是不可信的.(2)求回归直线方程的关键:计算出五.解 列表如下1123456X.7073.47178.175.578.67380.475.582.68285.651105901.365360.56451.0661916728.16.46 6 0 可得 S%/、/=35742.08,S xf=3330 6.38,x74.43,57=79.85.x 5539.82.i=l i=l.6(1)设所求回归直线的方程为9=属+生6 _S Xiyi-6xyb=与1-=S6,七L23,a=pbx 11.7.6 9 9 67.462 xf-6xi=l所求回归直线方程为j)=L23x-117.8(2)当%=87 时,j)=l 23x871 L7=953 l95.3.x-o10.二可预测,到20 75年,加拿大女性的平均寿命为95.3岁.12,学后反思 利用回归直线方程对总体进行估计时,需先求出回归直线方程,然后代入回归直线方程得到估计值.举一反三4.下表是某小卖部6天卖出热茶的杯数(y)与当天气温(x)的对 比表.气温/261813104-1杯数202434385064(1)将上表中的数据制成散点图;(2)你能从散点图中发现当天气温与热茶杯数近似成什么关系吗?(3)如果近似成线性关系的话,请求出回归直线方程来近似地表示这种线性关系;(4)如果某天的气温是-5 时,预测这天小卖部卖出热茶的杯数.解析(1)散点图如图:AQQ网阿数 杯茶热5 0 5 10 15 20 25当天气a/。(2)从散点图中发现当天气温与热茶杯数近似成线性相关关 系.(3)求出回归直线方程(用来近似地表示这种线性关系),用j)=-1.6477x+57,557来近似地表示这种线性关系(4)如果某天的气温是-5 ,用-1.6477x+57.557预测这天小卖部卖出热茶的杯数约为/=1.6477x(5)+57.557266考点演练10.(2009滨州模拟)某小卖部为了 了解热茶销量y(杯)与气 温x()之间的关系,随机统计了某4天卖出的热茶的杯数与当 天气温,并制作了对照表如下:气温()181310-1杯数24343864由表中数据算得线性回归方程/=b x+a中的b a 2,预测当气温为-5时,热茶的销量约为解析:由题意知元=10,歹=40,所以样本中心点为(10,40),因为样本中心点必在线性回归方程上,易得a=60,所以线性回 归方程为j)=-2x+60,根据回归方程的预测,当气温为-5 C 时,热茶销量为(-2)x(-5)+60=70.答案:7011.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量X(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.X3456y2.5344.5请画出上表数据的散点图;请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程/=&+(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3 x 2.5+4 x 3+5 x 4+6 义 4.5=66.5)解析(1)如图,从散点图看出两组变量具有线性相关关系.P(能耗:吨标准煤)4.5-132.5O3 4 5 6%产量吨)4(2)Z x/j/f=3x2.5+4x3+5x4+6x4.5=66.5,%=1-3+4+5+6JC=4.5,y=2.5+3+4+4.5=3.5,442 x?=32+42+52+62=86,z=l66.5-4x4.5x3.5 66.5-63b=-5-=-_ 864x4.52 86-81a=y bx=3.5-0.7 x 4.5=0.35.=0 7故线性回归方程为y
展开阅读全文