1、必修3知识点总结统计2.1.1 简单随机抽样1简单随机抽样,也叫纯随机抽样。就是从总体中不加任何分组、划类、排队等,完全随机地抽取调查单位。特点是:每个样本单位被抽中的可能性相同(概率相等),样本的每个单位完全独立,彼此间无一定的关联性和排斥性。简单随机抽样是其它各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。2简单随机抽样常用的方法: (1)抽签法;随机数表法;计算机模拟法;使用统计软件直接抽取。在简单随机抽样的样本容量设计中,主要考虑:总体变异情况;允许误差范围;概率保证程度。3抽签法: (1)给调查对象群体中的每一个对象编号; (2)准备抽签的工具,实
2、施抽签 (3)对样本中的每一个个体进行测量或调查 例:请调查你所在的学校的学生做喜欢的体育活动情况。4随机数表法: 例:利用随机数表在所在的班级中抽取10位同学参加某项活动。2.1.2系统抽样1系统抽样(等距抽样或机械抽样):把总体的单位进行排序,再计算出抽样距离,然后按照这一固定的抽样距离抽取样本。第一个样本采用简单随机抽样的办法抽取。K(抽样距离)=N(总体规模)/n(样本规模)前提条件:总体中个体的排列对于研究的变量来说,应是随机的,即不存在某种与研究变量相关的规则分布。可以在调查允许的条件下,从不同的样本开始抽样,对比几次样本的特点。如果有明显差别,说明样本在总体中的分布承某种循环性规
3、律,且这种循环和抽样距离重合。2系统抽样,即等距抽样是实际中最为常用的抽样方法之一。因为它对抽样框的要求较低,实施也比较简单。更为重要的是,如果有某种与调查指标相关的辅助变量可供使用,总体单元按辅助变量的大小顺序排队的话,使用系统抽样可以大大提高估计精度。2.1.3分层抽样1分层抽样(类型抽样):先将总体中的所有单位按照某种特征或标志(性别、年龄等)划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系用抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。两种方法:1先以分层变量将总体划分为若干层,再按照各层在总体中的比例从各层中抽取。2先以分层变量将总体划分为若干层
4、,再将各层中的元素按分层的顺序整齐排列,最后用系统抽样的方法抽取样本。2分层抽样是把异质性较强的总体分成一个个同质性较强的子总体,再抽取不同的子总体中的样本分别代表该子总体,所有的样本进而代表总体。分层标准:(1)以调查所要分析和研究的主要变量或相关的变量作为分层的标准。(2)以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。(3)以那些有明显分层区分的变量作为分层变量。3分层的比例问题: (1)按比例分层抽样:根据各种类型或层次中的单位数目占总体单位数目的比重来抽取子样本的方法。 (2)不按比例分层抽样:有的层次在总体中的比重太小,其样本量就会非常少,此时采用该方
5、法,主要是便于对不同层次的子总体进行专门研究或进行相互比较。如果要用样本资料推断总体时,则需要先对各层的数据资料进行加权处理,调整样本中各层的比例,使数据恢复到总体中各层实际的比例结构。例1 某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请用抽签法和随机数表法设计抽样方案.解 抽签法:第一步:将18名志愿者编号,编号为1,2,3,18.第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签;第三步:将18个号签放入一个不透明的盒子里,充分搅匀;第四步:从盒子中逐个抽取6个号签,并记录上面的编号;第五步:所得号码对应的志愿
6、者,就是志愿小组的成员.随机数表法:第一步:将18名志愿者编号,编号为01,02,03,18.第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读;第三步:从数7开始,向右读,每次取两位,凡不在0118中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09.第四步:找出以上号码对应的志愿者,就是志愿小组的成员.例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施.解 (1)将每个人随机编一个号由0001至1003.(2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机
7、编号由0001至1000.(4)分段,取间隔k=100将总体均分为10段,每段含100个工人.(5)从第一段即为0001号到0100号中随机抽取一个号l.(6)按编号将l,100+l,200+l,,900+l共10个号码选出,这10个号码所对应的工人组成样本.例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为32523,从3万人中抽取一个300人 的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程.解 应采取分层抽样的方法.过程如下:(1)将3万人分为五层,其中一个乡镇为一层.(2)按照样本容量的比例随机抽取各乡镇应抽取的
8、样本.300=60(人);300=40(人);300=100(人);300=40(人);300=60(人),因此各乡镇抽取人数分别为60人,40人,100人,40人,60人.(3)将300人组到一起即得到一个样本.2.2.2用样本的数字特征估计总体的数字特征1、本均值:2、样本标准差:3用样本估计总体时,如果抽样的方法比较合理,那么样本可以反映总体的信息,但从样本得到的信息会有偏差。在随机抽样中,这种偏差是不可避免的。虽然我们用样本数据得到的分布、均值和标准差并不是总体的真正的分布、均值和标准差,而只是一个估计,但这种估计是合理的,特别是当样本量很大时,它们确实反映了总体的信息。4(1)如果把
9、一组数据中的每一个数据都加上或减去同一个共同的常数,标准差不变.(2)如果把一组数据中的每一个数据乘以一个共同的常数k,标准差变为原来的k倍.(3)一组数据中的最大值和最小值对标准差的影响,区间的应用;“去掉一个最高分,去掉一个最低分”中的科学道理.例1 为了解A,B两种轮胎的性能,某汽车制造厂分别从这两种轮胎中随机抽取了8个进行测试,下面列出了每一个轮胎行驶的最远里程数(单位:1 000 km)轮胎A96,112,97,108,100,103,86,98轮胎B108,101,94,105,96,93,97,106(1)分别计算A,B两种轮胎行驶的最远里程的平均数,中位数;(2)分别计算A,B
10、两种轮胎行驶的最远里程的极差、标准差;(3)根据以上数据你认为哪种型号的轮胎性能更加稳定?解 (1)A轮胎行驶的最远里程的平均数为:=100,中位数为: =99;B轮胎行驶的最远里程的平均数为:=100,中位数为:=99.(2)A轮胎行驶的最远里程的极差为:112-86=26,标准差为:s=7.43;B轮胎行驶的最远里程的极差为:108-93=15,标准差为:s= =5.43.(3)由于A和B的最远行驶里程的平均数相同,而B轮胎行驶的最远里程的极差和标准差较小,所以B轮胎性能更加稳定.例2(14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min抽取一包产品,称其重量,分别记
11、录抽查数据如下:甲:102,101,99,98,103,98,99;乙:110,115,90,85,75,115,110.(1)这种抽样方法是哪一种?(2)将这两组数据用茎叶图表示;(3)将两组数据比较,说明哪个车间产品较稳定.解 (1)因为间隔时间相同,故是系统抽样.(2)茎叶图如下:(3)甲车间:平均值:=(102+101+99+98+103+98+99)=100,方差:s12=(102-100)2+(101-100)2+(99-100)23.428 6.乙车间:平均值:=(110+115+90+85+75+115+110)=100,方差:s22=(110-100)2+(115-100)2
12、+(110-100)2228.571 4.=,s12s22,甲车间产品稳定.2.3.2两个变量的线性相关1、概念: (1)回归直线方程 (2)回归系数2最小二乘法3直线回归方程的应用 (1)描述两变量之间的依存关系;利用直线回归方程即可定量描述两个变量间依存的数量关系 (2)利用回归方程进行预测;把预报因子(即自变量x)代入回归方程对预报量(即因变量Y)进行估计,即可得到个体Y值的容许区间。 (3)利用回归方程进行统计控制规定Y值的变化,通过控制x的范围来实现统计控制的目标。如已经得到了空气中NO2的浓度和汽车流量间的回归方程,即可通过控制汽车流量来控制空气中NO2的浓度。4应用直线回归的注意
13、事项 (1)做回归分析要有实际意义; (2)回归分析前,最好先作出散点图; (3)回归直线不要外延。5. 回归直线方程的推导 设x与y是具有线性相关关系的两个变量,且相应于样本的一组观测值的n个点的坐标分别是:,下面给出回归方程的推导。 设所求的回归方程为,其中是待确定的参数,那么:,(),样本中各个点的偏差是 ,()显然,上面的各个偏差的符号有正、有负,如果将他们相加会相互抵消一部分,因此他们的和不能代表n个点与回归直线在整体上的接近程度,而是采用n个偏差的平方和来表示n个点与相应直线(回归直线)在整体上的接近程度。即求出当取最小值时的的值,就求出了回归方程。 (一) 先证明两个在变形中用到
14、的公式:公式(1) 其中 因为所以公式() 因为所以(二)推导:将的表达式的各项先展开,再合并、变形 -展开 -以a,b为同类项,合并 -以a,b的次数为标准整理 -将数据转化为平均数 -配方法 -展开 -整理 -用公式(一)、(二)变形 -配方 在上式中,共有四项,后两项与a,b无关,为常数;前两项是两个非负数的和,因此要使得区的最小值,当且仅当前两项的值都为0。所以 或 -用公式(一)、(二)变形得 (三)总结规律:上述推倒过程是围绕着待定参数a,b进行的,只含有的部分是常数或系数,用到的方法有(1)配方法,有两次配方,分别是a的二次三项式和b的二次三项式;(2)变形时,用到公式(一)、(
15、二)和整体思想;(3)用平方的非负性求最小值。(4)实际计算时,通常是分步计算:先求出,再分别计算, 或,的值,最后就可以计算出a,b的值。6相关系数r统计中常用相关系数r来衡量两个变量之间的线性相关的强弱,当不全为零,yi也不全为零时,则两个变量的相关系数的计算公式是:r就叫做变量y与x的相关系数(简称相关系数)说明:(1)对于相关系数r,首先值得注意的是它的符号,当r为正数时,表示变量x,y正相关;当r为负数时,表示两个变量x,y负相关;(2)另外注意r的大小,如果,那么正相关很强;如果,那么负相关很强;如果或,那么相关性一般;如果,那么相关性较弱例1测得某国10对父子身高(单位:英寸)如
16、下:父亲身高()60626465666768707274儿子身高()63.565.26665.566.967.167.468.370.170(1)对变量y与x进行相关性检验;(2)如果y与x之间具有线性相关关系,求回归直线方程;(3)如果父亲的身高为73英寸,估计儿子身高解:(1),所以,所以y与x之间具有线性相关关系(2)设回归直线方程为,则, 故所求的回归直线方程为(3)当英寸时,所以当父亲身高为73英寸时,估计儿子的身高约为69.9英寸点评:回归直线是对两个变量线性相关关系的定量描述,利用回归直线,可以对一些实际问题进行分析、预测,由一个变量的变化可以推测出另一个变量的变化这是此类问题常见题型例210名同学在高一和高二的数学成绩如下表:7471726876736770657476757170767965776272其中x为高一数学成绩,y为高二数学成绩(1)y与x是否具有相关关系;(2)如果y与x是相关关系,求回归直线方程解:(1)由已知表格中的数据,利用计算器进行计算得, 由于,由知,有很大的把握认为x与y之间具有线性相关关系 (2)y与x具有线性相关关系,设回归直线方程为,则,所以y关于x的回归直线方程为10