1、高中数学必修 3 知识点总结第二章 统计2.1.1 简单随机抽样1简单随机抽样,也叫纯随机抽样。就是从总体中不加任何分组、划类、排队等,完全随机地抽取调查单位。特点是:每个样本单位被抽中的可能性相同(概率相等) ,样本的每个单位完全独立,彼此间无一定的关联性和排斥性。简单随机抽样是其它各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。2简单随机抽样常用的方法:(1)抽签法;随机数表法;计算机模拟法;使用统计软件直接抽取。在简单随机抽样的样本容量设计中,主要考虑:总体变异情况;允许误差范围;概率保证程度。3抽签法 :(1)给调查对象群体中的每一个对象编号;(2)
2、准备抽签的工具,实施抽签(3)对样本中的每一个个体进行测量或调查例:请调查你所在的学校的学生做喜欢的体育活动情况。4随机数表法:例:利用随机数表在所在的班级中抽取 10 位同学参加某项活动。2.1.2 系统抽样1系统抽样(等距抽样或机械抽样) :把总体的单位进行排序,再计算出抽样距离,然后按照这一固定的抽样距离抽取样本。第一个样本采用简单随机抽样的办法抽取。K(抽样距离) =N(总体规模) /n(样本规模)前提条件:总体中个体的排列对于研究的变量来说,应是随机的,即不存在某种与研究变量相关的规则分布。可以在调查允许的条件下,从不同的样本开始抽样,对比几次样本的特点。如果有明显差别,说明样本在总
3、体中的分布承某种循环性规律,且这种循环和抽样距离重合。2系统抽样, 即等距抽样是实际中最为常用的抽样方法之一。 因为它对抽样框的要求较低, 实施也比较简单。 更为重要的是,如果有某种与调查指标相关的辅助变量可供使用,总体单元按辅助变量的大小顺序排队的话,使用系统抽样可以大大提高估计精度。2.1.3 分层抽样1分层抽样(类型抽样) :1先将总体中的所有单位按照某种特征或标志(性别、年龄等)划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系用抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。两种方法:1先以分层变量将总体划分为若干层,再按照各层在总体中的比例从各层中
4、抽取。2先以分层变量将总体划分为若干层,再将各层中的元素按分层的顺序整齐排列,最后用系统抽样的方法抽取样本。2分层抽样是把异质性较强的总体分成一个个同质性较强的子总体, 再抽取不同的子总体中的样本分别代表该子总体, 所有的样本进而代表总体。分层标准:(1)以调查所要分析和研究的主要变量或相关的变量作为分层的标准。(2)以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。(3)以那些有明显分层区分的变量作为分层变量。3分层的比例问题:(1)按比例分层抽样:根据各种类型或层次中的单位数目占总体单位数目的比重来抽取子样本的方法。(2)不按比例分层抽样:有的层次在总体中的比重
5、太小,其样本量就会非常少,此时采用该方法,主要是便于对不同层次的子总体进行专门研究或进行相互比较。如果要用样本资料推断总体时,则需要先对各层的数据资料进行加权处理,调整样本中各层的比例,使数据恢复到总体中各层实际的比例结构。例 1 某大学为了支援我国西部教育事业,决定从 2007 应届毕业生报名的 18 名志愿者中,选取 6 人组成志愿小组 .请用抽签法和随机数表法设计抽样方案 .解 抽签法:第一步:将 18 名志愿者编号,编号为 1,2,3,, , 18.第二步:将 18 个号码分别写在 18 张外形完全相同的纸条上,并揉成团,制成号签;第三步:将 18 个号签放入一个不透明的盒子里,充分搅
6、匀;第四步:从盒子中逐个抽取 6 个号签,并记录上面的编号;第五步:所得号码对应的志愿者,就是志愿小组的成员 .随机数表法:第一步:将 18 名志愿者编号,编号为 01,02,03,, , 18.第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第 8 行第 29 列的数 7 开始,向右读;第三步:从数 7 开始,向右读,每次取两位,凡不在 0118 中的数,或已读过的数,都跳过去不作记录,依次可得到 12,07,15,13,02,09.第四步:找出以上号码对应的志愿者,就是志愿小组的成员 .2例 2 某工厂有 1 003 名工人,从中抽取 10 人参加体检,试用系统抽样进行具体实施.
7、解 (1)将每个人随机编一个号由0001 至 1003.(2)利用随机数法找到 3 个号将这 3 名工人剔除 .(3)将剩余的 1 000 名工人重新随机编号由0001 至 1000.1 000(4)分段,取间隔k= 10=100 将总体均分为 10 段,每段含 100 个工人 .(5)从第一段即为 0001 号到 0100 号中随机抽取一个号 l.(6)按编号将 l,100+l ,200+l, , 900+l 共 10 个号码选出,这 10 个号码所对应的工人组成样本 .例 3 (14 分)某一个地区共有 5 个乡镇,人口 3 万人,其中人口比例为 3 2 5 2 3,从 3 万人中抽取一个
8、 300 人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程 .解 应采取分层抽样的方法 .过程如下:(1)将 3 万人分为五层,其中一个乡镇为一层 .(2)按照样本容量的比例随机抽取各乡镇应抽取的样本 .3 2300 15 =60(人); 300 15=40(人);5 2300 15 =100(人); 300 15=40(人);3300 15=60(人),因此各乡镇抽取人数分别为 60 人, 40 人, 100 人, 40 人, 60 人 .(3)将 300 人组到一起即得到一个样本 .2.1.4 用样本的数字特征估计总体的数字特征x
9、1、本均值:x1x2nxns2、样本标准差:2 2 22 (x x) (x x) (x x)1 2 nsn3用样本估计总体时,如果抽样的方法比较合理,那么样本可以反映总体的信息,但从样本得到的信息会有偏差。在随机抽样中,这种偏差是不可避免的。虽然我们用样本数据得到的分布、均值和标准差并不是总体的真正的分布、均值和标准差,而只是一个估计,但这种估计是合理的,特别是当样本量很大时,它们确实反映了总体的信息。4( 1)如果把一组数据中的每一个数据都加上或减去同一个共同的常数,标准差不变 .( 2)如果把一组数据中的每一个数据乘以一个共同的常数 k,标准差变为原来的 k 倍 .3( 3)一组数据中的最
10、大值和最小值对标准差的影响,区间 (x 3s, x 3s) 的应用;“去掉一个最高分,去掉一个最低分”中的科学道理 .例 1 为了解 A,B两种轮胎的性能,某汽车制造厂分别从这两种轮胎中随机抽取了 8 个进行测试,下面列出了每一个轮胎行驶的最远里程数(单位: 1 000 km )轮胎 A 96, 112, 97, 108, 100, 103, 86, 98轮胎 B 108, 101, 94, 105, 96, 93, 97, 106( 1)分别计算A,B 两种轮胎行驶的最远里程的平均数,中位数;( 2)分别计算A,B 两种轮胎行驶的最远里程的极差、标准差;( 3)根据以上数据你认为哪种型号的轮
11、胎性能更加稳定?解 ( 1)A 轮胎行驶的最远里程的平均数为:96 112 =100,97 108 100 103 86 98 8中位数为:100 =99 ;982B 轮胎行驶的最远里程的平均数为:108 101 94105 96 93 97 8106=100,101 97中位数为: =99.2(2) A 轮胎行驶的最远里程的极差为: 112-86=26 ,标准差为:s=242122328802321422=2212 7.43 ;B 轮胎行驶的最远里程的极差为: 108-93=15 ,标准差为:s=28212625824272326=1182 5.43.( 3)由于 A 和 B 的最远行驶里程
12、的平均数相同,而B 轮胎行驶的最远里程的极差和标准差较小,所以 B 轮胎性能更加稳定.例 2( 14 分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔 30 min 抽取一包产品,称其重量,分别记录抽查数据如下:甲: 102, 101, 99, 98, 103, 98, 99;乙: 110, 115, 90, 85, 75, 115, 110.( 1)这种抽样方法是哪一种?( 2)将这两组数据用茎叶图表示;( 3)将两组数据比较,说明哪个车间产品较稳定.解 ( 1)因为间隔时间相同,故是系统抽样 .( 2)茎叶图如下:4( 3)甲车间:平均值:x =117( 102+101+99+9
13、8+103+98+99) =100,方差: s 2=12=17( 102-100 )2+(101-100 )2+, +(99-100 )2 3.428 6.乙车间:平均值: x2 =17(110+115+90+85+75+115+110)=100,方差: s2=217( 110-100)2+(115-100) 2+, +(110-100) 2 228.571 4. x1 = x2, s12s 2,甲车间产品稳定 . 22.1.5 两个变量的线性相关1、概念 :( 1)回归直线方程( 2)回归系数2最小二乘法3直线回归方程的应用( 1)描述两变量之间的依存关系;利用直线回归方程即可定量描述两个变
14、量间依存的数量关系( 2)利用回归方程进行预测;把预报因子(即自变量 x)代入回归方程对预报量(即因变量 Y)进行估计,即可得到个体 Y 值的容许区间。( 3)利用回归方程进行统计控制规定 Y 值的变化,通过控制 x 的范围来实现统计控制的目标。如已经得到了空气中NO2 的浓度和汽车流量间的回归方程,即可通过控制汽车流量来控制空气中 NO2 的浓度。4应用直线回归的注意事项( 1)做回归分析要有实际意义;( 2)回归分析前,最好先作出散点图;( 3)回归直线不要外延。5. 回归直线方程的推导设 x 与 y 是 具 有 线 性 相 关 关 系 的 两 个 变 量 , 且 相 应 于样本 的 一组
15、观测 值 的 n 个 点 的 坐 标 分别是 :(x , y ),( x , y ),( x , y ), ,( x , y )1 1 2 2 3 3 n n,下面给出回归方程的推导。设所求的回归方程为y? bx a ,其中 a,b是待确定的参数,那么:y?i bxi a,( i 1, 23, , n ),5样本中各个点的偏差是 y y? y (bx a)i i i i,( i 12, ,3 , n )显然,上面的各个偏差的符号有正、有负,如果将他们相加会相互抵消一部分, ,因此他们的和不能代表 n 个点与回归直线在整体上的接近程度, 而是采用 n 个偏差的平方和 Q 来表示 n 个点与相应直
16、线 (回归直线) 在整体上的接近程度。即n n2 2Q ( y y? ) ( y bx a)i i i ii 1 i 12 2 2 2(y bx a) (y bx a) ( y bx a) ( yn bxn a)1 1 2 2 3 3求出当 Q 取最小值时的 a, b的值,就求出了回归方程。(一) 先证明两个在变形中用到的公式:公式( 1)n n2 2(x x) x nxi ii 1 i 12其中xx x x1 2 nnn2 2 2 2(x x) (x x) ( x x) (x x)i 1 2 ni 1因为(x x x )22 2 2 1 2 nx x x 2nx nx1 2 nn 2 2 2
17、( x x xn ) 2nx nx1 222 2 2(x x xn ) nx1 2nn n222 2x nx(x x) x nxii ii 1 i 1 i 1所以2n n( x x)( y y) x y nx yi i i i公式() i 1 i 1n(x x)( y y) (x x)( y y) (x x)( y y) (x x)( y y)i i 1 1 2 2 n ni 1 因为 ( 1 1 2 2 ) ( 1 1 2 2 )x y x y x y x y y x x y y x x y y x nxyn n n nnx y ( x x x )y ( y y y )x nxyi i 1
18、2 n 1 2 ni 1 in1(x x x ) ( y y y )1 2 n 1 2 nx y n y x nx yi in nn n n nx y 2nx y nx yi ix y nx yi i(x x)( y y) x y nx yi i i i i 1 i 1 所以 i 1 i 1(二)推导:将 Q 的表达式的各项先展开,再合并、变形62 2 2 2Q (y bx a) ( y bx a) (y bx a) ( yn bxn a)1 1 2 2 3 32 2 2(y y y ) 2 y (bx a) 2y (bx a) 2y (bx a)1 2 n 1 1 2 2 n n2 2 2(
19、 bx a) (bx a) (bx a) 1 2 n-展开n n n n n2 2 2 2y 2b x y 2a y b x 2ab x nai i i i i i i 1 i 1 i 1 i 1 i 1-以 a,b 为同类项,合并n ny xi i n n n2 i 1 i 1 2 2 2na 2na( b ) b x 2b x y yi i i in n -以 a,b 的次数为标准整理i 1 i 1 i 1n n nna na y bx b x b x y y - 将数据转化为平均数 x, y2 ( ) 22 2 2 2 i i i ii 1 i 1 i 1n n n2 2 2 2 2na
20、 ( y bx ) n( y bx) b x 2b x y y - - 配方法i i i i i 1 i 1 i 1 n n n2 22 2 2 2 2na ( y bx ) ny 2nbx y nb x b x 2b x y y - 展开i i i i i 1 i 1 i 1n n n 2 22 2 2 2na ( y bx ) b ( x nx ) 2b( x y nx y) ( y ny ) - 整理i i i ii 1 i 1 i 1n n n2 2 2 2na ( y bx ) b (x x) 2b (x x)( y y) ( y y)i i i ii 1 i 1 i 1- 用公式(
21、一) 、(二)变形n(x x)( y y)n i i n2 2 2 i 1 2na ( y bx ) ( x x) b 2b ( y y)i n ii 1 2 i 1(x x)ii 1- - 配方n n 2( x x)( y y) ( x x)( y y)n i i i i n2 2 i 1 2 i 1 2na ( y bx ) (x x) b ( y y)i n n i i 1 2 2 i 1(x x) (x x)i i i 1 i 1在上式中,共有四项,后两项与 a,b 无关,为常数;前两项是两个非负数的和,因此要使得 Q 区的最小值,当且仅当前两项的值都为 0。所以7a y bx a y
22、 bxn n(x x)( y y)i i或x y nx yi i- 用公式(一) 、(二)变形得i 1 i 1b bn2(x x)in2x nxii 1 i 1(三)总结规律:上述推倒过程是围绕着待定参数 a,b 进行的,只含有 x , y 的部分是常数或系数,用到的方法有( 1)i i配方法,有两次配方,分别是 a的二次三项式和 b 的二次三项式; (2)变形时,用到公式(一) 、(二)和整体思想;(3)用平方的非负性求最小值。 (4) 实际计算时,通常是分步计算:先求出 x, y,再分别计算n n(x x)( y y) ,i i2(x x) 或inx y nx y,i inx 2 nx 的
23、值,最后就可以计算出 a,b 的值。ii 1 i 1 i 1 i 16相关系数 r统计中常用相关系数 r 来衡量两个变量之间的线性相关的强弱,当x 不全为零, yi 也不全为零时,则两个i变量的相关系数的计算公式是:n n(x x)( y y) x y nx yi i i iri 1 i 1n n n n2 2 2 2 2(x x) ( y y) x nx y nyi i i ii 1 i 1 i 1 i 12r 就叫做变量 y 与 x 的相关系数(简称相关系数) 说明:(1)对于相关系数 r,首先值得注意的是它的符号,当 r 为正数时,表示变量 x,y 正相关;当 r为负数时,表示两个变量
24、x,y 负相关;(2)另外注意 r 的大小,如果 r 0.75,1 ,那么正相关很强;如果 r 1, 0.75 ,那么负相关很强;如果 r 0.75, 0.30 或 r 0.30,0.75 ,那么相关性一般;如果 r 0.25,0.25 ,那么相关性较弱例 1 测得某国 10 对父子身高(单位:英寸)如下:父亲身高( x)60 62 64 65 66 67 68 70 72 74儿子身高( y )2.1.6 65.2 66 65.5 66.9 67.1 67.4 68.3 70.1 70(1)对变量 y 与 x进行相关性检验;(2)如果 y 与 x 之间具有线性相关关系,求回归直线方程;(3)
25、如果父亲的身高为 73 英寸,估计儿子身高解:(1) x 66.8 , y 67 ,10 102x 44794 ,i2y 44929.22 , xy 4475.6 ,i2x 4462.24 ,i 1 i 182y 4489,10x y 44836.4 ,i ii 110x y nx yi i i 1所以 r210 n22 2x nx y n yi i i 1 i 12.1.7 10 4475.6(44794 44622.4)(44929.22 44890)6. 80.482.46730.1520.98,所以 y 与 x 之间具有线性相关关系10(2)设回归直线方程为 y a bx ,则bix
26、y 10x yi i110 22x 10xii 144836.4 4475644794 44622.40.4685 ,a y bx 67 0.4685 66.8 35.7042 故所求的回归直线方程为 y 0.4685x 35.7042 (3)当 x 73 英寸时, y 0.4685 73 35.7042 69.9047 ,所以当父亲身高为 73 英寸时,估计儿子的身高约为 69.9 英寸点评:回归直线是对两个变量线性相关关系的定量描述,利用回归直线,可以对一些实际问题进行分析、预测,由一个变量的变化可以推测出另一个变量的变化这是此类问题常见题型例 2 10 名同学在高一和高二的数学成绩如下表
27、:x 74 71 72 68 76 73 67 70 65 74y 76 75 71 70 76 79 65 77 62 72其中 x 为高一数学成绩, y 为高二数学成绩(1)y 与 x 是否具有相关关系;(2)如果 y 与 x 是相关关系,求回归直线方程解:(1)由已知表格中的数据,利用计算器进行计算得10 10 10x 710 ,iy 723 , x 71, y 72.3 ,ix y 51467 i ii 1 i 1 i 110 102x 50520 ,i2y 52541ii 1 i 110x y 10x yi i i 1r10 2 10 2 2 2x 10x y 10yi i i 1 i 1951467 71 72.3 102 2(50520 10 71 )(52541 10 72.3 )2.1.8 由于 r 0.78 ,由 0.78 0.75知,有很大的把握认为 x 与 y之间具有线性相关关系(2)y 与 x 具有线性相关关系,设回归直线方程为 y a bx ,则10bix y 10x yi i51467 10 71 72.3110 2 2250520 10 71x 10xii 17.,a y bx 72.3 1.22 71 14.32 所以 y 关于 x 的回归直线方程为 y 1.22 x 14.32 10