资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,本资料仅供参考,不能作为科学依据。谢谢。本资料仅供参考,不能作为科学依据。感谢,第二章 统计,1/49,1,知识结构图,搜集数据,(随机抽样),整理、分析数据,预计、推断,用样本预计总体,变量间相关关系,用样本,频率分布,预计总体,分布,简单随机抽样,分层抽样,系统抽样,用样本数,字特征估,计总体数,字特征,线性回归分析,2/49,2,例:要了解,全国高中生视力情况,,怎样调查?,总体:,抽出15000名进行视力情况调查,抽样调查,个体:,样本:,样本容量:,普查:,抽样调查:,指要考查对象全体。,指组成总体每一个考查对象。,从总体中取出考查那部分个体组成集合。,样本中包含个体数目。,对从总体中抽取那部分个体进行考查。,对总体中全部个体进行考查。,3/49,3,普通地,设一个总体中含个体数为N,从中逐一不放回地抽取n个个体作为样本(n N),且每次抽取时每个个体被抽到机会相等,就称这么抽样为简单随机抽样。,注意以下四点:,(,1,)它要求总体个体数有限;,(,2,)它是从总体中逐一进行抽取;,(,3,)它是一个不放回抽样;,(4)它是一个等机会抽样。,一、简单随机抽样,等概率抽样,4/49,4,简单随机抽样,抽签法(抓阄法),随机数法,5/49,5,1、抽签法(抓阄法),普通地,用抽签法从个体数为,N,总体中抽取一个容量为,n,样本步骤为:,(1)将总体中N个个体,编号,(号码能够从1到N);,(2)将1到N这N个号码写在形状、大小相同号,签,上(号签能够用小球、卡片、纸条等制作);,(3)将号签放在同一不透明箱子中,并,搅拌均匀,;,(4)从箱中连续,逐一,不放回,抽出n个号签,并统计其编号;,(5)从总体中把与抽到签编号相对应个体取出。,简记为:,编号;制签;搅匀;抽签;取个体。,6/49,6,2、随机数法,随机数表,由数字0,1,2,9组成,而且每个数字在表中各个位置出现相会都是一样。,怎样利用随机数表产生样本呢?,7/49,7,随机数表,8/49,8,例2、考查某企业生产500克袋装牛奶质量是否达标,现从,800袋,牛奶中抽取,60袋,进行检验,应怎样抽样?,(1)对总体中个体进行编号,(每个号码位数一致);,(2)在随机数表中任选一个数作为开始;,(3)从选定数开始按一定方向读下去,得到,数码若,不在编号中,则跳过,,若在编号中,则取出,,假如得到号码前面,己经取出,也跳过,,如此继续下去,,直到取满为止;,(4)依据选定号码抽取样本。,简述为:,编号、选起始数、取号、抽样,2、随机数表法抽取样本步骤:,9/49,9,以下抽取样本方式属于简单随机抽样是(),从无限多个个体中抽取100个个体作样本;,盒子里有80个零件,从中选出5个零件进行质量检验,在抽样操作时,从中任意拿出一个零件进行质量检验后,再把它放回盒子里;,从8台电脑中不放回随机抽取2台进行质量检验(假设8台电脑已编好号,对编号随机抽取),A.B.C.D.以上都不对,四个特点:总体个数有限;逐一抽取;不放回;每个个体机会均等,与先后无关。,C,10/49,10,2.在简单随机抽样中,某一个个体被抽中可能性是(),A.与第n次抽样无关,第一次抽中可能性大一些;,B.与第n次抽样无关,每次抽中可能性都相等;,C.与第n次抽样无关,最终一次抽中可能性大一些;,D.与第n次抽样无关,每次都是等可能抽样,但每次抽中可能性不一样;,B,11/49,11,3、从总体为N一批零件中抽取一个容量为30样本,若每个零件被抽取可能性为25%,则N=_.,4、为了了解全校240名学生身高情况,从中抽取40名学生进行测量。以下说法正确是(),A 总体是240 B 个体是每一个学生,C 样本是40名学生 D 样本容量是40,120,D,12/49,12,【探究】:,某学校为了了解高一年级学生对教师教学意见,打算从高一年级,500名,学生中抽取,50名,进行调查,除了用简单随机抽样获取样本外,你能否设计其它抽取样本方法?,第一步,:将这500名学生从1开始进行编号;,第二步,:确定分段间隔k,对编号进行分段.因为 k=,500/50,=10,这个间隔能够定为10;,第三步,:从号码为110第一个间隔中用简单随机抽样 方法确定第一个个体编号,假如为6号;,第四步,:从第6号开始,每隔10个号码抽取一个,得到 6,16,26,36,496.这么就得到一个样本容量为 50样本.,二、系统抽样,13/49,13,(4)按照一定规则抽取样本,通常是将起始编号L加上间隔k得到第2个个体编号,L+K,,再加上K得到第3个个体编号,L+2K,,这么,继续下去,,直到获取整个样本.,二、系统抽样步骤:,(1)对N个总体,编号;,(2),分段,,计算分段间隔:k=,(3)在第一段用简单随机抽样,确定起始个体,编号,L,。,14/49,14,假设某地域有高中生2400人,初中生10900人,小学生11000人.此地域教育部门为了了解当地域中小学生近视情况及其形成原因,要从当地域中小学生中抽取143名生进行调查,你认为应该怎样抽取样本?,分析:,(1)三个学段中个体有较大差异,应怎样提升样本代表性?,应考虑他们在样本中所占百分比分层抽取。,(2),怎样确定各学段所要抽取人数?,按百分比分配人数到各个阶段,得到各个学段所要抽取个体数。,三、分层抽样,15/49,15,假设某地域有高中生2400人,初中生10900人,小学生11000人.此地域教育部门为了了解当地域中小学生近视情况及其形成原因,要从当地域中小学生中抽取143名学生进行调查,你认为应该怎样抽取样本?,高中生人数:24001%24,然后分别在各个学段利用简单随机抽样或系统抽样方法抽取.,初中生人数:,109001%109,小学生人数:,110001%110,解:,三、分层抽样,16/49,16,三、分层抽样步骤:,(1)将总体按一定标准,分层,;,(2)总体与样本容量确定抽取百分比;,(3)确定各层抽取样本数;,(5)综合每层抽样,组成样本。,(4)在每一层用简单随机抽样或系统抽样方法抽样;,17/49,17,1、,某高中共有,900,人,其中高一年级300人,高二年级200人,高三年级400人,现采取分层抽样抽取容量为,45,样本,那么高一、高二、高三各年级抽取人数分别为(),A.15,5,25 B.15,15,15,C.10,5,30 D.15,10,20,D,18/49,18,简单随机抽样,系统抽样,分层抽样,抽签法,随机数表法,抽样,编号、选起始数、取号、抽样,编号;制签;搅匀;抽签;取个体。,19/49,19,简单随机抽样、系统抽样、分层抽样比较,类别,共同点,各自特点,联 系,适 用,范 围,简单,随机,抽样,系统,抽样,分层,抽样,(1)抽样过程中每个个体被抽到可能性相等,(2)每次抽出个体后不再将它放回,即不放回抽样,从总体中逐一抽取,将总体平均分成几部分,按预先制订规则在各部分抽取,将总体分成几层,分层进行抽取,在起始部分时采取简单随机抽样,各层抽样时采取简单随机抽样或系统抽样,总体中个体较少,总体中个体较多,总体由差异显著几部分组成,20/49,20,统计学,基本思想:,依据,样本,情况,预计总体,情况。,统计,怎样抽样,怎样预计,简单随机抽样,系统抽样,分层抽样,用样本频率分布预计总体分布,用样本数字特征(如平均数标准差)预计总体数字特征,21/49,21,一、用样本频率分布图预计总体频率分布,从,图形(面积)角度,反应总体数据落在各个小组频率(百分比)大小。,频率/组距,月平均用水量/t,0.50,0.40,0.30,0.20,0.10,0,0.5 1 1.5 2 2.5 3 3.5 4 4.5,步骤,1.求极差,2.确定组距与组数,3.将数据分组,4.列频率分布表,5.画频率分布直方图,22/49,22,1,、,求极差,,即数据中最大值与最小值差,2、,确定组距与组数,:,3、,分组,,表示每一组区间取,左闭右开,只有最终,4、,列频率分布表,,须登记,频数,计算,频率,画一组样本数据频率分布直方图步骤:,5、,画频率分布直方图,(纵轴表示,频率组距,),组数=,组距,极差,一组取闭区间,23/49,23,当样本数据比较少时,将这些数据,有条理,列出来,从中观察数据分布情况,这种方法就是,茎叶图。,茎叶图,1.茎叶图画法,2.怎样从茎叶图中提 取总体分布信息,茎叶图,24/49,24,二.茎叶图画法,例1:某篮球运动员在某赛季各场比赛得分情况以下:12,15,24,25,31,31,36,36,37,39,44,49,50,S1:,观察全部数,位数,及共有多少,个数,。,S2:,将,全部两位数,十位数字作为“茎”,个位数字作为“叶”,,茎相同者共用一个茎,茎按从小到大次序从上向以下出,共茎叶普通按从小到大(或从大到小)次序同行列出。,注意:,1.叶中重复出现数据要重复记。,2.若出现三位数,把百位十位作为茎,个位作为叶。,25/49,25,二.从茎叶图中提取总体分布信息,1.是否单峰状?对称性怎样?大部分数据集中在哪些茎上?,2.考查中位数,稳定性,总体水平,26/49,26,统计,怎样抽样,怎样预计,简单随机抽样,系统抽样,分层抽样,用样本频率分布预计总体分布,用样本,数字特征,(如平均数标准差)预计总体数字特征,中位数,标准差,众数,平均数,数字特征,27/49,27,三、众数、中位数、平均数,众数、中位数、平均数都是,描述一组数据集中趋势,特征数,只是描述角度不一样.,2、,中位数,:将一组数据按大小依次排列,把处于最中间位置一个数据(或最中间两个数据平均数)叫做这组数据中位数,1、,众数,:在一组数据中,出现次数最多数据叫做这组数据众数,3、平均数,:一组数据算术平均数,即,x=,28/49,28,怎样用样本数据众数、中位数、平均数预计总体众数、中位数、平均数?,29/49,29,1.怎样从频率分布直方图中预计众数?,月均用水量,/,t,频率,/,组距,o,4,.,5,4,3,.,5,3,2,.,5,2,1,.,5,1,0,.,5,0,.,50,0,.,40,0,.,30,0,.,20,0,.,10,频率分布直方图,2.25,众数,:最高矩形底边中间值。,30/49,30,2.怎样从频率分布直方图中预计中位数?,0,.,02,0,.,04,0,.,06,0,.,14,0,.,25,0,.,22,0,.,15,0,.,08,0,.,04,月均用水量,/,t,频率,/,组距,o,4,.,5,4,3,.,5,3,2,.,5,2,1,.,5,1,0,.,5,0,.,50,0,.,40,0,.,30,0,.,20,0,.,10,2.02,中位数,:使得左右两边面积相等值。,面积相等,=0.5,31/49,31,3.怎样从频率分布直方图中预计平均数?,平均数,:每个小矩形面积与其底边中间值乘积和。,0,.,02,0,.,04,0,.,06,0,.,14,0,.,25,0,.,22,0,.,15,0,.,08,0,.,04,月均用水量,/,t,频率,/,组距,o,4,.,5,4,3,.,5,3,2,.,5,2,1,.,5,1,0,.,5,0,.,50,0,.,40,0,.,30,0,.,20,0,.,10,2.02,32/49,32,众数、中位数、平均数都是,描述一组数据集中趋势,特征数,只是描述角度不一样,其中以平均数应用最为广泛.,思索:,平均数预计总体情况有什么优缺点?,受数据中极端值影响较大,使平均数在预计时可靠性降低。,缺点:,优点:,平均数,因为与每一个样本数据相关,所以能反应出更全方面信息。,对众数、中位数、平均数总结:,33/49,33,四、标准差,反应,样本数据分散程度,注意,1.公式简述为:偏差平方和均值再开方。,2.要计算标准差S,必须先计算平均数x,3.标准差S越小,数据越集中;,标准差S越大,数据越分散。,4.有时也用,方差S,2,来反应分散程度。,34/49,34,推论:假如数据 平均数为 ,方差为 ,那么,标准差与方差:,35/49,35,一、什么叫两个变量间相关关系?,例子1:商品销售收入与广告支出之间关系.,例子2:粮食产量和施肥量之间关系.,例子3:人体内脂肪含量与年纪之间关系.,不确定性,两个变量间关系,相关关系,函数关系,(不确定性),(确定性),例子4:正方形面积与它边长.,例子5:匀速行驶车辆行驶旅程与时间.,确定性,36/49,36,年纪,23,27,39,41,45,49,50,脂肪,9.5,17.8,21.2,25.9,27.5,26.3,28.2,年纪,53,54,56,57,58,60,61,脂肪,29.6,30.2,31.4,30.8,33.5,35.2,34.6,研究:,怎样判断人体脂肪含量和年纪之间关系?,人体脂肪百分比和年纪以下:,如上一组数据,你能分析人体脂肪含量与年纪之间有怎样关系吗?,二、,怎样判断两个变量是否含有相关关系呢?,搜集并分析大量数据,37/49,37,散点图,正相关,下面我们以年纪为横轴,脂肪含量为纵轴,建立直角坐标系,作出各个点。,38/49,38,例:汽车载重和汽车每消耗1升汽油所行使平均旅程。,O,平均旅程,载重,负相关,39/49,39,图 1,图 4,图 3,图 2,正相关,负相关,不含有相关关系,散点图作用:,用来判断两个变量间相关关系。,40/49,40,假如散点图中点分布从整体上看大致在一条直线附近,我们就称这两个变量之间含有,线性相关关系,这条直线叫回归直线。,线性相关关系,41/49,41,研究:,人体脂肪含量和年纪之间关系?,三、,怎样深入反应两个变量间相关关系?,线性相关关系,回归直线,假如能够求出这条回归直线方程,(回归方程),,那么我们就能更清楚地了解这种线性关系。,42/49,42,(x,1,y,1,),设两个变量x,y含有线性相关关系,搜集了n组样本数据:(x,1,,y,1,),(x,2,y,2,),(x,n,,y,n,),怎样刻画各样本点到回归直线距离?,设其回归方程为,(x,i,y,i,),(x,2,y,2,),(x,n,y,n,),43/49,43,(x,1,y,1,),(x,i,y,i,),(x,2,y,2,),(x,n,y,n,),44/49,44,从而得回归方程为,这种求经过求,最小值来求,回归方程方法叫,最小二乘法,。,45/49,45,总结求回归方程普通步骤:,第一步,计算平均数 ,第二步,求和 ,第三步,计算,第四步,写出回归方程,46/49,46,两变量间相关关系-知识框图,两变量间关系,函数关系,相关关系,散点图,线性回归,线性回归方程,47/49,47,统计,怎样抽样,用样本预计总体,(搜集数据),(分析、整理数据),两个变量间相关关系,(分析、整理数据),48/49,48,谢谢!,49/49,49,
展开阅读全文