资源描述
用样本数字特征预计总体数字特征第1页一、求一、求极差极差,即数据中最大值与最小值差即数据中最大值与最小值差二、决定二、决定组距组距与组数与组数 :组数:组数=极差极差/组距组距三、分组三、分组,通常对组内数值所在区间,通常对组内数值所在区间,取取左闭右开左闭右开区间区间,最终一组取闭区间最终一组取闭区间四、登记四、登记频数频数,计算计算频率频率,列出列出频率分布表频率分布表五、画出五、画出频率分布直方图频率分布直方图(纵轴表示(纵轴表示频率组距频率组距)复习回顾复习回顾画频率分布直方图步骤画频率分布直方图步骤:第2页连接频率分布直方图中各小长方形上端中点连接频率分布直方图中各小长方形上端中点,得得到到频率分布折线图频率分布折线图总总体体密密度度曲曲线线反反应应了了总总体体在在各各个个范范围围内内取取值值百百分分比比,准准确确地地反反应应了了总总体体分分布布规规律律。是是研研究究总总体体分分布布工具工具.画茎叶图步骤画茎叶图步骤:(1)(1)将每个数据分为茎将每个数据分为茎(高位高位)和叶和叶(低位低位)两部分两部分;(2)(2)将最小茎和最大茎之间数按大小次序排成一列将最小茎和最大茎之间数按大小次序排成一列,写在一侧写在一侧;(3)(3)将各个数据叶按大小次序写在其茎另一侧将各个数据叶按大小次序写在其茎另一侧.第3页练习练习:在一次中学生田径运动会上,参在一次中学生田径运动会上,参加男子跳高加男子跳高17名运动员成绩以下表所表名运动员成绩以下表所表示:示:成成绩绩(米米)150160165 170175180 185190人数人数23234111分别求这些运动员成绩众数,中位数与平分别求这些运动员成绩众数,中位数与平均数均数 第4页第5页众数、中位数、平均数概念众数、中位数、平均数概念中位数中位数:将一组数据按大小依次排列,把处于:将一组数据按大小依次排列,把处于最中间位置一个数据(或最中间两个数据平均最中间位置一个数据(或最中间两个数据平均数)叫做这组数据中位数数)叫做这组数据中位数 众数众数:在一组数据中,出现次数最多数据叫做:在一组数据中,出现次数最多数据叫做这组数据众数这组数据众数 平均数平均数:一组数据算术平均数一组数据算术平均数,即即 x=x=第6页二、众数、中位数、平均数与频率分布二、众数、中位数、平均数与频率分布直方图关系直方图关系比如,在上一节调查比如,在上一节调查100位居民月均用水量位居民月均用水量问题中,从这些样本数据频率分布直方图能问题中,从这些样本数据频率分布直方图能够看出众数、中位数、平均数为多少?够看出众数、中位数、平均数为多少?第7页频率频率组距组距0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)在样本数据频率分布直方图中,在样本数据频率分布直方图中,就是最高矩形中点横坐标。就是最高矩形中点横坐标。众众数数众数众数众数表达了样本数据最大众数表达了样本数据最大集中点,但它对其它数据集中点,但它对其它数据信息忽略使得无法客观地信息忽略使得无法客观地反应总体特征反应总体特征.特点特点:第8页频率频率组距组距0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)2.022.02这个中位数预计值这个中位数预计值,与样本中位数与样本中位数值值2.02.0不一样,为何?不一样,为何?因为样本数据频率分布直方因为样本数据频率分布直方图图,只是直观地表明分布形只是直观地表明分布形状状,不过从直方图本身得不不过从直方图本身得不出原始数据内容出原始数据内容,所以由频所以由频率分布直方图得到中位数预率分布直方图得到中位数预计值往往与样本实际中位数计值往往与样本实际中位数值不一致值不一致.左边和右边直方图面积应该相左边和右边直方图面积应该相等,由此能够预计中位数值。等,由此能够预计中位数值。中位数:中位数:2 2、中位数不受少数几个极端值影响、中位数不受少数几个极端值影响1 1、中位数易计算,能很好地表现数据信息、中位数易计算,能很好地表现数据信息3 3、惯用于计算数据质量较差时、惯用于计算数据质量较差时第9页频率频率组距组距0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)是频率分布直方图是频率分布直方图“重心重心”,等于频率分,等于频率分布直方图中每个小矩形面积乘以小矩形底边中点布直方图中每个小矩形面积乘以小矩形底边中点横坐标之和横坐标之和平均数平均数3 3、平均数受数据中极端值、平均数受数据中极端值影响较大,使平均数在预计影响较大,使平均数在预计时可靠性降低。时可靠性降低。1 1、平均数与每一个样本数据相关,所以任何一、平均数与每一个样本数据相关,所以任何一个样本数据改变都会引发平均数改变个样本数据改变都会引发平均数改变2 2、平均数能够反应出更多关于样、平均数能够反应出更多关于样本数据全体信息本数据全体信息第10页练习练习:有两位射击运动员在一次射击测试中各射靶有两位射击运动员在一次射击测试中各射靶10次,次,每次命中环数以下:每次命中环数以下:甲:甲:乙:乙:假如你是教练假如你是教练,你应该怎样对这次射击作出评价你应该怎样对这次射击作出评价?假如看两人此次射击平均成绩假如看两人此次射击平均成绩,因为因为 两人射击两人射击 平均成绩是一样平均成绩是一样.那么两个人水平就那么两个人水平就没有什么差异吗没有什么差异吗?第11页考查样本数据分散程度大小,考查样本数据分散程度大小,所谓所谓“平均距离平均距离”,其含义可作以下了解:,其含义可作以下了解:标准差是样本数据到平均数一个平均距离,标准差是样本数据到平均数一个平均距离,普通用普通用s s表示表示标准差标准差第12页因为上式含有绝对值,运算不太方便,所以,通因为上式含有绝对值,运算不太方便,所以,通常改用以下公式来计算标准差常改用以下公式来计算标准差第13页探究提升探究提升 (1 1)平均数与方差都是主要数字特征)平均数与方差都是主要数字特征,是对总体一个简明描述,它们所反应情况有是对总体一个简明描述,它们所反应情况有着主要实际意义,平均数、中位数、众数描述其着主要实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小集中趋势,方差和标准差描述波动大小.(2 2)平均数、方差公式推广)平均数、方差公式推广若数据若数据x x1 1,x,x2 2,x xn n平均数为平均数为 ,那么那么mxmx1 1+a a,mxmx2 2+a a,mxmx3 3+a a,mxmxn n+a a平均数是平均数是.数据数据x x1 1,x x2 2,x xn n方差为方差为s s2 2.a.a.s s2 2=b.b.数据数据x x1 1+a a,x x2 2+a a,x xn n+a a方差为方差为 ;c.c.数据数据axax1 1,axax2 2,axaxn n方差为方差为 .第14页知识补充知识补充1.1.标准差平方标准差平方s s2 2称为方差,有时用方差代替称为方差,有时用方差代替标准差测量样本数据离散度标准差测量样本数据离散度.方差与标准差方差与标准差测量效果是一致,在实际应用中普通多采取测量效果是一致,在实际应用中普通多采取标准差标准差.2.2.现实中总体所包含个体数往往很多,总现实中总体所包含个体数往往很多,总体平均数与标准差是未知,我们通惯用样体平均数与标准差是未知,我们通惯用样本平均数和标准差去预计总体平均数与标本平均数和标准差去预计总体平均数与标准差,但要求样本有很好代表性准差,但要求样本有很好代表性.第15页例例4 4 在去年足球甲在去年足球甲A A联赛中,甲队每场比赛平联赛中,甲队每场比赛平均失球数是均失球数是1.51.5,整年比赛失球个数标准差为,整年比赛失球个数标准差为1.11.1;乙队每场比赛平均失球数是;乙队每场比赛平均失球数是2.12.1,整年,整年比赛失球个数标准差为比赛失球个数标准差为0.4.0.4.你认为以下说法你认为以下说法是否正确,为何?是否正确,为何?(1 1)平均来)平均来说甲队比乙队防守技术好;说甲队比乙队防守技术好;(2 2)乙队比甲队技术水平更稳定;)乙队比甲队技术水平更稳定;(3 3)甲队有时表现很差,有时表现又非常)甲队有时表现很差,有时表现又非常 好;好;(4 4)乙队极少不失球)乙队极少不失球.第16页例题分析例题分析例例1 1 画出以下四组样本数据条形图,画出以下四组样本数据条形图,说明他们异同点说明他们异同点.(1)(1),;,;(2)(2),;,;O O频率频率1.00.80.60.40.21 2 3 4 5 6 7 81 2 3 4 5 6 7 8 (1)O O频率频率1.00.80.60.40.21 2 3 4 5 6 7 81 2 3 4 5 6 7 8 (2)第17页(3)(3),;,;(4)(4),.频率频率1.01.00.80.80.60.60.40.40.20.21 2 3 4 5 6 7 81 2 3 4 5 6 7 8 O O(3 3)频率频率1.01.00.80.80.60.60.40.40.20.21 2 3 4 5 6 7 81 2 3 4 5 6 7 8 O O(4 4)第18页2.2.已已知知一一组组数数据据按按从从小小到到大大次次序序排排列列,得得到到-1-1,0 0,4 4,x x,7,7,1414,中中位位数数为为5 5,则则这这组组数数据据平平均均数数和和方方差分别为差分别为()A.5,24 A.5,24 B.5,24B.5,24 C.4,25 C.4,25 D.4,25D.4,25 解析解析 中位数为中位数为5 5,5=5=,x x=6.=6.s s2 2=(5+15+1)2 2+(5-05-0)2 2+(5-45-4)2 2+(5-5-6 6)2 2+(5-75-7)2 2+(5-145-14)2 2=24 .=24 .A第19页9.9.(福建)福建)某校开展某校开展“爱我海西、爱我故乡爱我海西、爱我故乡”摄摄 影比赛,影比赛,9 9位评委为参赛作品位评委为参赛作品A A给出分数如茎叶图所给出分数如茎叶图所 示示.记分员在去掉一个最高分和一个最低分后,算得记分员在去掉一个最高分和一个最低分后,算得 平均分为平均分为9191,复核员在复核时,发觉有一个数字(茎,复核员在复核时,发觉有一个数字(茎 叶图中叶图中x x)无法看清,若记分员计算无误,则数字)无法看清,若记分员计算无误,则数字x x 应该是应该是 .解析解析 当当x x44时,时,x x4,4,则则 =91,=91,x x=1.=1.1 1第20页11.11.下列图是某市相关部门依据该市干部月收入情下列图是某市相关部门依据该市干部月收入情况,作抽样调查后画出样本频率分布直方图,况,作抽样调查后画出样本频率分布直方图,已知图中第一组频数为已知图中第一组频数为4 0004 000,请依据该图提供,请依据该图提供信息解答以下问题信息解答以下问题:(图中每组包含左端点(图中每组包含左端点,不包不包 括右端点,如第一组表示收入在括右端点,如第一组表示收入在1 0001 000,1 5001 500)第21页(1 1)求样本中月收入在)求样本中月收入在2 5002 500,3 5003 500)人数;)人数;(2 2)为了分析干部收入与年纪、职业等方面关)为了分析干部收入与年纪、职业等方面关系,必须从样本各组中按月收入再用分层抽样方系,必须从样本各组中按月收入再用分层抽样方法抽出法抽出100100人作深入分析,则月收入在人作深入分析,则月收入在1 5001 500,2 0002 000)这段应抽多少人?)这段应抽多少人?(3 3)试预计样本数据中位数)试预计样本数据中位数.解解 (1 1)月收入在月收入在1 0001 000,1 5001 500)概率为)概率为0.000 8500=0.40.000 8500=0.4,且有,且有4 0004 000人,人,样本容量样本容量n n=10 000=10 000;月收入在月收入在1 5001 500,2 0002 000)频率为)频率为0.000 45000.000 4500=0.2=0.2;第22页月收入在月收入在2 0002 000,2 5002 500)频率为)频率为0.000 3500=0.000 3500=0.150.15;月收入在月收入在3 5003 500,4 0004 000)频率为)频率为0.000 1500=0.000 1500=0.05.0.05.月收入在月收入在2 5002 500,3 5003 500)频率为)频率为1-1-(0.4+0.2+0.15+0.050.4+0.2+0.15+0.05)=0.2.=0.2.样本中月收入在样本中月收入在2 5002 500,3 5003 500)人数为)人数为0.210 000=2 000.0.210 000=2 000.(2 2)月收入在月收入在1 5001 500,2 0002 000)人数为)人数为0.210 000=2 0000.210 000=2 000,第23页再从再从10 00010 000人中用分层抽样方法抽出人中用分层抽样方法抽出100100人,则月人,则月收入在收入在1 5001 500,2 0002 000)这段应抽取)这段应抽取100100=20=20(人)(人).(3 3)由)由(1)(1)知月收入在知月收入在1 0001 000,2 000)2 000)频率为频率为0.4+0.2=0.60.4+0.2=0.60.50.5,样本数据中位数为样本数据中位数为1 500+=1 500+250=1 7501 500+=1 500+250=1 750(元)(元).第24页三种数字特征优缺点三种数字特征优缺点1 1、众数表达了样本数据最大集中点,但它对其它数、众数表达了样本数据最大集中点,但它对其它数据信息忽略使得无法客观地反应总体特征据信息忽略使得无法客观地反应总体特征.2 2、中位数它不受少数几个极端值影响,这在一些情、中位数它不受少数几个极端值影响,这在一些情况下是优点,但它对极端值不敏感有时也会成为缺点。况下是优点,但它对极端值不敏感有时也会成为缺点。3 3、因为平均数与每一个样本数据相关,所以任何一、因为平均数与每一个样本数据相关,所以任何一个样本数据改变都会引发平均数改变,这是众数、中个样本数据改变都会引发平均数改变,这是众数、中位数都不含有性质。也正因如此位数都不含有性质。也正因如此 ,与众数、中位数,与众数、中位数比较起来,平均数能够反应出更多关于样本数据全体比较起来,平均数能够反应出更多关于样本数据全体信息,但平均数受数据中极端值影响较大,使平均数信息,但平均数受数据中极端值影响较大,使平均数在预计时可靠性降低。在预计时可靠性降低。第25页4、标准差是反应样本分散程度。标准差是反应样本分散程度。显然显然,标准差越大标准差越大,则则a越大越大,数据离散程数据离散程度越大度越大;标准差越小标准差越小,数据离散程度越小数据离散程度越小.第26页
展开阅读全文