1、2.2 2.2 总总体分布的估体分布的估计计1-统计的基本思想方法:用样本估计总体,即通常不直接去研究总体,而是通过从从总总体中抽取一个体中抽取一个样样本本,根据根据样样本的本的情况去估情况去估计总计总体的相体的相应应情况情况.统计的核心问题:如何根据样本的情况对总体的情况作出一种推断.这里包括两类问题:一类是如何从总体中抽取样本?另一另一类类是如何根据是如何根据对样对样本的整理、本的整理、计计算、分算、分析析,对总对总体的情况作出推断体的情况作出推断.2-问题某班40名同学在一次测验中的成绩如下:73 69 77 66 84 78 48 78 73 85 98 81 52 96 73 65
2、85 79 100 63 88 57 99 71 79 83 67 78 75 74 71 89 76 74 50 62 92 87 77 64现在我想弄清这些同学的成绩分布情况,该怎么办?各分点比所给数据多取一位小数的原因是:为了使数据不落在分点上,从而明确它们究竟属于哪一组。分数段人数与全班人数的比40.550.520.0550.560.520.0560.570.570.17570.580.5160.4080.590.580.2090.5100.550.125分数段人数与全班人数的比40.550.5250.560.5260.570.5770.580.51680.590.5890.5100.
3、55分数段人数与全班人数的比40.550.550.560.560.570.570.580.580.590.590.5100.5分数段人数与全班人数的比学生分数分布表(频率分布表)学生分数分布统计图(频率分布直方图)3-4-用用样样本估本估计总计总体体用用样样本估本估计总计总体体(两种):两种):一种是:用一种是:用样样本的本的频频率分布估率分布估计总计总体的体的分布。分布。另一种是:用另一种是:用样样本的数字特征(平均数本的数字特征(平均数标标准差等)估准差等)估计总计总体的数字特征。体的数字特征。5-用用样样本的本的频频率分布估率分布估计总计总体分布体分布一一 频频率分布率分布图图和和频频率
4、分布直方率分布直方图图二二频频率分布折率分布折线图线图和和总总体密度曲体密度曲线线三三 茎叶茎叶图图(stem-and-leaf display)6-探究探究:我国是世界上我国是世界上严严重缺水的重缺水的 国家之一,城市国家之一,城市缺水缺水问题较为问题较为突出。某市政府突出。某市政府为为了了节约节约用用水,水,计计划在划在 本市本市试试行居民生活用水定行居民生活用水定额额管管理,即确定一个居民月用水量理,即确定一个居民月用水量标标准准a,用水用水量不超量不超过过a的按平价收的按平价收费费,超,超过过 a的按的按议议价价收收费费。如果希望大部分居民的。如果希望大部分居民的 日常生活不日常生活不
5、受影响,那么受影响,那么标标准准a定定为为多少比多少比较较合理?你合理?你认为认为,为为了了较为较为合理地确定出合理地确定出这这个个标标准,准,需要做什么工作?需要做什么工作?7-根据根据这这些数据些数据你能得出用水你能得出用水量其他信息量其他信息吗吗?8-表表21 100位居民的月均用水量位居民的月均用水量 (单单位位:t )3.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.63.4 2.6 2.2 2.2 1.5 1.2 0.2 0.4 0.3 0.43.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.8 3.3 2.8 2.3 2.2 1
6、.7 1.3 3.6 1.7 0.6 4.13.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8 4.3 3.0 2.9 2.4 2.4 1.9 1.3 1.4 1.8 0.7 2.0 2.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2.32.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.42.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.42.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.29-表表22 100位居民月均用水量的位居民月均用水量的 频频率分布表率分布表 分分
7、组组 频频数累数累计计 频频数数 频频率率 0,0.5)4 0.04 0.5,1)8 0.08 1,1.5)15 0.15 1.5,2)22 0.22 2,2.5)25 0.25 2.5,3)14 0.14 3,3.5)6 0.06 3.5,4)4 0.04 4,4.5)2 0.02 合合计计 100 1.0010-00.511.522.53 3.5 4 4.50.500.400.300.200.10频频率率/组组距距月均用水量月均用水量/t注:小注:小长长方形的面方形的面积积组组距距频频率率/组组距距频频率率 各各长长方形的面方形的面积总积总和等于和等于1。11-1、求极差、求极差(即一即一
8、组组数据中最大数据中最大值值与最小与最小值值的差的差)知道知道这组这组数据的数据的变动变动范范围围4.3-0.2=4.12、决定、决定组组距与距与组组数(将数据分数(将数据分组组)3、将数据分将数据分组组(8.2取整取整,分分为为9组组)画画频频率分布直方率分布直方图图的步的步骤骤4、列出、列出频频率分布表率分布表.(学生填写学生填写频频率率/组组距一距一栏栏)5、画出、画出频频率分布直方率分布直方图图。组组距距:指每个小指每个小组组的两个端点的距离,的两个端点的距离,组组距距组组数数:将数据分将数据分组组,当数据在,当数据在100个以内个以内时时,按数据多少常分按数据多少常分5-12组组。1
9、2-例例.从从规规定尺寸定尺寸为为25.40mm25.40mm的一堆的一堆产产品中任取品中任取 100 100件,件,测测得尺寸如下:得尺寸如下:25.39 25.36 25.34 25.42 25.45 25.38 25.39 25.42 25.4725.35 25.41 25.43 25.44 25.48 25.45 25.43 25.46 25.4025.51 25.45 25.40 25.39 25.41 25.36 25.38 25.31 25.56 25.43 25.40 25.38 25.37 25.44 25.33 25.46 25.40 25.4925.34 25.42 25
10、.50 25.37 25.35 25.32 25.45 25.40 25.2725.43 25.54 25.39 25.45 25.43 25.40 25.43 25.44 25.41 25.53 25.37 25.38 25.24 25.44 25.40 25.36 25.42 25.39 25.46 25.38 25.35 25.31 25.34 25.40 25.36 25.41 25.3225.38 25.42 25.40 25.33 25.37 25.41 25.49 25.35 25.47 25.34 25.30 25.39 25.46 25.29 25.40 25.37 25.3
11、3 25.40 25.35 25.41 25.37 25.37 25.47 25.39 25.42 25.47 25.38 25.39样样本的本的频频率分布表示形式有:率分布表示形式有:频频率分布表率分布表和和频频率分布直方率分布直方图图13-一、一、计计算最大算最大值值与最小与最小值值的差(也称极差),的差(也称极差),从而知道从而知道这组这组数据的数据的变动变动范范围围。二、决定二、决定组组距与距与组组数(将数据分数(将数据分组组)组组距:距:指每个小指每个小组组的两个端点的距离,的两个端点的距离,组组距距=极差极差/组组数数列出列出频频率分布表、画率分布表、画频频率分布直方率分布直方图图
12、的方法的方法极差极差为为:25.56 25.24=0.32三三.决定分点决定分点 可以令分点比数据多可以令分点比数据多1 1位小数,并且把第位小数,并且把第1 1小小组组的的起点稍微减少一点起点稍微减少一点组组数:数:将数据分将数据分组组,当数据在,当数据在100100个以内个以内时时,按数据多少分成按数据多少分成5 51212组组 14-分分 组组个数累个数累计计频频 数数 频频 率率累累计频计频率率25.235,25.265)一一10.010.0125.265,25.295)T20.020.0325.295,25.325)正正50.050.0825.325,25.355)正正正正 T120
13、.120.2025.355,25.385)正正正下正正正下180.180.3825.385,25.415)正正正正正正正正正正250.250.6725.415,25.445)正正正一正正正一160.160.7925.445,25.475)正正下正正下130.130.9225.475,25.505)TT40.040.9625.505,25.535)T20.020.9825.535,25.565)T20.021.00 合合计计1001.00四四.列出列出频频率分布表率分布表15-频频率率/组组距距产产品尺寸品尺寸(mm)五五.画画频频率分布直方率分布直方图图注意:直方注意:直方图图的的纵轴纵轴表表
14、示示频频率与率与组组距的比距的比值值,8.316-频频率分布直方率分布直方图图如下如下:月均用水量月均用水量/t频频率率组组距距0.100.200.300.400.500.511.5 22.533.544.5小小长长方形的面方形的面积积=?17-频频率分布直方率分布直方图图如下如下:月均用水量月均用水量/t频频率率组组距距0.100.200.300.400.500.511.5 22.533.544.5小小长长方形的面方形的面积总积总和和=?18-频频率分布直方率分布直方图图如下如下:月均用水量月均用水量/t频频率率组组距距0.100.200.300.400.500.511.5 22.533.5
15、44.5月均用水量最月均用水量最多的在那个区多的在那个区间间?19-频频率分布直方率分布直方图图如下如下:月均用水量月均用水量/t频频率率组组距距0.100.200.300.400.500.511.5 22.533.544.5请请大家大家阅读阅读第第68页页,直方直方图图有有那些那些优优点和缺点和缺点点?20-练练 习习1.有一个容量有一个容量为为50的的样样本数据的分本数据的分组组的的频频数如下:数如下:12.5,15.5)315.5,18.5)818.5,21.5)921.5,24.5)1124.5,27.5)1027.5,30.5)530.5,33.5)4(1)列出列出样样本的本的频频率
16、分布表率分布表;(2)画出画出频频率分布直方率分布直方图图;(3)根据根据频频率分布直方率分布直方图图估估计计,数据落在数据落在15.5,24.5)的)的百分比是多少百分比是多少?21-某校对初二年级60名15岁女学生的身高做了测量,结果如下(单位:cm):142 154 159 175 159 156 149 162 166158 159 156 166 160 164 155 157 146147 161 158 158 153 158 154 158 163154 153 153 162 162 151 154 165 164152 151 146 151 158 160 165 158
17、 163163 162 161 154 165 162 162 159 157159 149 164 149 159 153160列出频率分布表,绘出频率分布直方图。例题22-已知一组数据如下:2521 23 25 27 29 25 28 30 292624 25 27 26 22 24 25 26 28填写下面的频率分布表,绘出频率分布直方图。组别频数累计频数频率20.522.522.524.524.526.526.528.528.530.5 合计练习一23-红星养猪场400头猪的质量频率分布直方图如图,其中数据不在分点上。按图回答:1)质量在 组里的猪最多,有 头。2)质量在60.5kg以
18、上的猪有 头。3)这400头猪的总质量约 kg,平均质量约是 kg。4000.4=1604000.4=16055.555.560.560.5400(0.2+0.08+0.02)=120400(0.2+0.08+0.02)=120组组平均值每组头数每组总质量45.550.54840192050.555.55380424055.560.558160928060.565.56380504065.570.56832217670.575.5738584总质量23240232402324023240400=58.123240400=58.1练习二24-想一想25-频频率分布直方率分布直方图图如下如下:月均
19、用水量月均用水量/t频频率率组组距距0.100.200.300.400.500.511.5 22.533.544.5连连接接频频率分布直方率分布直方图图中中各小各小长长方形上端的中点方形上端的中点,得到得到频频率分布折率分布折线图线图26-0.511.522.53 3.5 44.50.20频频率率/组组距距0月均用水量月均用水量/t0.500.400.300.10图图2.22 100位居民的月均用水量的位居民的月均用水量的频频率分率分布折布折线图线图27-利利用用样样本本频频率率分分布布对对总总体体分分布布进进行行相相应应估估计计(3)当)当样样本容量无限增大,本容量无限增大,组组距无限距无限
20、缩缩小,小,那么那么频频率分布直方率分布直方图图就会无限接近于一条光滑就会无限接近于一条光滑曲曲线线总总体密度曲体密度曲线线。(2)样样本容量越大,本容量越大,这这种估种估计计越精确。越精确。(1)上上例例的的样样本本容容量量为为100,如如果果增增至至1000,其其频频率率分分布布直直方方图图的的情情况况会会有有什什么么变变化化?假假如如增增至至10000呢?呢?28-月均用水量月均用水量/t频频率率组组距距0ab总总体密度曲体密度曲线线能能够够很好的反映很好的反映总总体在各个范体在各个范围围内的百分比,能构提供更准确的信息。尽管有些内的百分比,能构提供更准确的信息。尽管有些总总体密度曲体密
21、度曲线线是客是客观观存在的,但是很存在的,但是很难难象函数象函数图图象那象那样样准确的地画出来。准确的地画出来。?思考一下?思考一下图图中阴影部分的面中阴影部分的面积积表示什么?表示什么?29-用用样样本本分分布布直直方方图图去去估估计计相相应应的的总总体体分分布布时时,一一般般样样本本容容量量越越大大,频频率率分分布布直直方方图图就就会会无无限限接接近近总总体体密密度度曲曲线线,就就越越精精确确地地反反映映了了总总体体的的分分布布规规律律,即即越越精精确确地地反反映映了了总总体体在在各各个个范范围围内内取取值值百分比。百分比。总总体体密密度度曲曲线线反反映映了了总总体体在在各各个个范范围围内
22、内取取值值的的百百分分比比,精精确确地地反反映映了了总总体体的的分分布布规规律律。是是研研究究总总体分布的工具体分布的工具.总总体密度曲体密度曲线线30-茎叶茎叶图图某某赛赛季甲、乙两名季甲、乙两名篮篮球运球运动员动员每每场场比比赛赛得分的原得分的原始始记录记录如下:如下:(1)甲运甲运动员动员得分:得分:13,51,23,8,26,38,16,33,14,28,39(1)乙运乙运动员动员得分得分:49,24,12,31,50,31,44,36,15,37,25,36,3931-茎叶茎叶图图甲甲乙乙0123452 55 41 6 1 6 7 94 9 084 6 336 843 8 9 1注:中注:中间间的数字表示得分的十的数字表示得分的十位数字。位数字。旁旁边边的数字分的数字分别别表示两个表示两个人得分的个位数人得分的个位数32-小小结结 图图形形 优优点点 缺点缺点频频率分布率分布 1)易表示大量数据)易表示大量数据 丢丢失一些失一些直方直方图图 2)直)直观观地表明分布地地表明分布地 情况情况 信息信息 1)无信息)无信息损损失失 只能只能处处理理样样本本 茎茎页图页图 2)随)随时记录时记录方便方便记录记录和表示和表示 容量容量较较小数据小数据33-34-