资源描述
板块二.频率直方图
学问内容
一.随机抽样
1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常接受的随机抽样方法:
⑴简洁随机抽样:从元素个数为的总体中不放回地抽取容量为的样本,假如每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简洁随机抽样.
抽出方法:①抽签法:用纸片或小球分别标号后抽签的方法.
②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置毁灭各个数字的可能性相同.
随机数表法是对样本进行编号后,依据确定的规律从随机数表中读数,并取出相应的样本的方法.
简洁随机抽样是最简洁、最基本的抽样方法.
⑵系统抽样:将总体分成均衡的若干部分,然后依据预先制定的规章,从每一部分抽取一个个体,得到所需要的样本的抽样方法.
抽出方法:从元素个数为的总体中抽取容量为的样本,假如总体容量能被样本容量整除,设,先对总体进行编号,号码从到,再从数字到中随机抽取一个数作为起始数,然后顺次抽取第个数,这样就得到容量为的样本.假如总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.
系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样.
⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体状况,常接受分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简洁随机抽样,这种抽样方法叫做分层抽样.
分层抽样的样本具有较强的代表性,而且各层抽样时,可机敏选用不同的抽样方法,应用广泛.
2.简洁随机抽样必需具备下列特点:
⑴简洁随机抽样要求被抽取的样本的总体个数是有限的.
⑵简洁随机样本数小于等于样本总体的个数.
⑶简洁随机样本是从总体中逐个抽取的.
⑷简洁随机抽样是一种不放回的抽样.
⑸简洁随机抽样的每个个体入样的可能性均为.
3.系统抽样时,当总体个数恰好是样本容量的整数倍时,取;
若不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量整除.由于每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会照旧相等,为.
二.频率直方图
列出样本数据的频率分布表和频率分布直方图的步骤:
①计算极差:找出数据的最大值与最小值,计算它们的差;
②打算组距与组数:取组距,用打算组数;
③打算分点:打算起点,进行分组;
④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.
⑤绘制频率分布直方图:以数据的值为横坐标,以的值为纵坐标绘制直方图,
知小长方形的面积=组距×=频率.
频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.
总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.
三.茎叶图
制作茎叶图的步骤:
①将数据分为“茎”、“叶”两部分;
②将最大茎与最小茎之间的数字按大小挨次排成一列,并画上竖线作为分隔线;
③将各个数据的“叶”在分界线的一侧对应茎处同行列出.
四.统计数据的数字特征
用样本平均数估量总体平均数;用样本标准差估量总体标准差.
数据的离散程序可以用极差、方差或标准差来描述.
极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度;
样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根.
一般地,设样本的元素为样本的平均数为,
定义样本方差为,
样本标准差
简化公式:.
五.独立性检验
1.两个变量之间的关系;
常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有确定随机性的.当一个变量取值确定时,另一个变量的取值带有确定随机性的两个变量之间的关系叫做相关关系.
2.散点图:将样本中的个数据点描在平面直角坐标系中,就得到了散点图.
散点图形象地反映了各个数据的亲热程度,依据散点图的分布趋势可以直观地推断分析两个变量的关系.
3.假如当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.
反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.
散点图可以推断两个变量之间有没有相关关系.
4.统计假设:假如大事与独立,这时应当有,用字母表示此式,即,称之为统计假设.
5.(读作“卡方”)统计量:
统计学中有一个格外有用的统计量,它的表达式为,用它的大小可以用来打算是否拒绝原来的统计假设.假如的值较大,就拒绝,即认为与是有关的.
统计量的两个临界值:、;当时,有的把握说大事与有关;当时,有的把握说大事与有关;当时,认为大事与是无关的.
独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率大事发生,而小概率大事在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的.
1.独立性检验的步骤:统计假设:;列出联表;计算统计量;查对临界值表,作出推断.
2.几个临界值:.
联表的独立性检验:
假如对于某个群体有两种状态,对于每种状态又有两个状况,这样排成一张的表,如下:
状态
状态
合计
状态
状态
假如有调查得来的四个数据,并期望依据这样的个数据来检验上述的两种状态与是否有关,就称之为联表的独立性检验.
六.回归分析
1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是查找相关关系中这种非确定关系的某种确定性.
回归直线:假如散点图中的各点都大致分布在一条直线四周,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2.最小二乘法:
记回归直线方程为:,称为变量对变量的回归直线方程,其中叫做回归系数.
是为了区分的实际值,当取值时,变量的相应观看值为,而直线上对应于的纵坐标是.
设的一组观看值为,,且回归直线方程为,
当取值时,的相应观看值为,差刻画了实际观看值与回归直线上相应点的纵坐标之间的偏离程度,称这些值为离差.
我们期望这个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点.
记,回归直线就是全部直线中取最小值的那条.
这种使“离差平方和为最小”的方法,叫做最小二乘法.
用最小二乘法求回归系数有如下的公式:
,,其中上方加“”,表示是由观看值按最小二乘法求得的回归系数.
3.线性回归模型:将用于估量值的线性函数作为确定性函数;的实际值与估量值之间的误差记为,称之为随机误差;将称为线性回归模型.
产生随机误差的主要缘由有:
①所用的确定性函数不恰当即模型近似引起的误差;
②忽视了某些因素的影响,通常这些影响都比较小;
③由于测量工具等缘由,存在观测误差.
4.线性回归系数的最佳估量值:
利用最小二乘法可以得到的计算公式为
,,其中,
由此得到的直线就称为回归直线,此直线方程即为线性回归方程.其中,分别为,的估量值,称为回归截距,称为回归系数,称为回归值.
5.相关系数:
6.相关系数的性质:
⑴;
⑵越接近于1,的线性相关程度越强;
⑶越接近于0,的线性相关程度越弱.
可见,一条回归直线有多大的猜想功能,和变量间的相关系数亲热相关.
7.转化思想:
依据专业学问或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.
8.一些备案
①回归(regression)一词的来历:“回归”这个词英国统计学家Francils Galton提出来的.1889年,他在争辩祖先与后代的身高之间的关系时发觉,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高.Galton把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推想另一个变量的变化的方法称为回归分析.
②回归系数的推导过程:
,
把上式看成的二次函数,的系数,
因此当时取最小值.
同理,把的开放式按的降幂排列,看成的二次函数,当时取最小值.
解得:,,
其中,是样本平均数.
9. 对相关系数进行相关性检验的步骤:
①提出统计假设:变量不具有线性相关关系;
②假如以的把握作出推断,那么可以依据与(是样本容量)在相关性检验的临界值表中查出一个的临界值(其中称为检验水平);
③计算样本相关系数;
④作出统计推断:若,则否定,表明有的把握认为变量与之间具有线性相关关系;若,则没有理由拒绝,即就目前数据而言,没有充分理由认为变量与之间具有线性相关关系.
说明:
⑴对相关系数进行显著性检验,一般取检验水平,即牢靠程度为.
⑵这里的指的是线性相关系数,的确定值很小,只是说明线性相关程度低,不愿定不相关,可能是非线性相关的某种关系.
⑶这里的是对抽样数据而言的.有时即使,两者也不愿定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际状况进行合理解释.
典例分析
题型一 频率分布直方图
【例1】 (2010西城二模)
某区高二班级的一次数学统考中,随机抽取名同学的成果,成果全部在分至分之间,将成果按如下方式分成组:第一组,成果大于等于分且小于分;其次组,成果大于等于分且小于分;……第五组,成果大于等于分且小于等于分,据此绘制了如图所示的频率分布直方图.
则这名同学中成果大于等于分且小于分的同学有______名.
【例2】 (2010东城二模)
已知一个样本容量为的样本数据的频率分布直方图如图所示,样本数据落在内的样本频数为 ,样本数据落在内的频率为 .
【例3】 (2010北京)
从某学校随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).由图中数据可知 .若要从身高在,,三组内的同学中,用分层抽样的方法选取18人参与一项活动,则从身高在内的同学中选取的人数应为 .
【例4】 (2010江苏高考)
某棉纺厂为了了解一批棉花的质量,从中随机抽取了根棉花纤维的长度(棉花纤维的长度是棉花质量的重要指标),所得数据都在区间中,其频率分布直方图如图所示,则其抽样的根中,有____根在棉花纤维的长度小于.
【例5】 (2009湖北15)
下图是样本容量为的频率分布直方图.
依据样本的频率分布直方图估量,样本数据落在内的频数为 ,数据落在内的概率约为 .
【例6】 (2009福建3)
一个容量为的样本,其数据的分组与各组的频数如下:
组别
频数
则样本数据落在上的频率为( )
A. B. C. D.
【例7】 某校为了了解同学的课外阅读状况,随机调查了50名同学,得到他们在某一天各自课外阅读所用时间的数据,结果用下面的条形图表示,依据条形图可得这50名同学这一天平均每人的课外阅读时间为( )
A. B. C. D.
【例8】 为了调查某厂工人生产某种产品的力气,随机抽查了位工人某天生产该产品的数量.产品数量的分组区间为,,,,由此得到频率分布直方图如图,则这名工人中一天生产该产品数量在的人数是 .
【例9】 (2009山东8)
某工厂对一批产品进行了抽样检测.右图是依据抽样检测后的产品净重(单位:克)数据绘制的频率分布直方图,其中产品净重的范围是,样本数据分组为,,,,.已知样本中产品净重小于克的个数是,则样本中净重大于或等于克并且小于克的产品的个数是( )
A. B. C. D.
【例10】 某路段检查站监控录象显示,在某时段内,有辆汽车通过该站,现在随机抽取其中的辆汽车进行车速分析,分析的结果表示为右图的频率分布直方图,则估量在这一时段内通过该站的汽车中速度不小于km/h的车辆数为( )
A. B. C. D.
【例11】 (2006年全国II)
一个社会调查机构就某地居民的月收入调查了人,并依据所得数据画了样本频率分布直方图,为了分析居民的收入与年龄、学历、职业等方面的联系,要从这人中用分层抽样的方法抽出人做进一步调查,则在(元)月收入段应抽出_____人.
【例12】 如图为某样本数据的频率分布直方图,则下列说法不正确的是( )
A.的频率为
B.若样本容量为,则的频数为
C.若样本容量为,则的频数为
D.由频率分布布直方图可得出结论:估量总体大约有分布在
【例13】 (2006北京模拟)下面是某学校同学日睡眠时间的抽样频率分布表:
睡眠时间
人数
频率
合计
画出频率分布直方图,估量该校同学的日平均睡眠时间.
【例14】 (2010崇文一模)
为了调查某厂2000名工人生产某种产品的力气,随机抽查了位工人某天生产该产品的数量,产品数量的分组区间为,,,,,频率分布直方图如图所示.已知生产的产品数量在之间的工人有6位.
⑴求;
⑵工厂规定从各组中任选1人进行再培训,则选取5人不在同一组的概率是多少?
【例15】 考查某校高三班级男生的身高,随机抽取名高三男生,实测身高数据(单位:)如下:
⑴ 作出频率分布表;
⑵ 画出频率分布直方图.
【例16】 (2010陕西卷高考)
为了解同学身高状况,某校以的比例对全校700名同学按性别进行出样检查,测得身高状况的统计图如下:
⑴估量该小男生的人数;
⑵估量该校同学身高在之间的概率;
⑶从样本中身高在之间的女生中任选2人,求至少有1人身高在之间的概率.
【例17】 从某校高一班级的名新生中用系统抽样的方法抽取一个容量为的身高样本,如下(单位:).作出该样本的频率分布表,画出频率分布直方图及折线图,并依据作出的频率分布直方图估量身高不小于的同学的人数.
168
165
171
167
170
165
170
152
175
174
165
170
168
169
171
166
164
155
164
158
170
155
166
158
155
160
160
164
156
162
160
170
168
164
174
170
165
179
163
172
180
174
173
159
163
172
167
160
164
169
151
168
158
168
176
155
165
165
169
162
177
158
175
165
169
151
163
166
163
167
178
165
158
170
169
159
155
163
153
155
167
163
164
158
168
167
161
162
167
168
161
165
174
156
167
166
162
161
164
166
【例18】 为了了解学校生的体能状况,抽取了某学校同班级部分同学进行跳绳测试,将所得的数据整理后画出频率分布直方图(如下图),已知图中从左到右的前三个小组的频率分别是.第一小组的频数是.
⑴求第四小组的频率和参与这次测试的同学人数;
⑵在这次测试中,同学跳绳次数的中位数落在第几小组内?
⑶参与这次测试跳绳次数在次以上为优秀,试估量该校此班级跳绳成果优秀率是多少?
【例19】 为了让同学了解环保学问,增加环保意识,某中学进行了一次“环保学问竞赛”,共有900名同学参与了这次竞赛. 为了解本次竞赛成果状况,从中抽取了部分同学的成果(得分均为整数,满分为100分)进行统计. 请你依据尚未完成并有局部污损的频率分布表和频数分布直方图,解答下列问题:
⑴ 填充频率分布表的空格(将答案直接填在表格内);
⑵ 补全频数条形图;
⑶ 若成果在75.5~85.5分的同学为二等奖,问获得二等奖的同学约为多少人?
【例20】 (2010丰台一模)
某校高三(1)班的一次数学测试成果的茎叶图和频率分布直方图都受到不同程度的破坏,但可见部分如下,据此解答如下问题.
⑴求全班人数及分数在之间的频数;
⑵估量该班的平均分数,并计算频率分布直方图中间的矩形的高;
⑶若要从分数在之间的试卷中任取两份分析同学失分状况,在抽取的试卷中,求至少有一份分数在之间的概率.
【例21】 某地区为了了解岁老人的日平均睡眠时间(单位:h).随机选择了位老人的进行调查.下表是这位老人日睡眠时间的频率分布表.
序号
()
分组
(睡眠时间)
组中值
()
频数
(人数)
频率
()
1
[4,5
6
2
[5,6
10
3
[6,7
20
4
[7,8
10
5
4
在上述统计数据中,一部分计算见算法流程图(其中可用代替),
则输出的的值是 .
展开阅读全文