资源描述
频数 (频率)直方图
二、频数 (频率)直方图
(一) 直方图的作法
为研究一批产品的质量情况,需要研究它的某个质量特性 (这里为了叙述简单起见,仅讨论一个质量特性,有必要时也可以同时讨论多个质量特性)X的变化规律。为此,从这批产品(总体)中抽取一个样本 (设样本量为n),对每个样本产品进行该特性的测量 (观测)后得到一组样本观测值,记为x1,x2,…,xn,这便是我们通常说的数据。
为了研究数据的变化规律,需要对数据进行一定的加工整理。直方图是为研究数据变化规律而对数据进行加工整理的一种基本方法。下面用一个例子来说明直方图的概念及其作法。
[例1.3-3] 食品厂用自动装罐机生产罐头食品,从一批罐头中随机抽取100个进行称量,获得罐头的净重数据如下:
342
352
346
344
343
339
336
342
347
340
340
350
347
336
341
349
346
348
342
346
347
346
346
345
344
350
348
352
340
356
339
348
338
342
347
347
344
343
349
341
348
341
340
347
342
337
344
340
344
346
342
344
345
338
351
348
345
339
343
345
346
344
344
344
343
345
345
350
353
345
352
350
345
343
347
354
350
343
350
344
351
348
352
344
345
349
332
343
340
346
342
335
349
348
344
347
341
346
341
342
为了解这组数据的分布规律,对数据作如下整理:
(1)找出这组数据中的最大值xmax,及最小值xmin,计算它们的差R=xmax -xmin ,R称为极差,也就是这组数据的取值范围。在本例中xmax=356, xmin =332,从而R=356-332=24。
(2)根据数据个数,即样本量n,决定分组数k及组距h。
一批数据究竟分多少组,通常根据n的多少而定,不过这也不是绝对的,表1.3-2是可以参考的分组数。
表1.3-2 直方图分组组数选用表
样本量
推荐组数
50~100
101~250
250以上
6~10
7~12
10~20
选择k的原则是要能显示出数据中所隐藏的规律,组数不能过多,但也不能太少。
每一组的区间长度,称为组距。组距可以相等,也可以不相等。组距相等的情况用得比较多,不过也有不少情形在对应于数据最大及最小的一个或两个组,使用与其他组不相等的组距。对于完全相等的组距,通常取组距h为接近R/k的某个整数值。
在本例中,n=100,取k=9,R/k=24/9=2.7,故取组距h=3。
确定组限(即每个区间的端点)及组中值
(3)确定组限(即每个区间的端点)及组中值。为了避免一个数据可能同时属于两个组,因此通常将各组的区间确定为左开右闭的:
通常要求在等距分组时 ,而每一组的组中值
在本例中取则每组的组限及组中值见表1.3-3。
(4)计算落在每组的数据的频数及频率
确定分组后,统计每组的频数,即落在组中的数据个数ni以及频率fi=ni/n,列出每组的频数、频率表,见表1.3-3。
(5)作频数频率直方图
在横轴上标上每个组的组限,以每一组的区间为底,以频数(频率)为高画一个矩形,所得的图形称为频数 (频率)直方图,如图1.3-4。在本例中频数直方图及频率直方图的形状是完全一致的,这是因为分组是等距的。该图特点是:中间高,两边低,左右基本对称。这说明:这个样本可能取自某正态总体。
在分组不完全等距的情形,在作频率直方图时,应当用每个组的频率与组距的比值fi/ni为高作矩形,此时以每个矩形的面积表示频率。
直方图的观察与分析
(二)直方图的观察与分析
直方图可有各种形状,图1.3-4所显示的直方图是在质量管理中较常见的一种,还可能出现图1.3-5中所列的一些直方图。分析这些直方图出现的原因是一件很有意义的工作,找到原因,就可采取对策,提高产品的质量。
下面对图1.3-5上的若干直方图产生原因作初步分析。读者尚需结合现场作深入分析,因为原因可能是多样的。
图(a)叫对称型——即上面提到的中间高,两边低,左右基本对称的情况,在正常生产中许多质量指标呈现这种形状。
图(b)叫偏态型——常见的有两种形状,一种是峰偏在左边,而右面的尾巴较长;另一种是峰偏在右边,而左面的尾巴较长。造成这种图的原因是多方面的,有时是剔除了不合格品后作的图形,也有的是质量特性值的单侧控制造成的,比如加工孔的时候习惯于孔径“宁小勿大”,而加工轴的时候习惯于轴径 “宁大勿小”等。
图(c)叫孤岛型——往往表示出现某种异常,比如原材料发生了变化,生产过程发生了变化,或有不熟练的工人替班等。
图(d)叫锯齿型——可能由于测量方法不当,或者是量具的精度较差,也可能是因分组不当引起的。
图(e)叫平顶型——往往是由于生产过程中有某种缓慢变化的因素造成的,比如刀具的磨损等。
图(f)叫双峰型——往往是将两台不同精度的机床生产的或两个不同操作水平的工人生产的或由两批不同原材料生产的产品的数据混合所致。
(三)数据变换可改变直方图的形状
对数据作变换会改变直方图的形状,例如选择适当的变换可使偏态分布转化为正态分布,下面的例子说明了这个想法是可行的。
[例1.3-4] 原素铍的照射会引起动物细胞分裂,从而对身体引发损伤。在这里细胞分裂时间(interdivision time 简记为IDT)是重要指标。现记录40个细胞的分裂时间IDT(Envir Research(1983)pp.34~43),列于表1.3-4。把它分为7个区间,组距为10,画出频率直方图(见图1.3-6(a))。从图上看是偏态分布。若对每个IDT取十进对数(见表1.3-4)后再作直方图,从1.1开始,每隔0.1分为一组,共分8组。新的直方图(见图1.3-6(b))就近似于正态分布。
展开阅读全文