第五章数据资料的整理与显示.doc

资源描述

第五章　数据资料的整理与显示第一节数据资料整理一、数据资料整理的概念资料整理，就是根据调查研究的目的，运用科学的方法，对调查所获得的资料进行审核、检验、分类、汇编等初步加工,使之系统化和条理化，并以集中、简明的方式反映调查对象总体情况的工作过程。通过调查或实验所得原始资料是分散的、零乱的，只有对这些原始资料进行科学整理,才能从中找出规律,实现由个体到全体、由特殊到一般、由现象到本质、由感性到理性的转化，弄清研究总体的特征。数据资料整理过程包括: 1。对搜集到的资料进行全面审核，发现问题，及时纠正； 2。根据研究目的要求和统计分析的需要，对原始资料进行划类分组； 3。在分组的基础上，将各项资料进行汇总，得出反映各组和总体的总量指标; 4。将整理好的总量指标,通过统计表、统计图显现出来。二、数据资料的检查与核实 1.对原始数据进行审核在调查和研究过程中,受取样、分析测试条件及操作人员的因素的影响，存在记录不全、数据错误等现象，在对原始数据进行整理之前，必须对全部数据进行核对，保证检查原始资料的正确性、完整性和及时性。这是一项非常重要的工作，只有经过检查与核对的数据才能进行统计分析,真实地反映出调查和试验的客观情况. 对资料完整性和及时性检查，主要是根据调查和研究方案的要求，检查各项资料是否齐全，是否按规定的份数、内容和时间上报等。对资料正确性的检查，是数据检查与核实的核心,也是审核工作中的难点，主要看数据本身有无错误及调查数据的口径、计量单位等是否符合规定的要求. 对检查合适的方法有两种:逻辑检查和计算检查法。逻辑检查是根据调查、研究指标间的内在联系，从理论上或常识上审核资料的内容是否合理，符合逻辑，相关指标之间有无相互矛盾之处等,如某企业上报的排水量仅占其新鲜用水量的20％，这是不合情理的。计算检查，是检查调查表中各项数字的计算方法、计算口径和计算结果有无错误，计算单位是否符合要求，数字之间该平衡的是否平衡，如审核各单项之和是否等于小计，小计之和是否等于合计,各横行、纵栏的合计有无错误等。对原始资料检查核实后,如发现遗漏,应及时补充，如发现错误，要找出发生错误的原因,及时纠正,必要时要重新试验或调查。 2. 对二手数据进行审核二手数据是通过其他渠道取得的数据，其中的有些数据可能是为特定目的通过专门调查而取得的，或者是已经按特定目的的需要做了加工整理的。对于使用者来说,除对其完整性和准确性进行审核外,还应着重审核数据的适用性和时效性。适用性审核就是要弄清楚数据的来源、数据的口径以及有关背景材料，以便确定这些数据是否符合自己分析研究的需要、是否需要重新加工整理等,不能盲目生搬硬套。时效性审核用于某些时效性较强的问题，因为对这些问题，如果所取得的数据过于滞后，就可能失去了研究的意义。一般来说,应尽可能使用最新的统计数据. 数据在经过审核后,确认适合于实际需要，才有必要做进一步的加工整理. 3. 数据筛选审核后，在发现有些数据中的错误不能予以纠正，或不符合调查的要求而又无法弥补时，就需要对数据进行筛选，剔除某些不符合要求的数据、不符合特定条件的数据及有明显错误的数据，将符合特定条件的数据筛选出来. 三、数据资料分组(grouping of classes) 1. 数据资料分组的概念及作用数据分组是根据统计研究目的和被研究总体的本质特征，按照一定的标志将总体划分成性质不同的若干部分或组别的一种统计方法。通过统计分组，保持了数据资料组内现象的同质性和组间现象的差异性，不仅能反映环境现象的不同类型,得到现象总体内部各部分的构成特征，也使得运用各种统计分析方法进一步研究环境现象之间的相互依存关系更为方便。因此，统计分组是统计资料整理的基础，也是统计分析的基本方法。 2.分组的标志的选择分组标志是分组的标准或依据.正确选择分组标志是统计分组的关键，分组标志的选择是否正确,直接关系到分组的科学性，关系到分组结果能否正确反映调查对象的总体情况，在实际工作中,一定要根据统计的目的和要求,在若干标志中选择最能反映现象本质特征的标志进行分组。常用的分组标志有四种，即质量标志、数量标志、空间标志和时间标志。（1)质量标志按总体的性质分组。环境调查与研究中常按国民经济类别、工业行业的类别等标志分组.按质量标志分组，可以把不同性质或类别的事物区别开来,有利于认识不同质的事物的数量特征，有利于对不同质的事物进行对比研究；而且由于事物质的属性和特征差异是相对稳定的，这种分组一般也相对比较稳定.但是，有时组与组之间的界限边缘模糊不清,难以划定，在实际统计工作中应根据国家或主管部门制定统一的标准或分类目录进行标志分组。（2)数量标志按总体数量特征的标志分组，如生产发展规模、水平、速度、比例、污染物排放数量等。按数量标志分组，能直接反映总体单位之间的数量差异，有利于从数量上准确认识客观事物,研究和分析不同数量特征事物之间的关系。 (3）空间标志按研究对象的地理位置、区域范围等空间特性分组，如行政区划、经济区划和生态环境功能分区等.按空间标志分组,可以把不同地域的事物区别开来，有利于了解事物的空间分布状况，便于对不同地理位置、区域范围内的环境现象进行比较研究。（4）时间标志按事物的持续性和先后顺序分组。按时间标志分组，有利于认识事物在不同时点或时期的变化，揭示事物运动、变化、发展的趋势。四、数据分组的方法 1。次数分布的概念对调查或试验所得的数据资料,经检查与核对后，根据样本资料的多少确定是否分组。如是样本容量在30以下的小样本,可不进行分组,直接进行统计分析。对样本容量在30以上时的大样本，应将数据分成若干组,计算其在各组区间内的变数个数（即次数),由各区间内变数出现的次数组成的分布为变数的次数分布。分布在各组中的个体单位数叫做次数或频数，各组次数与总次数之比叫做比率或频率。次数分布是整理资料时常用的一种方法，它反映了所研究的总体中所有的单位数在各组内的分布状态和总体的分布特征，并据以研究总体某一标志的平均水平及其变动的规律，便于进一步计算和分析。 2.次数分布表的制作反映数据分布特征的表格为频数表（或次数表)，频数分布表的制作是在对样本分组的基础上进行的。（1)连续性数据资料的次数分布表计量资料的整理分组是采用组距式分组法。在分组前需要确定全距、组数、组距(class interval）、组中值和组限(class limit)，然后将每个观测值分别归入相应的组内。 [例5—1] 以某路口环境噪声测量值（dB)资料为例，说明计量资料的整理方法和具体步骤。表5—1 100个噪声测量值（dB） 64 73 67 71 67 71 68 70 70 68 69 63 68 70 66 73 71 87 76 74 58 84 63 76 66 74 68 73 70 71 58 82 75 63 74 66 73 69 68 71 80 57 62 75 66 74 68 72 69 71 81 75 74 72 71 69 67 65 62 56 79 73 75 70 72 67 69 62 65 56 55 61 64 67 69 72 70 76 73 79 78 54 74 60 73 64 72 67 70 68 52 78 51 77 60 74 59 74 64 73 1）求全距或极差其中，为最大观测值，为最小观测值表5-1中，可以看出变数最大值是87，最小值是51，因此全距为87—51=36. 2）确定组数组数确定应考虑样本容量的大小、全距的大小、便于计算、能反映出资料的真实面貌等因素。通常，组数的划分可参照表5-1样本容量与分组数的关系进行，也可用Sturge公式粗略估计：式中，为样本容量，表中，。可以确定为一个与估计值较接近的整数，表5-1的资料可初步确定分为9组. 表5-2 样本容量与分组数的关系样本容量分组数 30～60 5~8 60～100 7~10 100～200 9～12 200~500 10～18 500以上 15～30 3）确定组距组距为每组的上限与下限之差，由全距除以组数来估计，即：由此公式所求得的组距不一定是整数，为了便于计算可以采用整数作为组距.将表5—1 资料的数据代入上述公式,得。 4) 确定组中值组中值是两组限(每组的上限与下限)的中间数值，其计算公式为：或组中值是一组数据的代表值。为避免计算时小数的麻烦，组中值最好是整数。 5)确定组限与分组组限即一个组所在区间的两个极端值，大的为上限，小的为下限。在将原始数据分成若干组段时，要求第一组的下限略小于或等于最小变量值,最后一组的上限要略大于或等于最大变量值。组限要明确，最好比原始资料的数字多一位小数，当与原观察值的小数位数相同时，规定组区间为左闭右开区间,使观测值归组时不致含糊不清。表5—1中最小值为51，第一组的下限可定为51,第一组下限确定后即可求出各组的组限。由于各组之间的组距相等,故第一组下限加上组距就可得出第二组的下限，第二组下限加上组距就是第三组下限，余类推，直到能包括数据中最大值为止。 6）制成次数分布表确定好组数和各组上下限后，可按原始资料中各观测数的次序，把各个数值归于各组，一般用“正”字划计法或卡片法来计算各组的观测数次数。全部观测数归组后，即可求出各组的次数和频率,制成一个次数分布表(表5-3). 表5-3 100个噪声测量值（dB）次数分布表组限（dB）组中值（dB）次数频率 51—55 53 3 0.03 55—59 57 6 0.06 59—63 61 8 0。08 63—67 65 13 0。13 67—71 69 25 0。25 71—75 73 28 0。28 75—79 77 10 0.10 79—83 81 5 0.05 83—87 85 2 0.02 由次数分布表看出，该路口环境噪声的变异范围在51—87 dB之间，大部分在67—75 dB之间,次数分布的规律是中间的次数多，两边的次数少。（2) 间断性数据资料的次数分布表对间断性数据资料，如变量值的变动范围很小或变量值的个数较少时，用样本变数的自然值进行分组，每组均用一个变数值来表示。分组时,可将数据中每个变数分别归入相应的组内，然后制成次数分布表. [例5—2］表4—4为某地区100个工业企业的废水排放量（万吨），试对其进行次数分布表。企业废水排放量在14～22（万吨）的范围内变动，把所有观察值按排放量多少加以归类,共分为7组，将各组所属数据进行统计，得出各组次数，计算出各组的频率，这样经整理后可得出废水排放量的次数分布表，见表5-5。从表5—4 可知道，这100个企业中，废水排放量以17万吨的最多，其次为19万吨等。表5—4 100个企业废水排放量（万吨) 19 20 15 19 20 21 17 17 21 15 17 14 20 15 20 19 15 21 19 22 21 17 19 17 15 17 21 17 15 17 19 14 19 17 19 17 19 22 17 19 17 17 20 19 17 14 19 17 19 15 21 19 17 14 17 20 15 22 17 21 17 17 19 17 20 14 19 17 20 17 17 15 14 15 17 17 22 14 15 15 20 19 17 17 21 17 19 20 15 20 19 17 15 20 19 17 15 21 17 19 表5-5 100个企业废水排放量（万吨）的次数分布表废水排放量（万吨）次数频率 14 7 0。07 15 15 0。15 17 32 0。32 19 21 0。21 20 12 0。12 21 9 0.09 22 4 0。04 在变量较多或变异范围较大时,若以每一变量值划分一组，则组数太多而每组变量数目较少，看不出数据分布的规律性。如研究各行企业废水排放量为11~42万吨,如果按一个变量分为一组，需要分32组，显得十分分散。为了使次数分布表表现出规律性,可以按4个变量分为一组，分11～14、15～18、19~22、23~26、27～30、31～34、35～38、39～42共8个组，取200个企业的资料,进行整理,计算出各组的次数、频率，结果见表5-6，就可明显表示出其分布情况,大部分企业的废水排放量在23～26万吨之间。表5-6 200个工业企业废水排放量次数分布表废水排放量（万吨）次数频率 11~14 12 0.06 15～18 24 0。12 19~22 42 0.21 23~26 54 0。27 27~30 30 0.15 31~34 24 0.12 35~38 10 0。05 39～42 4 0.02 (3）质量性状资料、半定量（等级)资料的的次数分布对于质量性状资料、半定量（等级）资料．可按性状或等级进行分组，分别统计各组的次数，制成次数分布表。 2。次数分布图的制作次数分布图就是把次数分布资料画成统计图形。次数分布图可以更直观地观察各组变量次数分布的情况，形象地把资料特征表达出来.常用的次数分布图有柱形图、直方图、多边形图和饼图，按资料性质分别采用。线条图如采用单个变量值分组,以变量值为横轴,相应的频数或频率为纵轴绘制线条图，如图5—1为某省小流域治理试点分布图. 柱形图柱形图适合于表示计数资料的次数分布。作图时，用横坐标表示各组组限，纵坐标表示次数，按各组组距的大小和次数多少,分别截取一定的宽度和高度用直线连接起来，构成一个长方形。每个柱形之间隔出一定距离，以区别于下面要介绍的直方图.图5-2为某地100个企业废水排放量的次数分布柱形图。图5-1 某省小流域治理试点线条图试点数图5-2 100个企业废水排放的次数分布柱形图废水排放量（万吨）直方图和多边图如采用组距分组，应绘制直方图。绘图时，以横坐标表示分组变量值，纵坐标表示频率或频数，将横轴分为若干以组距为单位的小区间，在各区间上作高度等于频数或频率的矩形，即为直方图。多边形图也称折线图，实质上是直方图的另一种形式，作折线图时，以横坐标表示各组组中值，纵坐标表示次数，在各组组中值的垂线上，按该组次数应占高度标记一个点，把相邻的点用直线段顺次连接起来，即成多边形图。图4-3是某路口100个噪声测量值（dB)的次数分布直方图和次数分布为例作出多边形图。多边形图直方图图5-3 100个噪声测量值的次数分布直方图和多边形图第二节特征数的确定数据资料的次数分布表或分布图描述的是数据资料的全貌，从分布表或分布图中可以直观地了解其分布的规律，如变异幅度、集中位置、分布的对称性等情况.变量的分布还具有两种明显的基本特征，即集中性和离散性。前者指变量在趋势上有向某一中心聚集,或以某一数值为中心而分布的性质；后者指变量有离中分散变异的性质。在统计分析中,为了解用于表征数据资料的集中趋势或变异程度的一些指标值,必须计算它们的特征数。一、表征数据资料集中趋势的统计特征数 1．平均数平均数（mean）用于描述数据资料的集中趋势，它反映了资料的一般水平及中心位置，并可作为资料的代表跟其他资料比较。常用的平均数有以下2种. (1）算术平均数（均数）算术平均数(arithmetic mean)是一组数据的总和除以该组数据的个数所得的商.总体平均数以m表示。（5—1）对无限总体,m往往是未知的，需要通过试验取得样本，由样本平均数来估计.如果样本容量为，观测值为，样本平均数的计算方法有三种: 第一种为直接计算法（5-2）该法在样本容量较小,资料内包含观察值的个数不多时使用。［例5-3］随机抽取20个城市的空气污染指数，其API分别为82,79,85，84，86,84,83，82,83,83，84，81，80,81，82，82,82,80,82，81，求API的平均值. 第二种为减去常数法若变量的值都较大，且接近某一常数a时，可将它们的值都减去常数a，得到一组新的数据,然后再计算平均数.即:设,则有，有：（5—3） [例5-4］利用减去常数法，计算[例4-3]的平均数设a=80,有代入式（5—3）得：第三种是加权平均法在有个观测数的样本中,如果观测数出现次，观测数出现次，……,观测数出现次，且,有: （5-4）式中，可理解为在平均数中的“权数”，即数值相同的观测数出现的次数. ［例5-5］利用加权平均法，计算例5-3的加权平均数。先整理20个API数据如表5—7。表5-7 20个城市的API数据的次数分布 API 次数 79 1 79 6241 80 2 160 12800 81 3 243 19683 82 6 492 40334 83 3 249 20667 84 3 252 21168 85 1 85 7225 86 1 86 7396 由式（5—4),得：算术平均数是最常用的平均数。在一个样本中，观察值与该样本平均数的差称为离均差，它具有下列性质： 1）离均差的总和为0,即 2）离均差的平方和最小样本各观测值与其平均数的差数平方的总和，较各个观测值与任意其它数值的差数平方的总和小，即最小。算术平均数是描述观测资料的重要特征数,它的作用主要有以下两点:指出一数据资料内变量的中心位置，标志着资料所代表性状的数量水平和质量水平；作为样本或资料的代表数与其他资料进行比较。（2）几何平均数如果所得的资料是偏态的，有部分数值偏大或偏小，其变数是以几何级数增加的，或对增长率或比率进行平均,算术平均数的代表性就显得较差，此时就要用几何平均数(geometric mean)。一组观察值的连乘积再开这群数值的个数次方所得的值，称为几何平均数，记为，设有一组观察值，则其几何平均数为：（5-5）为计算方便，对于上式可用对数表示，把上式的两边取对数可得： (5-6) (5—7） [例5-5] 现有10个城市的CO浓度值（小时均值）（单位：mg/m3N）分别为21,22，22，22，23，24，27，31，33，36，试求这10个城市CO浓度的几何平均值。 mg/m3N 据报道,环境介质中许多物质浓度数据的分布近似呈第四章提到的对数正态分布,这时计算和应用几何均数有着重要的意义. 2。中位数在同一性质资料内，将所有观察值按大小顺序排列,居中间位置的观察值称为中位数(median），简称中数，记作Md，如果数值的个数是偶数，则以居中的两个数值的算术平均数为它的中位数.在例4-5中，因观察值的个数是偶数，所以应取居中的两个数值的平均数，即Md=(23+24）/2=23。5 mg/m3N 3.众数在同一性质的资料中，如某一观察值出现的次数最多，即称该观察值为众数（mode），记作Mo，在分组资料中，求众数时先找出众数所在组,即次数最多的一组，在例2。4中，观察值出现最多的是22，即众数Mo＝22 mg/m3N 二、表征数据资料变异性的特征数 1。极差极差又称全距，它是样本变量中最大值和最小值之差，一般用R表示。（5-8）样本极差较大，它的变异范围较大，其平均数的代表性较差；样本极差较小，它的变异范围较小，其平均数的代表性就较好。极差的大小由两个极端观察值决定，不能反映资料的全部信息，容易受到资料中不正常的极端值的影响，全面反映事物变异的实际情况的精确度差，一般只作参考，说明大致情况,而不常作为使用的依据。 2。方差平均值是样本或总体的代表值,每一个观察值与平均值的差为离均差，它可度量每个观察值偏离平均数的程度，但各离均差的总和为0，把各个离均差平方，即可消除正、负值抵消的影响，并可以加重较大离均差的分量，借以增加度量变异度的灵敏度。将各个离均差平方的总和所得数值称为离均差平方和,简称平方和，记为SS，定义如下：样本（5-9）总体（5-10）由于各个样本所包含的观察值数目不同,为了便于比较起见，用观察值数来除平方和，得到平均平方和,简称均方或方差.样本均方用（或MS）来表示,定义为: (5—11）样本均方是它的总体方差（）的最好估计值，总体方差用来表示，定义为: （5—12) 式中：为自由度，为有限总体所含个数，均方和方差这两个名称常常通用，但习惯上样本的称为均方，而总体的称为方差。比较上述两式，样本均方不以样本容量,而是以自由度作为除数，这是因为通常所知的是样本资料，而并不知总体平均数的数值，因此不得不用样本平均数来代替。由于与总有差异,且根据平均数的性质,比，由运算出的均方将偏小，如果分母用来替代，则可免除偏小的弊病。自由度的解释是：对于一个具有个观察值的样本，在每一个与比较时，虽然具有个离均差，但因受到的限制，所以只有个是自由变动的。在估计统计数时，如果统计数受个条件限制，则自由度应为个。 3. 标准差 ⑴ 标准差的定义标准差是方差的正平方根，用来表示资料的变异度，其单位与观察值的度量单位相同.从样本资料计算标准差的公式为：（5-13）样本标准偏差是总体标准偏差的最好估计值。总体标准差的计算公式为：（5-14) 为样本标准差,为样本平均数，为自由度，为总体标准差，为总体平均数，为有限总体容量。表5-8 工业固体废弃物年排放量平方和计算排放量 45 2025 0 0 42 1764 -3 9 44 1936 -1 1 41 1681 —4 16 47 2209 2 4 50 2500 5 25 47 2209 2 4 46 2116 1 1 49 2401 4 16 （2）标准差的计算直接法按公式计算,先求出，再求出各个和各个,求和得,带入公式可计算得到。 [例5-6] 为9省市的工业固体废弃物年排放量（106 t）的数据，列于表5-8，计算其标准差。将表5-8资料数据按两种算法代入式（5—13），得：矫正系数法: （5-14）式中，为矫正数，记作. 则，可以比较简便地算出标准差。加权法若样本较大，且已获得次数分布表，用频数分布来计算标准差，其公式： (5-15) 标准差是度量样本观测值的变异程度,在正态分布情况下，还可用于估计一个样本变量的分布情况：在平均数的1倍范围内（）的观测数个数约为观测数总个数的68。27％;在平均数的2倍范围内（的观测数个数约为观测数总个数的95。46％，在平均数的3倍范围内（）的观测数个数约为观测数总个数的99.73％. 4。变异系数（coefficient of variation）变异系数亦称离散系数，为样本标准差对平均数的百分比，是样本内观察值相对变异程度大小的指标，符号为,计算公式为：（5-16）变异系数是相对数值，没有单位。其作用如下：(1）比较均数相差悬殊的几组资料的变异度，当比较不同组观察值的离散程度时，如果不同组的均数相差较大，就不能用标准差作为比较指标，而应采用变异系数作为比较的变异指标；（2）比较度量单位不同的几组资料的变异度。用变异系数比较资料的变异度，和标准差一样，变异系数越小，表示观察值的变异度越小；反之，变异度则越大。因此，对总体或样本的特征就可用平均数、标准差和测定次数三个指标来表示，这样不仅能反映总体或样本的平均水平，还能反映其变异程度，及测定资料的可靠性.在有的论文中还用测定值的变异系数进行变异程度的比较 5.偏度系数偏度系数用于衡量变量次数分布不对称的程度。其计算公式为： (5-17）式中:为标准差，对分组资料，的计算公式为：（5-18）当时,次数分布为对称分布，变量的平均数、众数与中位数是一致的，时为负偏，平均数小于众数和中位数，即；时为正偏,平均数大于众数和中位数，即。不同偏度曲线的类型见图5-5。图5—5 不同偏度曲线的类型 6. 峰度系数（5-19）峰度系数是度量变量频率分布形态的另一种指标。计算公式为：（5-20) 对分组资料，的计算公式为: 图5-6 不同峰度系数频率曲线示意图如图5—6 所示，当时，分布为正态;当时，分布为低峰态;当时，分布为高峰态. 第三节正交试验结果的直观分析一、正交试验直观分析的目的直观分析主要可以解决以下两个问题：（1）求最佳水平组合，即寻找各因素分别取何水平时，所得到的试验结果全最好；(2)求影响因素的主次顺序，将所有影响因素按其影响的大小进行排队。求影响因素的主次顺序，常采用极差分析法进行。某个因素的极差为该因素的最大水平均值与最小水平均值之差。极差大表明该因素影响大，是主要因素；极差小说明该因素的影响小,为次要因素。二、直观分析的步骤以表为例说明正交试验结果的直观分析方法.利用该正交表安排一个三因素三水平试验，因素依次安排在第1、第2和第3列，共做了9次试验，每次试验结果记为。进行直观分析的步骤为：（1）计算各因素的水平总值。它等于第因素在第个水平所做的次试验结果之和。对等水平正交表,各个因素的水平重复次数相等，对混合型正交表,不一定相等. （2)计算水平均值，（3）根据某因素的水平均值即可求得该因素的极差。（4）根据各因素的水平均值与极差确定最佳水平组合与因素的主次关系. 表 5—9 正交试验直观分析表试验号因素因素因素因素试验指标 1 2 2 1 3 3 4 1 5 3 6 2 7 3 8 2 9 1 假设计算结果为因素的第一个水平均值最好，因素的第二水平均值最好，因素的第三个水平均值最好，因素的第二水平均值最好，则最佳水平组合为. 如果极差的大小顺序为，各影响的大小顺序为。 [例5-7]利用磷酸铵镁（MAP)法处理含高浓度的氨氮废水，使其中的氨氮转化为缓释肥料，解决氮的回收和氨的二次污染问题。以pH(A因素），反应温度(因素)、,为试验因素，利用正交表，以氨氮去除率为考察指标，确定最佳工艺，试验结果如表5—10。表5—10 正交试验结果试验号因素因素因素因素氨氮去除率（%） 1 7.0 13 0。8 1.0 85.51 2 7.0 32 1。0 1。2 88。71 3 7.0 48 1.2 1。4 81.18 4 9。0 48 1.0 1.0 97.74 5 9。0 13 1。2 1.2 83。47 6 9.0 32 0.8 1.4 76.96 7 11.0 32 1.2 1.0 72。03 8 11.0 48 0.8 1.2 99。35 9 11。0 13 1.0 1。4 99.96 255。4 268.9 261.8 255。3 258.2 237。7 285.8 271.5 271。3 278。3 236.7 258.1 85。1 89。6 87.3 85.1 86。1 79。2 95.5 90.51 90.4 92。7 78。9 86.0 5.3 13。5 16。6 5.51 以氨氮去除率（％）为考察指标，结果仍见表5-10。因素的第三个水平均值最好,因素的第三水平均值最好，因素的第二个水平均值最好，因素的第二个水平均值最好，其最佳水平组合为，即以pH11。0、为1.0、反应温度为48℃、为1。2时氨氮去除率(％）最高。其极差的大小顺序为,各影响的大小顺序为。但是表5—10中并没有这个组合，9次试验中氨氮去除率最高的组合是，如何进行选择呢?这就要看试验因素对试验指标影响的重要程度。在确定最优方案时，对重要因素优先定最佳水平，对不重要因素可根据节约、方便选择适当的水平。第四节可疑值的取舍一、可疑值的概念一般情况，从一个总体进行抽样时,取值愈接近分布中心,其出现的可能性就愈大,距分布中心远的取值出现的概率就愈小.一个样本中出现概率很小的值称为可疑值（或异常值，outlier）.在实际研究中，因偶然因素或测定过程中的某些失误,都会产生可疑值,给统计结果的分析带来不利的影响，在统计分析以前对统计数据进行审核、检验并剔除其中的可疑值。二、可疑值剔除的方法 1．物理判别法在环境科学研究过程中，凡是因布点、采样、运输、保存、分析测试本当以及由于人为疏忽所引起的异常样点或测试数据，随时发现,随时就应剔除，并补采样品或更新测试，这是首要的方法。 2. 画直方图(频数分布检验法) 直方图是一种既简单又直观的频数分布图,也是一种常用的密度估计方法。用直方图来判别离群值，具有直观可靠、简单快速等特点，为环境统计单元异常值判别的最常用的方法。 3.法亦称四倍平均偏差法，适用于4—6个平行测定所得数据的检验。用法处理实验数据的步骤如下：（1)将可疑值除外，求其余测定值的均值（）和平均偏差(). (2）如果可疑值，则舍去此可疑值，否则应予以保留。［例5—8］测得某路口环境噪声的6次平行值（dB）分别为68、64、73、67、71、80。试问80这个数值是否应该舍弃？解计算除80以外的其余五个数据的平均数和平均偏差：由于〉所以 80这个数值应该舍弃. 4.格鲁布斯＜Grubbs)检验法设有一组测定值,其中或可疑，需要进行判断。算出个测定值的及若怀疑，则计算 (5—21) 若怀疑则计算（5—22) 算出的或的值大于表5—11的临界值（置信概率95％）,则或弃去，反之则保留。表5-11 格鲁布斯临界值数据个数置信概率数据个数置信概率数据个数置信概率 95% 99％ 95% 99% 95% 99% 3 1。15 1.15 12 2。29 2.55 21 2。58 2.91 4 1。46 1。49 13 2.33 2。61 22 2.60 2.94 5 1。67 1。75 14 2。37 2。66 23 2.62 2。96 6 1。82 1。94 15 2.41 2.70 24 2。64 2。99 7 1。94 2.10 16 2.44 2.74 25 2。66 2.96 8 2。03 2.22 17 2。47 2.78 30 2.74 3.01 9 2。11 2.32 18 2.50 2。82 35 2.81 3.10 10 2.18 2。41 19 2.53 2。85 40 2.87 3。24 11 2.24 2。48 20 2。56 2.88 50 2.96 3。34 [例5—9] 如两个或两个以上的可疑值，并处于的同侧，如下图5-7，其中与其它数据偏离较远，用上述方法检验内测的,用计算，如判断应舍弃，则也随之舍去，如应保留，则需检查。如两个或两个以上的可疑值位于的两侧,如下图5-7 ，可用上述方法暂时去掉，用计算，检验是否保留，再暂时除去，用计算，检验是否保留. 图5-7 5．狄克逊(Dixon)检验法当测定值数目较多时,计算标准差比较麻烦.利用极差比的方法,可得到简化而严密的计算公式。为了提高判断效率，对不同测定次数应用不同的极差比计算。本法原则上适用于有一个可疑值的情况，如有2或3个可疑值，宜用Grubbs法，其过程为: 将测定结果按大小排列，有，设或可疑,分别用表5-12所示的公式计算系数r值，如，则或是合理的,应该保留，反之应舍去。表5—12 Dixon检验的临界值及系数的计算公式数据数置信概率（%）系数 95% 99％为可疑值为可疑值 3 0。941 0.988 4 0.765 0。889 5 0.642 0.780 6 0。560 0。698 7 0。507 0。637 8 0.554 0。683 9 0。512 0。635 10 0。477 0。597 11 0.576 0.679 12 0546 0。642 13 0.521 0.615 14 0.546 0.641 15 0.525 0.616 16 0。507 0。595 17 0.490 0。577 18 0。475 0.561 19 0.462 0.547 20 0。450 0。535 21 0。440 0.524 22 0.430 0.514 23 0.421 0.505 24 0。413 0。497 25 0。406 0.489 狄克松法一次能判别两个数据或，如果这两个数据都不是可疑值，判断结束。如果这两个数据中有含可疑值，则予以剔除。剔除后的数据列当做新的数据列(具有新的、和数据个数），重新根据狄克松法进行判断。 6.Q值法该法于1951年De an和Dixon提出的,对测定次数小于10次的数据适用。其过程为将测定结果按大小排列,有，设或可疑;计算数据的极差；计算

展开阅读全文