资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,2,章测量误差分布,误差理论与数据处理,自动化工程学院,陈立军,主要内容,熟悉误差分布的基本概念、常见误差分布特征与处理方法,直方图的绘制,概率密度分布图,误差分布的特征值,常见的误差分布,常用的统计量分布,误差分布的统计检验,主,要,内,容,2.1,测量误差的统计特性,2.2,常见测量误差分布,2.3,常见的统计量分布,2.4,误差分布的分析与检验,1,2,3,4,2.1,测量误差的统计特性,一、测量点列图,某钢球工件直径重复测量,150,次,,得到一个测量样本,7.085,7.335,7.585,单峰性,:数据集中在,7.335,附近,有界性,:数据分布在,7.085,至,7.585,之间,对称性,:正负误差的数目大致相同;,抵偿性,:误差的总和大致趋于零,(,1,)分组数,=11,,组距,=0.05mm,;,(,2,)依次定各组的频数、频率和频率密度;,(,3,)以数据为横坐标,频率密度为纵坐标,在横坐标上划出等分的子区间,划出各子区间的直方柱,即为所求统计直方图。,7,7.1,7.2,7.3,7.4,7.5,7.6,0,5,10,15,20,25,二、统计直方图,绘制统计直方图注意事项,(,1,)样本大小:,确定误差的分布范围时,取,n=50,200,确定误差分布规律时,最好取,n=200,1000,(,),子区间个数、间距:,当,n=50,100,时,个数,=6,10,当,n=100,200,时,个数,=9,12,当,n=200,500,时,个数,=12,17,当,n=500,以上时,个数,=20,可用下列两个公式之一来计算分组数 或间距,或,把各直方柱顶部中点用直线连接起来,便得到一条由许多折线连接起来的曲线。当测量样本数,n,无限增加,分组间隔趋于零,图中直方图折线变成一条光滑的曲线,即测量总体的概率(分布)密度曲线,记为。这就是用实验方法由样本得到的,概率密度,分布曲线。,7,7.1,7.2,7.3,7.4,7.5,7.6,0,5,10,15,20,25,三、概率密度(分布)图,(测量总体),概率密度曲线完好的描述了随机误差的统计规律。,概率密度函数的几何意义,置信区间,显著性水平(又称显著度或危险率),置信概率(或置信水平),简记为符号,概率密度的性质,有两个性质,四、统计分布特征值,尽管误差分布反映了该误差的全貌,但在实际使用中更关心代表该误差分布的若干数字特征量。,数学期望,标准偏差,偏态系数,峰态系数,协方差,相关系数,数学期望(加权平均),定义,一阶原点矩,它表示随机变量分布的位置特征。它与真值之差即为系统误差,如果系统误差可以忽略,则 就是被测量的真值,三条测量值分布曲线的精密度相同,但正确度不同。,数学期望代表了测量的最佳估计值,或相对真值的,系统误差大小,标准偏差,二阶中心矩,称为,X,的标准(偏)差,的大小表征了随机误差的,分散程度,,即大部分分布在 范围内,可作为随机误差的评定尺度,定义,三条误差分布曲线的正确度相同,但精密度不同,标准差代表了该测量条件下的测量结果分散性的大小,或是该测量分布的,随机误差,大小,偏态系数,定义,三阶中心矩,将 无量纲化,称为偏态系数,描述了测量总体及其误差分布的非对称程度,曲线,具有正,(,右,),偏态,曲线,具有负,(,左,),偏态,峰态系数,定义,表征了测量总体及其误差分布的峰凸程度。是将 无量纲化,也称峰度,而 是按标准正态分布归零,即对于正态分布超越系数 视为零,较尖峭的分布有 ,较平坦的分布有,协方差,定义,式中,协方差 表示了两变量间的相关程度,相关系数,定义,表示了两个变量间线性相关的程度,越小,,X,,,Y,之间线性相关程度越小,取值越大,,X,,,Y,之间线性相关程度越大,当,,,X,与,Y,正相关,当 ,,X,与,Y,负相关,线性相关,正相关,负相关,线性不相关,数学期望,名称,定义,方差,几何意义,误差意义,偏态系数,峰态系数,协方差,位置特征,实际值正确度,弥散,分散性,精密度,不对称,误差分布不对称性,尖峭,误差分布尖峭程度,两误差关联程度,统计分布常用的特征值,2.2,常见测量误差分布,正态分布,标准偏差,均匀分布,三角分布,瑞利分布,反正弦分布,分布,几种常见的误差分布,一、正态分布,服从正态分布的条件,误差因素多而小,无一个占优,彼此相互独立(中心极限定理)。,一般认为,当影响测量的因素在,15,个以上,且相互独立,其影响程度相当,可以认为测量值服从正态分布;若要求不高,影响因素则应在,5,个(至少,3,个)以上,也可视为正态分布。,概率密度函数,正态分布的密度函数:,为测量总体的数学期望,如不计系统误差,则 即为随机误差,为测量总体的标准差,也是 随机误差的标准差,(,1,)单峰性:小误差出现的概率比大误差出现的概率大。,(,2,)对称性:正误差出现的概率与负误差出现的概率相等。,(,3,)抵偿性:随测量次数增加,算术平均值趋于零。,分布的误差特性,正态分布的这三个特点与误差,大样本,下的统计特性相符。但在理论上,正态分布无界,这也是正态分布与实际误差,有界性,不相符之处。,正态分布的置信概率,误差在分布区间 的置信概率,式中,68.26%,95.45%,99.73%,置信概率,正态积分函数,已制成正态积分表,置信因子,正态分布的某些,k,值的置信概率,3.3,3.0,2.58,2.0,1.96,1.645,1.0,0.6745,0.999,0.9973,0.99,0.954,0.95,0.90,0.683,0.5,0.001,0.0027,0.01,0.046,0.05,0.10,0.317,0.5,(1),经典误差理论都是建立在正态分布的,基础,上。凡是有,3,、,5,个以上的、差不多微小的、独立影响的合成分布都趋近正态分布。这是被前人早已证明了的中心极限定理告诉我们的一个事实。,正态分布在误差理论和实践中的地位,(2),许多非正态分布可以用正态分布来表示。,(3),正态分布的概率密度函数具有简单的数学形式和优良的性质。,当然,也有不少的误差分布并不能简单地用正态分布来描述。因而,现代误差理论及其实践需要进一步研究非正态分布的问题。,二、均匀分布,若误差在某一范围中出现的概率相等,称其服从均匀分布,也称为等概率分布。,概率密度函数,数学期望,方差,标准方差,置信因子,o,-a,a,服从均匀分布的可能情形,(1),数据截尾引起的舍入误差,;,(2),数字显示末位的截断误差,(3),瞄准误差,;,(4),数字仪器的量化误差,;,(5),齿轮回程所产生的误差以及基线尺滑轮摩擦引起的误差;,(6),多中心值不同的正态误差总和服从均匀分布。,三、三角分布,概率密度函数,数学期望,标准方差,当两个分布范围相等的均匀分布,其合成误差就是三角分布。,四、反正弦分布,概率密度函数,数学期望,标准方差,a,-a,o,服从反正弦分布的可能情形,度盘偏心引起的测角误差;,正弦(或余弦)振动引起的位移误差;,无线电中失配引起的误差。,五、瑞利分布,概率密度函数,数学期望,标准方差,服从瑞利分布的可能情形,偏心值,在非负值的单向误差中,由于偏心因素所引起的轴的径向跳动,刻度盘、圆光栅盘的最大分度误差,齿轮和分度盘的最大齿距累积误差,六、贝塔分布,概率密度函数,数学期望,标准方差,在给定分布界限下通过参数取不同值,贝塔分布可呈对称分布、非对称分布、单峰分布、递增或递减分布等,可逼近常见的正态、三角、均匀、反正弦、瑞利等各种典型分布。贝塔分布具有可逼近各种实际误差分布的多态性。,贝塔分布在理论上就是有界的。不像正态、瑞利等呈拖尾型分布,完全符合误差的基本特性即有界性。,贝塔分布的性质与密度函数图,常见分布的数字特征量,名称,正态分布,区间半宽度,标准差,期望,等价,均匀分布,三角分布,反正弦分布,瑞利分布,2.3,常见的统计量分布,本节介绍常用的统计量分布,包括,t,分布,F,分布,分布。,前边介绍主要是单个统计量分布,实际中要常用到变量间组合也就是函数的统计分布。,一、,分布,定义,若,为独立服从同分布,的随机误差,,则,称服从为自由度为的分布。,概率密度函数,数学期望,标准方差,二、,t,分布,定义,若随机误差,,随机误差,且和相互独立,则,服从的分布称为自由度为的,t,分布。,概率密度函数,数学期望,标准方差,o,当自由度足够大时,,t,分布趋近于正态分布。,t,分布在误差理论和实践中的应用,t,分布在研究正态小子样(测量次数较少时),是一个严密而有效的理论分布,。,正态样本的算术平均值构成的如下统计量,服从自由度为的,t,分布。,其测量算术平均值满足,t,分布的临界值,,满足,三、,F,分布,定义,若,,则,称服从为自由度为的,F,分布。,概率密度函数,数学期望,标准方差,2.4,误差分布的分析与检验,本节介绍确定误差分布规律的几种方法,包括物理来源法,函数关系法以及图形判断法。最后介绍有关分布检验的知识,,包括正态分布统计检验(夏皮罗,-,威尔克检验、偏态系数和峰态系数检验)和一般分布检验(皮尔逊检验),。,物理来源判断法,根据测量误差产生的来源,可以判断其属于何种类型,如其测量受到至少有,三个以上,独立的、微小而大小相近的因素的影响,则可认为它服从或接近正态分布。,测量值在某范围内各处出现的机会相等,则可认为它服从均匀分布。,一、误差分布的分析与判断,函数关系法,利用随机变量的函数关系,来判断误差属于何种分布。,若与都在,-a,,,a,内服从均匀分布,则服从三角分布,若与都服从正态分布,则 服从偏心分布,(,瑞利分布,),若服从均匀分布,则 服从反正弦分布,图形判断法,对重复测量获得的样本数据绘出频率密度直方图,并与各种常见的概率密度分布曲线相比较,判断它与何种分布相接近。,统计检验的步骤,1,、概念,事先对分布形式作出某种假设,然后利用样本信息来判断原假设是否成立,2,、类型,正态分布统计检验,一般分布检验,夏皮罗,-,威尔克检验,偏态系数检验,峰态系数检验,皮尔逊检验,二、误差分布的统计检验,皮尔逊 检验,(,且已知,),1,、提出原假设,总体 的分布函数 未知,某个已知的分布函数,2,、计算统计量,总体中,抽取出一个,容量为 的样本,把整个数轴分成 个区间,频数,样本的观察值落在第 个区间的个数,由 计算出总体 在各区间内取值的概率,检验,(,续,),3,、在给定显著性水平 下,由分布表查得临界值 。,4,、作出决策。,若,拒绝,则认为 。反之,,思路是当样本个数充分大时,频率和概率应当相差不会太大,如果超出某种限度,则假设就会推翻。,皮尔逊检验,(,分布中含有未知参数,),1,、提出原假设,总体 的分布函数 未知,某个已知形式的分布函数,未知参数,2,、计算统计量,总体中抽取出一个容量为 的样本,在 下利用样本给出 的,极大似然,估计,把整个数轴分成 个区间,频数,样本的观察值落在第 个区间的个数,由 计算出总体 在各区间内取值的概率,3,、在给定显著性水平 下,由分布表查得临界值 。,4,、作出决策。,若 ,拒绝,皮尔逊检验,(,续,),【,例,2-1】,用阿贝比较仪测量某轴承直径,100,次,依次测得 ,的数据见下所列,的单位,0.1,。检验 是否服从正态分布。,0 -5 11 -10 17 -3 -13 6 4 7 1 -5 -6 -3 13 -1 -1 5 9 7 -3 9 -8 3 -2 -24-30 -2 1 -2 4 2 -5 -13 1 -7 -1 0 -4 -7 0 7 17 5 10 0 -2 6 3 8 6 -3 -3-10 0 5 2 -8 0 4 2 2 6-11 5 2 7 -1 12 0 -19 10 -1 7 9 2 -5 14 -6 -5 8 3 8 -9 4 -5 -8 8 -8 4 -13 -9-10 -10 2 13 2 -4 6 -7,计算步骤,【,解,】,检验,由于 中含有未知参数,故需先进行,参数估计,。在正态分布下,和 的极大似然估计为,将 取值分成,8,组,然后计算概率,计算结果,频数,7,0.107,10.75,-3.75,1.31,15,0.160,16.01,-1.01,0.06,13,0.133,13.37,-0.37,0.08,9,0.098,9.87,-0.87,0.08,10,0.098,9.87,0.13,0,16,0.133,13.37,2.63,0.52,21,0.160,16.01,4.99,1.56,9,0.107,10.75,-1.75,0.28,100,3.82,结论,给定显著性水平 ,自由度,8-2-1=5,由 分布表查得临界值,因为,所以,接受 ,故可认为这些测量服从正态分布,组数,未知数个数,夏皮罗威尔克检验,夏皮罗,-,威尔克检验又称,W,检验,时检验效果最佳,并且计算简便。,只能用于正态性检验,W,检验的实施步骤,从总体中抽取出一个容量为 的样本,(1),将样本的观测值按由小到大排列成为其次序统计量,(2),计算检验统计量,(3),查表。由夏皮罗,-,威尔克值表查出 ,为给定的显著性水平;,(4),判断。若 ,则拒绝正态性假设,夏皮罗,威尔克,当,n,为偶数时取,n/2,,当,n,奇数时取(,n1,),/2,【,例,2-2】,用夏皮罗,-,威尔克法检验该组数据是否来自正态分布。,将某量独立测得结果按从小到大排列成(,n=10,),108,,,109,,,110,,,110,,,110,,,112,,,112,,,116,,,119,,,124,【,解,】,查夏皮罗,-,威尔克系数 表得出,计算结果,计算,给定显著性水平 ,查表得,因为,故拒绝正态性假设,偏态系数检验,(1),给出备择假设 (正偏)或 (负偏),(2),计算检验统计量,(3),查表。根据显著性水平 和样本容量 ,由偏态统计量的分位数表查出,(4),判断。当备择假设为 时,若 ,则拒绝正态性假设;当备择假设为 时,若 ,则拒绝正态性假设,【,例,2-3】,有下列一组测量数据,确定这批数据是否来自正态分布,-0.40-1.80-2.14 0.40-1.40 0.67-1.40-1.51 1.40 -1.40-1.38-1.40 1.20-2.14-0.60-2.33 1.24-0.40 -0.32-0.22-1.60-1.40-0.51-0.20-1.40-1.72-1.60 -1.20-1.80 1.20-1.40-0.80-1.72-0.71-1.40-1.20 -1.91-0.69-1.60-1.39-2.20-1.40-0.40 0.40-1.80 -1.80 -1.60 0 -1.95 1.20,计算结果,计算统计量,由,得,因此,选择备择假设,给定显著性水平 ,当,n=50,时,查表得,因为,故拒绝正态性假设,峰态系数检验,(1),给出备择假设 (正偏)或 (负偏),(2),计算检验统计量,(3),查表。根据显著性水平 和样本容量 ,由峰态统计量的分位数表查出 或,(4),判断。当备择假设为 时,若 ,则拒绝正态性假设;当备择假设为 时,若 ,则拒绝正态性假设,【,例,2-4】,利用某测量仪器进行,40,次测量,测得与理论值的如下一系列偏差数据,确定这批数据是否来自正态分布,0.038 0.240 0.124 0.054 -0.061 -0.004 -0.004 -0.006 0.007 0.001 0.061 0.043 0.035 0.163 -0.008 -0.010 0.006 -0.008 -0.024 0.007 0.028 0.108 0.155 -0.159 -0.032 0.003 -0.007 -0.018 -0.008 -0.011 0.060 0.067 -0.025 -0.096 -0.223 0.004 -0.007 -0.007 -0.010 0.014,计算结果,计算统计量,由,得,因此,选择备择假设,给定显著性水平 ,当,n=40,时,查表得,因为,故拒绝正态性假设,思考与练习题,Question?,
展开阅读全文