1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,Headline(Arial Black 22pt.),Text(Arial 20),2nd level text(Arial 18),3rd level text(Arial 16),4th level text(Arial 14),Headline(Arial Black 22pt.),Text(Arial 20),2nd level text(Arial 18),3rd level text(Ari
2、al 16),4th level text(Arial 14),第二章 误差和分析数据处理,(,Errors in Quantitative Analysis and Statistical Data Treatment,),2.1,测定误差及其分类,2.2,有效数字及运算规则,2.3,分析数据的统计处理,2.1,测定误差及其分类,2.1.1,准确度和精密度,1.,误差和准确度,真值,(,x,T,),:某一物理量本身具有的客观存在的真实数值,通常未知。,测量值,(,x,),:以某种方法测得的某物理量的数值。,准确度,(accuracy),:测量值是真值的接近程度,(,在一定测量精度的条件下多次
3、测定的平均值与真值的接近程度,)。,绝对误差(,absolute error,E,a,),:测量值,x,与真值,x,T,的差值。,E,a,=x-,x,T,相对误差(,relative error,E,r,),:绝对误差在真值中所占百分率。,绝对误差和相对误差都有正负之分。,绝对误差值相同时,测量值越大,相对误差越小,。定量分析,的结果用相对误差表示更为合适。,2,偏差与精密度,平均值,(,mean),:,n,次测量数据的算术平均值。,平均值比单次测量值,x,更客观地代表待测参数。,精密度,(precision),:一组测定数值彼此之间的接近程度,(,即多次重复测定某一量时所得测量值的离散程度,
4、),,常以偏差、平均偏差、标准偏差等形式表示,。,偏差,(deviation,d,),:,单个测定值,x,与多次测定平均值之间差别。,相对偏差,(relative deviation,d,r,),:,偏差占平均值中的份额。,平均偏差,(mean deviation,),:,将一组测量值之各次测定偏差的绝对值对测定次数求得的平均值。平均偏差无正负之分。,相对平均偏差,(relative mean deviation,),:,平均偏差占测量平均值的比例。,标准偏差,(standard deviation,s,),:,偏差平方和之均值的平方根(,特点:将突现大偏差对测定结果的影响,)。,相对标准偏差
5、relative standard deviation,RSD,),:,标准偏差占测量平均值的比例。,如:在进行,10,次射击后,(A),精密度和准确度都很高。,(B),精密度很高,但准确度不高。,(C),和(,D),精密度及准确度都不高。,3.,准确度与精密度的关系,精密度高不一定准确度好,而欲得高准确度,必须有高精密度。,解:,两组平均偏差均为,0.035,。,而标准偏差分别为,S,1,=0.0457,S,2,=0.0358,。,因此第二组,数据,的,精密度,好。,用标准偏差表示的优点:,可避免各偏差之间的正负抵消。,使大的偏差更加明显。,例,1,:有两组数据如下,问哪一组的精密度好
6、些?,D,1,=+0.08,-0.01,-0.04,+0.02,-0.07,+0.02,-0.02,+0.02,D,2,=+0.03,+0.03,-0.04,-0.03,-0.04,+0.03,-0.03,-0.05,2.1.2,误差的种类和性质,1.,系统误差,(,systematic errors,),由某种固定因素引起的误差,是在测量过程中,重复出现、正负及大小可测,,并,具有单向性,的误差,系统误差,可通过其他方法验证而加以校正,。,可分为,:,方法误差(,method errors,),:,由所选择的方法本身,(分析系统的化学或物理化学性质),决定的,是无法避免的。,仪器,/,试剂误
7、差(,instrument&reagent,e,rrors,),:,由仪器性能及所用试剂的性质,(,仪器准确度不够、器皿间不配套、试剂不纯等,),所决定,操作误差(,personal errors,),:,操作者本人所引起的,(如滴定管读数时弯月面高度总是偏低于眼睛位置、观察终点颜色总是偏深等),,可通过提高操作者技能来消除或减少,。,2.,随机误差(,random error,),由测量过程中一系列有关因素的微小随机波动而引起的、具有相互抵消性的误差,具有,统计规律性,多次测量时正负误差可能相互抵消,。,随机误差不可避免,也无法严格控制,仅可尽量减少,(,如增加测定次数,),。,系统误差的单
8、向性和可重复性决定其只影响准确度而不影响精密度;随机误差的双向和不确定性则对准确度和精密度都有影响。,有时系统误差与随机误差很难严格区分:,某人判断滴定终点颜色总是偏深,系统误差。,但每次偏深程度不一定相等,随机误差。,2.1.3,提高分析准确度的措施,分析结果的允许误差应视组分含量、分析对象等而改变对准确度的要求。,含量,(%,),允许误差,(),100,13,50,3,10,10,1,2050,0.1,50100,0.010.001,100,1.,选择合适的分析方法,容量分析的准确度高,但灵敏度较低;而仪器分析灵敏度高,相对误差较大。,2.,减少测量误差,应减少每个测量环节的误差,天平称量
9、应取样,0.2,克以上,滴定剂体积应大于,20,毫升,均可使相对误差控制在,0.2%,左右。,3.,减小随机误差,适当增加平行测定次数,通常要求在,3-5,次。,4.,消除系统误差,对照试验,(contrast test),:,以标准样品代替试样进行测定,以校正测定过程中的系统误差。有标准样比对法(用标准样品、管理样、人工合成样等)或加入回收法、选择标准方法(主要是国家标准等)、相互校验(内检、外检等)。,空白试验,(blank test),:,不加试样但完全照测定方法进行操作的试验,可消除由试剂、溶剂或器皿所引入的待测物或干扰杂质所产生的系统误差。所得结果为空白值,需扣除。若空白值过大,则需
10、提纯试剂或更换容器。,仪器校准,:,消除因仪器不准引起的系统误差。主要校准砝码、容量瓶、移液管,以及容量瓶与移液管的配套校准。,分析结果校正,:,主要校正在分析过程中产生的系统误差。通过校正系数、测残余量等来校正。,2.2,有效数字及运算规则,2.2.2,有效数字(,Significant figures,),有效数字是实际能测到的数字,只保留一位可疑值。不仅表示数量,也表示精度。,试样重(克):,0.5180,(,4,位,天平称出),0.52,(,2,位,台秤),溶液体积(毫升):,25.34,(,4,位,滴定管读数),25.3,(,3,位,量筒读数),离解常数:,1.810,-5,(,2,
11、位),pH,:,11.02,(或,4.35,)(均为,2,位),整数部分:,1000,(位数不清楚)。,整倍数、分数、常数(,e,、,等,)、化学计量数等:有效位数为任意位。,有效数字中,“,0”,的作用,数据中的“,0”,如果作为普通数字使用,它就是有效数字;作为定位用,则不是。,如滴定管读数,22.00,mL,,,两个“,0”,都是测量数字,为,4,位有效数字。改用升表示,为,0.02200,L,,,前面两个“,0”,仅作定位用,不是有效数字,而后面两个“,0”,仍是有效数字,仍为,4,位有效数字。,可用指数形式定位尾数为“,0”,的小数,以防止有效数字的混淆。如,25.0 mg,改写成,
12、g,时,应写成,2.50,10,4,g,,,不能写成,25000,g,。,单位可以改变,但有效数字的位数不能任意增减。,2.2.2,修约规则,数字修约,确定有效位数后,对多余位数的舍弃过程,其规则为修约规则。,具体修约规则:,四舍六入五成双,。,如:,3.746,4,3.746,3.523,6,3.524,7.215,5,7.216,6.534,5,6.534,6.534,51,6.535,(,5,后为非零数字),1.,加减法,有效位数以绝对误差最大的数为准,即小数点后位数最少的数字为依据。,2.2.3,运算规则,例,2:,计算,50.1+1.45+0.5812,解:每个数据最后一位都有,1,
13、的绝对误差,在上述数据中,,50.1,的绝对误差最大(,0.1,),所以各数值及计算结果都取到小数点后第一位。,所以:,50.1+1.45+0.5812=50.1+1.4+0.6 =,52.1,2.,乘除法,有效位数以相对误差最大的数为准,即有效位数最少的数字为依据。,例,3:,计算,2.1879,0.154,60.06,解:各数的相对误差分别为,:,1/21879,100%=,0.005%,1/154 ,100%=,0.6%,1/6006 ,100%=,0.02%,上述数据中,有效位数最少的,0.154,,其相对误差最大,结果只能取三位有效数字,所以:,2.1879,0.154,60.06
14、2.19,0.154,60.1 =,20.3,应,先修约,后计算,。,常量分析,时结果一般要求,保留四位,有效数字,微量分析时可减少其位数。,某有效数字的首位,8,,在计算过程中,则可多计算一位。,如,8.58,可视为,4,位有效数字,。,运算过程中,有效数字的位数可暂时多保留一位,得到最后结果时再定位。,使用计算器作连续运算时,运算过程中不必对每一步的计算结果进行修约,但最后结果的有效数字位数必须按照以上规则正确地取舍。,例,4,按有效数字运算规则,计算:,(,1,),2.8170.85+9.610,-5,-0.032600.00814,(,2,),解:(,1,),2.8170.85+9.
15、610,-5,-0.032600.00814,=2.39+0.000096-0.0002654=2.39,(,2,),=705.2,2.3,分析数据的统计处理,2.3.1,平均值的置信区间,1.,总体标准偏差,和,平均值的标准偏差,:,以分析某湖水中有害物质组分含量来理解:,整个湖是考察对象的全体(,总体,),,不可能取全湖水也不能只取,50,或,100,毫升的水样进行分析,须在水体的各个角落、各个层面都取部分水样混匀后分析才能代表总体(,取样要有代表性,),若按规则取样,40,升,作为,分析总体,。操作时从中取,20,份(,25mL/,份)分析,得到,20,组数据,该分析总体中的一个随机,样
16、本,,其,样本容量,n,=20,,测定结果的平均值为,样本平均值,:,如把整湖水都取来分析,即,,可得,总体平均值,:,在扣除系统误差后,,即为真值,x,T,。,此时可得,总体平均偏差,和,总体标准偏差,:,实际中不可能取,,,n,只能是有限次,所得到的也只能是,样本平均偏差,d,和,样本标准偏差,s,从一个总体中抽取容量为,n,的多个样本进行等精度测量,所产生的多个平均值也会具有一定的分散性;同样,随着样本数,n,的增加,平均值的分散性也将逐步减小,并最终使样本平均值 趋向于总体平均值,。,因而,有必要以平均值的标准偏差 来表示测量值的分散性。,可以证明,对于,n,次测定平均值的标准偏差:,
17、可见 随测定次数的增加迅速减小,但,46,次已足够,。,2.,正态分布,因测量过程中存在随机误差,测量数据具有分散的特性,如果测量次数非常多,这些测量数据的分布一般服从,正态分布:,式中:,x,单次测量值,F,(,x,),测定值,x,值在总体中出现的,概率密度,总体,的平均值,在无系统误差时为真值,,,体现了无限多个数据的集中趋势,。,总体,的标准差,,正态分布曲线上两个拐点间的距离,,表示众多数据的离散程度,。,只要确定了,和,,便确定了分布曲线的图形。,x,=,(即误差为零)时,,F,(,x,),值最大,。说明大多数测量值集中在算术平均值附近,或说算术平均值是最可信赖值。,x,值趋于,或,
18、即,x,与,差,很大)时,,曲线以轴为渐近线,,说明小误差出现的概率大而大误差出现的概率小。,曲线以,x=,的直线,呈轴对称分布,,即正、负误差出现概率相等。,值越大,测量值的分布越分散;,越小,测量值越集中,曲线越尖锐。,具有不同,值的测量值的正态分布,相同,值但不同,值,的测量值的正态分布,F,(,u)-u,的函数关系称为,标准正态分布,,其分布曲线,是以总体平均值为原点、变量,u,为横座标单位的曲线,。,以测定值,x,为横坐标的正态分布曲线,会因,和,的变化而有不同形状,在使用中不太方便。为此引入一个新变量,u,:,代入:,得到:,正态分布曲线在,x,区间内的概率密度为,1,,即所
19、有测量值出现的概率为,1,。,其中,u,值在,1,,,2,,,3,范围内(即,x,值落在,1,、,2,和,3,范围内)的概率分别为,68.3%,、,95.5%,和,99.7%,。,当出现在,3,以外的测量值可当作异常值,舍去。,标准正态分布,的特点:,3.,t,分布,实际工作中测量次数不可能很多,所产生的随机误差不完全遵循正态分布。为满足人们希望由有限次测量平均值 估算出总体平均值,的愿望,引入,置信因子,t,:,t,的定义与正态分布的,u,相似,因而形状也相似,只是曲线随自由度,f,而改变,(,f=n-,1),,,f,趋近,时,,t,分布就趋于正态分布。,置信度的含义,置信度是人们对所做判断
20、之可靠性的把握程度,它包括两重含义:置信概,率和置信区间。,如:经,3,次测定,某样品中磷含量的平均值,为,0.079%,,标准偏差,s,=,0.002%,。该样品总体平均值出现在,0.0790.004,(,置信区间,)的可能,性(,置信概率,),有多大,?,样品总体平均值出现在,0.0790.002,的可能性又,有多大,?,经推算,出现在,0.0790.004,范围内可能性有,95.5%,。,出现在,0.0790.002,范围内的可能性只有近,70%,了,.,因而预报时划定区间小,其判断结果出现的可能性就小。反之则为预报留下了,更充分的余地,其,置信概率,就高。,在数学上,:,置信度,P,是
21、在指定置信因子,t,值时,测定值落在,(,ts,),范围,以内,的概率,(,图中曲线下的空白部分,),。,显著性水准,则是在某一,t,值时,测量值落在,(,ts,),范围,以外,(,图中阴影部分,),的概率,(,=1-,P,),图中阴影部分分别为,/2,空白部分为,P,=1-,。,前人已经将不同自由度,f,的置信因子计算好并制成表。在引用,t,值表须加下标说明,如,:,0.01,10,=3.17,表示,P,=99%,,,f,=10,时的,t,值。,4.,平均值的置信区间,平均值的,置信区间,以测定结果(平均值)为中心的可靠性范围,该区间有(,1-,),100%,的概率包含总体平均值,。,置信度
22、定得高易出现“,存伪,”,(保留过多);,置信度定得过低则出现“,拒真,”,。,分析化学中通常取,P,=95%,。,例,4,:测定某作物中的含糖量,结果为,15.40%,,,15.44%,,,15.34%,,,15.41%,,,15.38%,,求置信度为,95%,和,99%,时的置信区间。,解:平均值为,15.40%,,,s,=0.0385,n,=5,f,=4,若置信度取,95%,时,,则,=0.05,查表得到,t,0.05,4,=2.78,,代入置信区间计算式得到,可理解,为:,在,15.40,0.048%,的区间内包括该作物中含糖量总体平均值,的可能性是,95%,。,不能理解,为:该,作物
23、中的含糖量下一次测定的实验平均值有,95%,的可能性落在,15.40,0.048%,的区间内。,若置信度为,99%,,则,t,0.01,4,=4.60,,于是,2.3.2,测量数据的统计检验,一个人对同一样本测定多次所得的结果会不一致,有时甚至出现偏差较大的数据;不同人、不同实验室采用相同方法对同一样本测定,结果也会不同。因而在定量分析中,常常需判定实验测量,数据是否“合群”,、实验测量,结果是否可靠,。这可分别用,可疑值取舍,和,显著性检验,的方法给予解决。,1,实验数据的评价,定量分析中实验数据总有一定离散性。任一数据均不能随意地保留或舍去。,可疑值取舍问题实质上是区分随机误差与过失误差的
24、问题,,可借统计检验来判断。,基本方法是:设计一个统计量并计算其值,并,将该统计量计算值与相应的表值进行比较,若大于表值则该数据需要舍弃,否则就需要保留。,Grubbs,法,:,根据统计量,T,值,进行判断。,T,值与平均值、组数据的标准偏差及置信度有关。,其检验步骤为:,将测量数据顺序排列,,x,1,x,2,x,3,x,4,x,n,,,并求出平均值与标准偏差。,求出,T,值:,以表中,T,n,与计算,T,值比较,若,T,算,T,表,,则该值舍去,否则保留。,T,的下标中,n,为,数据个数,当可疑值有两个时,需分别判断:在,同侧时,先判段内值,计算时,n,=,n,-1,;在两侧时,不分先,后,
25、但当确定先判断值需舍去后,须重新计算平均值与标准偏差。,Grubbs,法的效果比较好但计算较麻烦,Q,检验法,:,根据统计量,Q,值进行判断。其检验步骤为:,将数据顺序排列为:,x,1,,,x,2,,,,,x,n-1,,,x,n,计算出统计量,Q,值:,式中分子为可疑值与相邻值的差值,分母为整组数据的 极差。,Q,算,越大,说明,x,1,或,x,n,离群越远。,根据测定次数和要求的置信度查得,Q,表,(表值)。,再以计算值与表值相比较,若,Q,算,Q,表,,则该值需舍去,,否则必须保留。,Q,检验法计算比较简单,但原则上只适合于仅有一个可疑值的情况。,例,5,:某一标准溶液的四次标定结果为,0
26、1014,0.1012,0.1025,0.1016(mol/L),,,4,个数据是否都要保留。,解:很明显,可疑值为,0.1025,。取,=0.05,Grubbs,法,平均值,0.1017,标准偏差,0.00057,T,0.05,4,=1.46,T,算,1.40,要保留,Q,检验法,Q,算,=0.692,Q,0.95,4,=1.05,要保留,2.,实验结果的检验,分析工作中,同一人用不同方法对同一样品进行测定,所得结果会有所不同,;,不同人员在不同实验室用同一方法对同一样品进行测定,所得结果也会有不同。,问题,:差异何来?属何种性质?差异大小可否被接受?故需进行检验。,方法,:进行,显著性检
27、验,,即用,统计的方法检验数据组间,是否存在显著差异,的方法。,其基本,思路,是:,提出一个零假设,即假定两组数据间不存在显著性差异;,为回答零假设是否正确,确定一个适当的置信度;,根据所确定的置信度检验两组数据的差异是否显著。,F,检验,:,比较两组数据的方差,用以考察这两组数据的精密度是否存在系统误差。方法为:,计算两个标准偏差的比值,F,(,S,值大的在分子上以确保,F,1,):,再比较计算得到的,F,值与,F,表值比较,若,F,算,F,表,,则有显著性差异存在。,F,表以自由度,f,值划分,故要确定两组数据的自由度。,F,表值为单边值,即要求,S,1,S,2,,而不能,S,1,s,1,
28、f,大,=3,,,f,小,=4,,查得,F,表,=6.59,,,F,表,F,算,,即两方法无显著差异。,t,检验,:,比较两组数据的平均值来确定它们之间是否存在系统误差。,求得两组数据各自的平均值,;,由 求得,t,值,;,将,t,算,与,t,a,f,比较,若,t,算,t,表,则不存在显著性差异。,根据相比较两组数据的来源可分为,平均值与标准值的比较;,两组平均值的比较,。,平均值与标准值的比较,例,7,:为鉴定一个方法,取基准物(含量,100%,)作,10,次平行测定,其结果是,100.3,99.2,99.4,100.0,99.4,99.9,99.4,100.1,99.4,99.6(%)
29、试对分析方法作出评价(,P,=95%,)。,解:求得,x,=99.67%,s,=0.374,n,=10,查得,t,0.05,9,=2.26,t,算,,说明两种方法无显著性差异(即无系统误差存在)。,解:,2.3.3.,回 归 分 析,分析化学中经常涉及样品相关组分的含量与响应信号,(,电极电势、吸光度等物理量参数,),间的对应关系,其最佳的处理方式是将它们设计为线性关系,(,如电极电势,E,与相关组分的浓度,C,并不直接成线性,但,E,与,log,C,呈线性,),,并将符合线性关系的实验点回归成一条直线,即,标准曲线,,作为定量分析的重要依据,(,可直接根据所测得的物理量参数值求得物质的相关
30、量,),。,目前多采用,“,最小二乘法,”,原理对相关实验参数进行线性回归处理,其处理原则是使经回归方程求得的数据与实际数据之间误差的平方和为最小。,1,一元线性回归方程的求法,在分析化学中,许多情况下,被测,组分的含量(,x,)与其表观测量值(,y,)间呈线性关系。,以(,x,i,y,i,)表示,n,个数据点,任意一条直线方程为:,y,=,a x,+,b,a,为直线的斜率,,b,为截距,用最小二乘法,原理,可求出,a,和,b,的估算值:,例,9,:,次甲基蓝,-,二氯乙烷 萃取分光光度法测定硼的实验结果如下,:,求这些数据的一元线性回归方程。,浓度,C(,g/mL,),吸光度,A,0,0.0
31、01,1.00,0.135,2.00,0.282,3.00,0.385,4.00,0.546,5.00,0.671,6.00,0.778,解:,根据回归直线方程,可以由未知样品的吸光度值,A,(,y,),求出样品中硼的含量,C,(,x,),。,No.,x,y,x,2,y,2,xy,1,0.00,0.001,0.00,0.000,0,2,1.00,0135,1.00,0.018,0.135,3,2.00,0.282,4.00,0.080,0.564,4,3.00,0.385,9.00,0.148,1.155,5,4.00,0.546,16.00,0.298,2.184,6,5.00,0.671,
32、25.00,0.450,3.355,7,6.00,0.778,36.00,0.605,4.668,21.00,2.798,91.00,1.599,12.061,2.,线性回归方程的相关系数,由前法求得的回归方程有否意义?是否真正代表了实验散点的走向?可用,相关系数,r,来界定。,或采用,(,s,x,s,y,分别为,x,i,与,y,i,的标准偏差),相关系数的物理意义,:,r,=1,:所有实验点均在回归线上,与方程完全吻合,r,=0,:,x,与,y,间完全不相关,无线性关系,0,r,1,:,x,与,y,间有不同的相关程度,,r,1,,线性越好。,例,10,:求例,9,所得回归直线的相关系数。,r,=0.999,说明浓度,C,和吸光度,A,间有很好的相关性,即所得回归方程是可靠的。,解:,也可用,EXCEL,完成回归分析:,在,EXCEL,表中右键点击图中的数据点,在弹出的对话框中选中“添加趋势线”并在随后出现的对话框的“选项”栏中选“显示公式”也可得回归方程。,






