1、正交实验如何数据分析 我们把在试验中考察的有关影响试验指标的条件称为因素(也叫因子),把在试验中准备考察的各种因索的不同状态(或配方)称为水平。在研究比较复杂的工程问题中,往往都包含着多个因素,而且每个因素要取多个水平。对于包含五个因素、五个水平的工程项目,理论计算必须进行553125次试验。显然,所需要的试验次数太多了,工作量太大。实践告诉我们,合理安排试验和科学分析试验,是试验工作成败的关键。试验方案设计的好,试验次数就少,周期也短,这样不仅节省了大量人力、物力、财力和时间,而且可以得到理想的结果。相反,如果试验设计安排的不好,即使进行了很多次试验,浪费了大量材料、人力和时间,也不一定能够
2、得到预期的结果。正交试验法,就是在多因素优化试验中,利用数理统计学与正交性原理,从大量的试验点中挑选有代表性和典型性的试验点,应用“正交表”科学合理地安排试验,从而用尽量少的试验得到最优的试验结果的一种试验设计方法。正交试验法也叫正交试验设计法,它是用“正交表”来安排和分析多因素问题试验的一种数理统计方法。这种方法的优点是试验次数少,效果好,方法筒单,使用方便,效率高。由于试验次数大大减少,使得试验数据处理非常重要。我们可以从所有的试验数据中找到最优的一个数据,当然,这个数据肯定不是最佳匹配数据,但是肯定是最接近最佳的了。用正交表安排的试验具有均衡分散和整齐可比的特点。均衡分散,是指用正交表挑
3、选出来的各因素和各水平组合在全部水平组合中的分布是均衡的。整齐可比是说每一因素的各水平间具有可比性。最简单的正交表L4(23)如表-1所示。表-1 列号水平实验号1231111212232124221记号L4(23)的含意如下: “L”代表正交表;L下角的数字“4”表示有4横行(简称为行),即要做四次试验;括号内的指数“3”表示有3纵列(简称为列),即最多允许安排的因素个数是3个;括号内的数“2”表示表的主要部分只有2种数字,即因素有两种水平l与2,称之为l水平与2水平。表L4(23)之所以称为正交表是因为它有两个特点:1、每一列中,每一因素的每个水平,在试验总次数中出现的次数相等。表-1里不
4、同的水平只有两个1和2,它们在每一列中各出现2次。2、任意两个因素列之间,各种水平搭配出现的有序数列(即左边的数放在前,右边的数放在后,按这一次序排出的数对)时,每种数对出现的次数相等。这里有序数对共有四种(1, 1),(1,2),(2,1),(2,2)它们各出现一次。常见的正交表有:L4(23),L8(27),L16(215),L32 (231) ,;L9 (34),L27 (313);L16(45),;L25(56)等。此外还有混合水平正交表:各列中出现的最大数字不完全相同的正交表称为混合水平正交表。如L8(4124),表中有一列最大数字为4,有4列最大数字为2。也就是说该表可以安排1个4
5、水平因素和4个2水平因素。选择正交表的原则,应当是被选用的正交表的因素数与水平数等于或大于要进行试验考察的因素数与水平数,并且使试验次数最少。如我们要进行3因素2水平的试验,选用L4(23)表最理想。但是,要进行5因素2水平的试验仍用L4(23)表,那么便放不下5个因素了。这时,应当选用L8(27)表,这样尽管只用了此表的5个因素列,还有两个因素列是空列,但这并不影响分析。对试验结果(数据)的处理分析通常有两种方法,一是直观分析法,又叫极值分析法;另一种方法是方差分析。 表2因素水平试验ABCD结果(指标)123456789IjjIIIjIj3IIj3IIIj3RjR1R2R3R41 直观分析
6、法:根据正交表进行试验,可以得到就某一(单指标,也有多指标)考察指标的试验结果,通过直观分析或方差分析,就可以得出最佳的实验方案。直观分析试验结果的步骤(以四因素三水平为例)如下,见表2,根据实验数据分别计算出: 分别对每次实验各因素的一水平的实验结果求和,即Ij: 再对每次实验各因素的二水平结果求和,即IIj: 对每次试验各因子的三水平的结果求和,即IIIj: 分别求出各因素各水平结果的平均值:即Ij3,IIj3,IIIj3,并填入正交表中; 分别求出各因素的平均值的差值(也叫极差),如果是三个以上水平则要找出平均值最大值或最小值之间的差值Rj。根据极差数Rj的大小,可以判断各因素对实验结果
7、的影响大小。判断原则是:极差愈大,所对应的因素愈重要;由此可以确定出主、次要因素的排列顺序。根据各因素各水平所对应指标结果的平均值的大小可以确定各因素取什么水平好。确定的原则是:如果要求指标愈小愈好,则取最小的平均值所对应的那个水平;如果要求指标愈大愈好,则取最大的平均值所对应的那个水平;如果要求指标适中(固定值),则取适中的平均值所对应的那个水平。需要说明的是,最优的水平组合并不一定就在由正交实验设计所指定的实验当中。所以,根据试验指标的数值要求所确定的各因素的最优水平组合,就可以筛选出最佳的试验方案条件、以及较好的试验方案条件。对试验结果的直观分析法,除了极差分析外。为了更形象直观的得出试
8、验分析结果,我们还可以采用画趋势图(效应曲线图)的方法,得出正确的综合分析结论。效应曲线图(因素指标分析)就是要画出各因素水平与指标的关系图,它是一种座标图,它的横座标用各因素的不同水平表示;纵座标同为试验指标。其实它就是根据极差分析数据所绘出来的,可以一目了然看出各因素的哪个水平为最优(根据指标的具体数值要求)。2方差分析法:通过试验可以获得一组结果实验数据,这组数据之间一般会存在一定的差异,即使在相同的条件下做几次试验,由于偶然因素的影响,所得的数据数据也不完全相等,这说明实验数据的波动不仅与实验条件的改变有关,也包括实验误差的影响。方差分析是用来区分所考察因子的由于水平不同对应的试验结果
9、的差异是由于水平的改变所引起还是由于试验误差所引起的,以便进一步(在直观分析的基础上)检验哪些因子对结果有影响,哪些没有影响,并区分哪些是影响结果的主要因素,哪些是次要因素。我们通过一个例子来说明方差分析法的原理和计算方法。在研究某胶料的过程中,为考察生胶的转动黏度对胶料压缩变形有无显著的影响,进行了试验,其实验结果如表-3所示:表-3黏度压缩变形试验号139142147150138.236.535.632.2233.335.934.131.6336.032.832.835.6平均值35.835.134.233.2我们把转动黏度记做因子A,这是单因子4水平的实验,每个水平都进行了3次重复试验,
10、从这组试验数据,如何来判断A因子对压缩变形有无显著性影响呢?首先从这组数据出发,计算出实验误差引起的数据波动及A因子水平的改变所引起的数据波动。可以观察到在A的同一水平下,虽然试验条件没有改变,但所得的试验数据不完全一样,也就是说压缩变形值不完全一样。这是由于试验误差的存在使数据发生了波动。例如,A的第一水平下(A1139)数据的平均数为:(38.2+33.3+36.0)=35.8数据的波动值是:S1=(38.2-35.8)2+(33.3-35.8)2+(36.0-35.8)2=12.05我们称S1为A的第一水平下的偏差平方和。偏差平方和反映了一组实验数据的分散和集中的程度,S大表明这组数据分
11、散,S小表明它们集中。类似地,可以按公式:SA=,i=1,2,3,4计算各水平下数据的平均值及偏差平方和: S2=7.89 S3=3.93 S4=8.96将各因子A在各水平下的偏差平方和相加,得S误S1+S2+S3+S4=32.83这完全是由试验误差引起的,它表征了试验误差在这组试验中引起的数据的总波动值,我们称S误为试验的偏差平方和。对因子A,可以注意到A的四个水平下的平均值也各不相同。这种数据平均值的波动不仅与试验误差有关,还包括由于A的水平不同引起的数据波动。A的第一水平下的平均值35.8,这个平均值可代替各个1水平(共3个)对压缩变形的影响,对其它的水平亦可作同样地考虑,记做:34.6
12、表示数据的总平均值,则A因子各水平平均值之间的偏差平方和为:SA=3它刻划了A水平不同引起的数据波动值,称为因子A的偏差平方和,如果记:S总2表示所有的数据围绕它们的总平均值的波动值,则可以证明:S总SA+S误从数据偏差平方和可见,数据个数多的,偏差平方和就可能大。为了消除数据个数的影响,我们采用平均偏差平方和SA/fA、S误/f误,其中fA 和f误分别表示偏差平方和SA和S误的自由度。所谓自由度,就是独立的数据的个数。与偏差平方和一样,自由度也可以分解为:f总fAf误而 f总N1,N为同一水平的总试验次数;fAA的水平数1;f误f总fA;考虑比值:F比=若F比近似等于1,表明SA/fA与S误
13、/f误差不多,也就说明因子A的水平改变对指标的影响在误差范围之内,即水平之间无显著差异。那么,当F比多大时,才能说明因子A水平改变对结果有显著影响呢?这时要查一下F分布临界值表。F分布临界值表列出了各种自由度情况下F比的临界值。在F分布临界值表上横行f1代表F比中分子的自由度fA,竖行f2代表F比中分母的自由度f误。查得的临界值记做F,这里的是预先给定的显著性水平,若F比F,我们就有(1)的把握说明因子A的水平改变对结果(指标)有显著性影响,其几何意义见图1所示。对我们所讨论的例子,有:f总12111;fA 4-1=3;f误1138;把有关数据带入FA的表达式,得:F比=1.08我们给定显著性
14、水平0.10,从F分布临界值表中查出:F0.10(3,8)=2.92由于F比1.08F0.01(f1,f2)时,就说该因子水平的改变对试验结果有高度显著的影响,记做*;当F0.01(f1,f2) F比F0.05(f1,f2)时,就说该因子水平的改变,对试验结果有显著的影响,记做*;当F0.05(f1,f2)FAF0.10(f1,f2)时,就说该因子水平的改变,对试验结果有一定的影响,记做*。根据是否要考虑两个因素的交互作用,又将双因素方差分析分为双因素重复试验的方差分析和双因素不重复试验的方差分析。此外还有多因素方差分析,分析方法与此类同,这里不进行讨论。3 交互作用:在多因素对比试验中,某些
15、因素对试验指标的影响往往有相互制约、互相联系的现象。在处理多因素对比试验时,不仅需要分别研究各因素水平的改变对试验指标的影响以及每个因素的单独作用,还要考虑它们之间的相互作用。通常在一个试验里,不仅各个因素在起作用,而且因素之间有时会联合起来影响试验的结果指标,这种作用叫做交互作用。如果因素A的数值和水平发生变化时,试验指标随因素B的变化也发生变化;同样地,若因素B的数值或水平发生变化时,试验指标随因素A变化的变化也发生变化,则称因素A、B间有交互作用,记为AB。当任意两元素之间(如A与B)存在交互作用而且显著时,则不论因素A、B本身对指标的影响是否显著,A、B的最佳水平的选取都应从A与B的搭
16、配中去选择。为了考虑交互作用的影响,一般在选择正交表时,要注意留有一定的空列。进行方差分析时,当被分析因子对指标的影响不显著时,其原因是试验误差太大或误差的自由度小,试验误差有可能掩盖了被考察因素的显著性,使得F检验灵敏度下降。若F检验显著,说明存在交互作用。如果在处理实际问题时,已经知道不存在交互作用,或已知交互作用对试验的指标影响很小,则可以不考虑交互作用。主次因素的分析一般通过极差分析就可以得出结论,从效应图可以看得更直观。对极差分析、方差分析以及交互作用的分析结果必须要根据具体的实际条件(例如材料成本,时间花费,主次因素,对指标的影响程度等,特别是对复合指标数据考核时)进行综合分析,才
17、能最后得出最佳水平组合。本实验的设计和计算使用“正交设计助手”软件。4软件分析法使用“正交设计助手”进行实验设计。其操作步骤如下:1 文件新建工程:命名该未命名工程;并存储工程;2 实验新建实验进入设计向导: (1)实验说明:填写实验名称和简要叙述及选择标准正交表。对于多指标(复合指标)检验实验,可以在同一工程中建立多个实验,实验最佳方案的确定要通过对各实验分析、讨论所得的结论加以综合考虑。 (2)选择正交表;从下拉菜单中选择合适的正交表,考虑到交互作用,需要留有一定的交互项列和空列,两交互项列放在哪一列,要查阅相应正交表的交互作用项安排表(如附件三的“L8(27)交互作用项安排表”); (3
18、)“因素与水平”,因素名称输入;水平参数输入,交互项所在列下不需输入水平;(4)点击本工程,出现“实验计划表”;输入试验结果(输入数据时请勿在汉字拼音输入状态下进行)后,并存为“实验计划表.RTF”;(5)保存工程。3分析,执行以下步骤: (1)直观分析分析;选择“直观分析”,出现类似表2的表格,存为“直观分析表.RTF”; (2)因素指标分析:选择“因素指标”,产生效应曲线图,存为“效应曲线图.bmp”;(3)方差分析:先选择“方差分析”,再勾选误差所在的列(一般选取偏差平方和小的因子列和空列),当分别取0.01、0.05及0.01时,点击“确定”进行分析,并分别存为“方差分析表(0.01/0.05/0.10).RTF”;( 本软件中,有影响的话一律只标注“*”,到底是有高度显著影响、有显著的影响或有一般的影响,主要是以取0.01,0.05还是0.10的具体值而定,讨论显著性时取高不取低某水平有高度显著性当然有比较显著性和一般显著性。) (4)交互作用分析;点击“交互作用”,并选择可能产生交互作用的任意两列因素进行分析,并分别对分析表格进行存储(*.RTF);4输出:将以上各步骤所得图表和表格在WORD中编排后打印输出。 (注:专业文档是经验性极强的领域,无法思考和涵盖全面,素材和资料部分来自网络,供参考。可复制、编制,期待你的好评与关注)