1、第一节第一节引言引言第二节第二节均值向量的检验均值向量的检验第三节第三节协差阵的检验协差阵的检验第一节第一节 引言引言 n在单一变量的统计分析中,已经给出了正态总体在单一变量的统计分析中,已经给出了正态总体N(,2)的均值的均值 和方差和方差 2的各种检验。对于的各种检验。对于多变量的正态总体多变量的正态总体Np(,),各种实际问题,各种实际问题同样要求对同样要求对 和和进行统计推断。进行统计推断。n例如,我们要考察全国各省、自治区和直例如,我们要考察全国各省、自治区和直辖市的社会经济发展状况,与全国平均水辖市的社会经济发展状况,与全国平均水平相比较有无显著性差异等,就涉及到多平相比较有无显著
2、性差异等,就涉及到多元正态总体均值向量的检验问题等。元正态总体均值向量的检验问题等。n本章类似单一变量统计分析中的各种均值和方差本章类似单一变量统计分析中的各种均值和方差的检验,相应地给出多元统计分析中的各种均值的检验,相应地给出多元统计分析中的各种均值向量和协差阵的检验。向量和协差阵的检验。n其其基本思想和步骤基本思想和步骤均可归纳为:均可归纳为:第一,提出待检验的假设第一,提出待检验的假设H0和和H1;第二,给出检验的统计量及其服从的分布;第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定
3、域;的临界值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落第四,根据样本观测值计算出统计量的值,看是否落入否定入否定 域中,以便对待判假设做出决策(拒绝或接受)域中,以便对待判假设做出决策(拒绝或接受)。n在检验的过程中,关键在于对不同的检验给出不同的在检验的过程中,关键在于对不同的检验给出不同的统计量,而有关统计量的给出大多用似然比方法得到。统计量,而有关统计量的给出大多用似然比方法得到。由于多变量问题的复杂性,本章只侧重于解释选取统由于多变量问题的复杂性,本章只侧重于解释选取统计量的合理性,而不给出推导过程,最后给出几个实计量的合理性,而不给出推导过程,最后给出几个实例。
4、例。n为了更好的说明检验过程中统计量的分布,本章还要为了更好的说明检验过程中统计量的分布,本章还要介绍介绍HotellingT2分布和分布和Wilks分布的定义。分布的定义。第二节第二节 均值向量的检验均值向量的检验 一一单一变量检验的回顾及单一变量检验的回顾及HotellingT2分布分布二二一个正态总体一个正态总体均值向量的检验均值向量的检验三三两个正态总体均值向量的检验两个正态总体均值向量的检验四四多个正态总体均值向量的检验多个正态总体均值向量的检验一、单一变量检验的回顾及一、单一变量检验的回顾及HotellingT2分布分布n为了对多元正态总体均值向量作检验,首先需为了对多元正态总体均
5、值向量作检验,首先需要给出要给出HotellingT2分布的定义。分布的定义。n n 二、一个正态总体二、一个正态总体 均值向量的检验均值向量的检验n在经济生产、管理决策中的很多实际问题,通在经济生产、管理决策中的很多实际问题,通常要选取多个指标进行考察,根据历史数据,常要选取多个指标进行考察,根据历史数据,将项指标的历史平均水平记作,考虑新的项指将项指标的历史平均水平记作,考虑新的项指标平均值是否与历史数据记载的平均值有明显标平均值是否与历史数据记载的平均值有明显差异?若有差异,进一步分析差异主要在哪些差异?若有差异,进一步分析差异主要在哪些指标上,先看下面的实例:指标上,先看下面的实例:n
6、例例3.1测量测量20名健康女性排汗量名健康女性排汗量x1、钠含量、钠含量x2、钾含量、钾含量x3得表得表3.1。问健康女性。问健康女性x1、x2、x3的均值是不是的均值是不是4、50、10?排汗量排汗量x1钠含量钠含量x2钾含量钾含量x33.73.748.548.59.39.35.75.765.165.18.08.03.83.847.247.210.910.93.23.253.253.212.012.03.13.155.555.59.79.74.64.636.136.17.97.92.42.424.824.814.014.07.27.233.133.17.67.66.76.747.447.4
7、8.58.55.45.454.154.111.311.3排汗量排汗量x1钠含量钠含量x2钾含量钾含量x33.93.936.936.912.712.74.54.558.858.812.312.33.53.527.827.89.89.84.54.540.240.28.48.41.51.513.513.510.110.18.58.556.456.47.17.14.54.571.671.68.28.26.56.552.852.810.910.94.14.144.144.111.211.25.55.540.940.99.49.4n例例3.1的数学模型就是:的数学模型就是:服从服从 要根据要根据20个样品
8、做复合检验:个样品做复合检验:n一般的,我们考虑一般的,我们考虑p维正态分布均值等于常数维正态分布均值等于常数的检验问题:的检验问题:为取自维正态总体为取自维正态总体 的一个样本,要检验:的一个样本,要检验:n其中其中0为已知为已知p维向量。维向量。n n n例例3.1测量测量20名健康女性排汗量名健康女性排汗量x1、钠含量、钠含量x2、钾含量钾含量x3得表得表3.1。问健康女性。问健康女性x1、x2、x3的均的均值是不是值是不是4、50、10?解:建立解:建立 用用SAS,SPSS等软件都可算出等软件都可算出所以否定原假设,即在所以否定原假设,即在0.10显著水平下拒绝显著水平下拒绝 三、两
9、个正态总体均值向量的检验三、两个正态总体均值向量的检验例例 3.2 为了研究日美两国在华企业对中国经营环境的评价是否存为了研究日美两国在华企业对中国经营环境的评价是否存在差异,从两国在华企业对中国的政治、经济、法律、文化在差异,从两国在华企业对中国的政治、经济、法律、文化等环等环境打分,得表境打分,得表3-2。试分析日美两国在华企业对中国经营环。试分析日美两国在华企业对中国经营环境的境的评价是否存在差异?评价是否存在差异?美国企业号美国企业号政治环境政治环境X1X1经济环境经济环境X2X2法律环境法律环境X3X3文化环境文化环境X4X4美美1 16565353525256060美美2 2757
10、5505020205555美美3 36060454535356565美美4 47575404040407070美美5 57070303030305050美美6 65555404035356565美美7 76060454530306060美美8 86565404025256060美美9 96060505030307070美美10105555555535357575例例 3.2 为了研究日美两国在华企业对中国经营环境的评价是否存为了研究日美两国在华企业对中国经营环境的评价是否存在差异,从两国在华企业对中国的政治、经济、法律、文化在差异,从两国在华企业对中国的政治、经济、法律、文化等环等环境打分,得
11、表境打分,得表3-2。试分析日美两国在华企业对中国经营环。试分析日美两国在华企业对中国经营环境的境的评价是否存在差异?评价是否存在差异?日本企业号日本企业号政治环境政治环境Y1Y1经济环境经济环境Y2Y2法律环境法律环境Y3Y3文化环境文化环境Y4Y4日日1 15555555540406565日日2 25050606045457070日日3 34545454535357575日日4 45050505050507070日日5 55555505030307575日日6 66060404045456060日日7 76565555545457575日日8 85050656535358080日日9 94
12、040454530306565日日10104545505045457070n n 例例3.2的解:作假设的解:作假设 所以日美两国在华企业对中国经营环境的所以日美两国在华企业对中国经营环境的评价存在显著差异。评价存在显著差异。四、多个正态总体均值向量的检验四、多个正态总体均值向量的检验n经常遇到这样的问题,有几种不同的原料,要考查它经常遇到这样的问题,有几种不同的原料,要考查它们对产品质量有没有显著的影响。们对产品质量有没有显著的影响。n某种新药与其它一些传统药物对病人进行分组实验来某种新药与其它一些传统药物对病人进行分组实验来考查不同的药物与治愈率有否明显不同,这里我们考考查不同的药物与治愈
13、率有否明显不同,这里我们考查的对象,原料,药物称为查的对象,原料,药物称为因素因素.n当考查的因素只有一个时我们称为当考查的因素只有一个时我们称为单因素问题单因素问题。如果。如果同时考虑两个或更多的因素问题,则称同时考虑两个或更多的因素问题,则称多因素方差分多因素方差分析析(这时计算起来很复杂)。(这时计算起来很复杂)。例:考查温度对某一化工厂产品得率的影响,选了五种不例:考查温度对某一化工厂产品得率的影响,选了五种不同温度,同一温度做了三次试验,测得结果如下:同温度,同一温度做了三次试验,测得结果如下:n现在分析温度的变化对得率的影响。从平均得率来看,现在分析温度的变化对得率的影响。从平均得
14、率来看,好象温度好象温度对得率是有一定的影响,对得率是有一定的影响,但详细观察一下数据就会发现问题,表现但详细观察一下数据就会发现问题,表现在:在:n(1)同一温度下得率并不完全一样,产生这种差异的原因是由于)同一温度下得率并不完全一样,产生这种差异的原因是由于试验过程中各偶然因素的干扰及测量误差所致,试验过程中各偶然因素的干扰及测量误差所致,这一类误差称为试这一类误差称为试验误差,或随机误差。验误差,或随机误差。n(2)两种温度的率不同的试验中的倾向有所差别。如)两种温度的率不同的试验中的倾向有所差别。如65与与70相比,第一产相比,第一产65比比70好,而后二次好,而后二次70比比65好。
15、产生好。产生这种矛盾现象,显然也可能是由于随机误差的干扰。由于随机误差这种矛盾现象,显然也可能是由于随机误差的干扰。由于随机误差的存在,对于不同温度下的得率的差异自然要提出疑问,这差异是的存在,对于不同温度下的得率的差异自然要提出疑问,这差异是随机误差造成的呢,还是温度不同的影响。随机误差造成的呢,还是温度不同的影响。由于温度的不同而引起由于温度的不同而引起得率的差异我们称为组间误差或系统误差。得率的差异我们称为组间误差或系统误差。n上例全部上例全部15个数据参差不齐,它们的差异叫个数据参差不齐,它们的差异叫总变差总变差。产生总变差。产生总变差的原因有两个的原因有两个n1)随机误差随机误差 2
16、)系统误差系统误差 方差分析解决这类问题的思想是:方差分析解决这类问题的思想是:nl由数据的总变差中分离出由数据的总变差中分离出随机误差和系统误差随机误差和系统误差。nl用系统误差和随机误差在一定条件下进行用系统误差和随机误差在一定条件下进行比较,如差异不大比较,如差异不大则认为则认为系统误差对指标的影响不大系统误差对指标的影响不大,如系统误差比随机误差大的,如系统误差比随机误差大的多,则说明条件的影响很大。以上面的例子说明即温度的变化对多,则说明条件的影响很大。以上面的例子说明即温度的变化对得率的影响很大,因此调整温度对产量的影响很大。得率的影响很大,因此调整温度对产量的影响很大。nl选择较
17、好的工艺条件或确定进一步的实验方案。选择较好的工艺条件或确定进一步的实验方案。n这里介绍几个方差分析术语:这里介绍几个方差分析术语:n因素因素:实验中的每一个条件,如上例的温度便是一个因素。:实验中的每一个条件,如上例的温度便是一个因素。n水平:水平:因素在实验中的等级称为水平,如上例中因素温度分为五因素在实验中的等级称为水平,如上例中因素温度分为五个水平:个水平:6065,70,75,80。如果把因素记为。如果把因素记为A,则相应地把水平记为则相应地把水平记为A1,A2,A3,A4,A5.n样本:样本:在同样条件下得到不同的实验结果每个结果,称为样本。在同样条件下得到不同的实验结果每个结果,
18、称为样本。4.1单因素方差分析单因素方差分析 设因素设因素A取了取了M个水平,每个水平重复了个水平,每个水平重复了N次实验得到次实验得到MN个样本,个样本,在水平在水平Ai下的第下的第j 次实验结果(样本)次实验结果(样本)Xij 可以分解为:可以分解为:(6.2.1)这里这里ij N(0,1)。)。为了看出因素各水平影响的大小,将为了看出因素各水平影响的大小,将Xij 再进行分解再进行分解,令令(6.2.2)令令显然显然ai之间有关系之间有关系ai 表示水平表示水平Ai 对实验结果产生的影响,它称做水平对实验结果产生的影响,它称做水平Ai 的效应。的效应。方差分析模型就是建立在以下假定之下:
19、方差分析模型就是建立在以下假定之下:1)2)3)(一)参数估计(一)参数估计即通过实验估计即通过实验估计和和ai,其估计量记为和,其估计量记为和和和ai。令。令则则这里这里取取是是的一个无偏估计。的一个无偏估计。类似地可以推出类似地可以推出 的无偏估计是的无偏估计是此时方差分析模型可以改写为:此时方差分析模型可以改写为:反映了误差反映了误差。由于。由于,均为已知故均为已知故可以通过样本求得。可以通过样本求得。(二)统计检验(二)统计检验如果因素如果因素A对指标有显著的影响,效应对指标有显著的影响,效应ai不全部为零,反之不全部为零,反之则全为零。因此我们假设则全为零。因此我们假设或或基本思想是
20、将总变差进行分离,即系统误差和随机误差。基本思想是将总变差进行分离,即系统误差和随机误差。设:设:Stotal 总变差,即总变差,即注:交叉项在线性假设下为注:交叉项在线性假设下为0。这里统计量。这里统计量对它们取期望值,利用对它们取期望值,利用 有有 令令则有则有如果如果H0:成立,则:成立,则,从而,从而与与之比应近于之比应近于1,即即统计量统计量F 值应近于值应近于1。如果因素。如果因素A 对指标有显著的影响对指标有显著的影响则则 将显著的大于将显著的大于1,这就是为什么可以用统计量,这就是为什么可以用统计量F来进行检验因素来进行检验因素A 是否显著的道理。是否显著的道理。由统计理论推知
21、,在线性模型假设下,由统计理论推知,在线性模型假设下,服从服从(M-1)个自个自由度的由度的分布,分布,服从服从(NM)个自由的个自由的分布,且两者独立,从而分布,且两者独立,从而服从以(服从以(M-1),(),(N-M)为自由度的)为自由度的F分布。分布。09:57:3249对给出的显著性水平对给出的显著性水平,若若p,则拒绝则拒绝H0,认为各水平的效应有显著差异;否则不能拒认为各水平的效应有显著差异;否则不能拒绝绝H0,认为各水平的效应无显著差异,认为各水平的效应无显著差异则有则有 检验的值为检验的值为:f f为观测数据求得的统计量为观测数据求得的统计量为观测数据求得的统计量为观测数据求得
22、的统计量F F的观测量的观测量的观测量的观测量且与且与SSE独立独立,另外另外,当当H0为真为真,方差分析表的一般形式为:方差分析表的一般形式为:09:57:3351SAS中的procanova用于单因素的方差分析.procanovadata=Manova 按多元分析的要求略去有任一缺失值的记录按多元分析的要求略去有任一缺失值的记录按多元分析的要求略去有任一缺失值的记录按多元分析的要求略去有任一缺失值的记录outstat=;指定统计结果输出的数据集名指定统计结果输出的数据集名指定统计结果输出的数据集名指定统计结果输出的数据集名class;必需,指定要分析的处理因素必需,指定要分析的处理因素必需
23、,指定要分析的处理因素必需,指定要分析的处理因素model/选项;必需,必需,必需,必需,给出分析用的方差分析模型给出分析用的方差分析模型给出分析用的方差分析模型给出分析用的方差分析模型means/选项;指定要两两比较的因素及比较方法指定要两两比较的因素及比较方法指定要两两比较的因素及比较方法指定要两两比较的因素及比较方法BY;FREQ;MANOVAH=效应E=效应M=公式.;指定多元方差分析的选项指定多元方差分析的选项09:57:3452输出的结果如下:SourceDFSumofSquares MeanSquareFValPr FModel 2 119.8313867 59.9156933
24、14.32.0001Error27112.97115004.1841167Total29232.8025367 09:57:3553例例3.1 为比较同一类型的三种不同食谱的营养为比较同一类型的三种不同食谱的营养效果,将效果,将19只幼鼠随机的分为三组,每组分别只幼鼠随机的分为三组,每组分别为为8只、只、4只、只、7只,各采用这三种食谱喂养,只,各采用这三种食谱喂养,假定其他条件不变,假定其他条件不变,12周后测得其体重增加量周后测得其体重增加量的数据如下的数据如下,设体重增加数据服从方差分析模型设体重增加数据服从方差分析模型试分析这三种食谱的营养效果是否明显差异试分析这三种食谱的营养效果是否
25、明显差异.解:体重增加是解:体重增加是因变量,因素只有一个:,因素只有一个:食谱;它有三个水平;调用它有三个水平;调用proc anova 程序为程序为:09:57:3554dataexamp3_1;inputrecipe$weight;cards;a1164a1190a1203a1205a1206a1214a1228a1257a2185a2197a2201a2231a3187a3212a3215a3220a3248a3265a3281;run;procanovadata=examp3_1;classrecipe;modelweight=recipe;run;09:57:3655检验假设检验假
26、设H0(即三种食谱的营养效果无显著差即三种食谱的营养效果无显著差异异)的的p值为值为0.1863,该值较大,不能拒绝,该值较大,不能拒绝H0,认为无明显差异认为无明显差异.09:57:3656例例3.2 有四个不同实验室制同一型号的纸张,为有四个不同实验室制同一型号的纸张,为比较它们生产的纸张的光滑度,测量了每个实比较它们生产的纸张的光滑度,测量了每个实验室生产的验室生产的8张,光滑度如下,设数据服从方差张,光滑度如下,设数据服从方差分析模型,对显著水平分析模型,对显著水平=0.05,析四个实验室,析四个实验室生产的纸张光滑度有无显著差异生产的纸张光滑度有无显著差异.解:光滑度是解:光滑度是因
27、变量因变量,因素只有一个:,因素只有一个:实验室实验室;它有四个水平;调用它有四个水平;调用proc anova 程序为程序为:09:57:3757dataexamp3_2;inputlab$smooth;cards;a138.7a141.5a143.8a144.5a145.5a146.0a147.7a158.0a239.2a239.3a239.7a241.4a241.8a242.9a243.3a245.8a334.0a335.0a339.0a340.0a343.0a343.0a344.0a345.0a434.0a434.8a434.8a435.4a437.2a437.8a441.2a442.
28、8;run;procanovadata=examp3_1;classlab;modelsmooth=lab;run;09:57:3758检验假设检验假设H0(即四个实验室试制的纸张光滑度即四个实验室试制的纸张光滑度有无显著差异有无显著差异)的的p值为值为0.0027=0.05,拒,拒绝绝H0,即认为四个实验室生产的纸张在显著水即认为四个实验室生产的纸张在显著水平平0.05下显著不同下显著不同4.3 多因素方差分析多因素方差分析n单因素方差分析的基本思想是在试验条件下单因素方差分析的基本思想是在试验条件下,我们将总的误我们将总的误差平方和分离成随机误差差平方和分离成随机误差Se和系统误差和系统误
29、差SA,并将其加工成,并将其加工成F=SA/Se统计量,当统计量,当F比比1很多时,则认为系统因子即因素对结很多时,则认为系统因子即因素对结果有特别的影响。果有特别的影响。将这一思想推广到多因素将这一思想推广到多因素A1,A2,AP即得多因素方差分析。即得多因素方差分析。n以三因素以三因素A,B,C为例,我们来推导三因素方差分析的算法,为例,我们来推导三因素方差分析的算法,其他多因素方差分析可以同理推广。对因素水平的某一组合如其他多因素方差分析可以同理推广。对因素水平的某一组合如果实验次数为一次,称为无重复实验。若实验次数为多次则称果实验次数为一次,称为无重复实验。若实验次数为多次则称多因素可
30、重复方差分析。这里每一组合的重复次数必须一样。多因素可重复方差分析。这里每一组合的重复次数必须一样。1)无重复三因素方差分析无重复三因素方差分析记三个因素分别为记三个因素分别为A,B,C,它们的水平数分别为,它们的水平数分别为a,b,c,样,样本记为:本记为:令令表示实验数据的总体均值,表示实验数据的总体均值,分别表示三分别表示三个因素各自的效应,而个因素各自的效应,而分别表示因素分别表示因素A,B,C两两的混合效应,则多因素方差分析线性模型可表示为:两两的混合效应,则多因素方差分析线性模型可表示为:这里,这里,独立同分布。独立同分布。我们的我们的假设为:假设为:2)可重复多因素方差分析模型)
31、可重复多因素方差分析模型在在 l 次重复实验的情况下,多因素方差分析线性模型为:次重复实验的情况下,多因素方差分析线性模型为:一般对一般对r 个因素(个因素()的多因素方差分析中)的多因素方差分析中,对于观察值对于观察值的线性模型,有的线性模型,有个各因素主效应,个各因素主效应,个两两不同因素的个两两不同因素的交互效应,交互效应,个(个(r-1)个因素的交互效应以及随机误差)个因素的交互效应以及随机误差项之和。项之和。平方和分解平方和分解在假设之下,可得估计量。在假设之下,可得估计量。最小二乘估计最小二乘估计 三因素方差分析各影响得估计量三因素方差分析各影响得估计量 分离总平方和为分离总平方和
32、为 其中其中 为残差平方和项,我们可以得到为残差平方和项,我们可以得到三因素方差分析表三因素方差分析表 两因素方差分析两因素方差分析anova2语法:语法:Two-way Analysis of Variance(ANOVA)p=anova2(X,reps)p=anova2(X,reps,displayopt)p,table=anova2(.)p,table,stats=anova2(.)这里:这里:X:数据矩阵:数据矩阵reps:重复次数:重复次数数据的结构为:数据的结构为:下标第一位:下标第一位:A因素水平数因素水平数下标第二位:下标第二位:B因素水平数因素水平数下标第三位:重复次数下标第
33、三位:重复次数本例的数据为:本例的数据为:3131 33 3533 353333 34 37 34 373434 36 37 36 3736 37 3836 37 383535 37 39 37 393636 39 40 39 403939 38 42 38 4238 41 4438 41 44 A1 A2 A3B1B2B4B3%两因素方差分析两因素方差分析X=load(e:dataanov_2.txt)%读入数据读入数据p=anova2(X,2)%求两因素方差分析求两因素方差分析结果分析:结果分析:A因素有显著性影响,因素有显著性影响,B因素有显著影响。因素有显著影响。AB的交叉因素则没有影
34、响。的交叉因素则没有影响。多因素方差分析多因素方差分析anovan语法:语法:N-way analysis of variance(ANOVA)p=anovan(x,group)p=anovan(x,group,Param1,val1,Param2,val2,.)p,table=anovan(.)p,table,stats=anovan(.)p,table,stats,terms=anovan(.)例例6.2.4 设三因素各有二水平,每个水平搭配下实验一次。设三因素各有二水平,每个水平搭配下实验一次。52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0 实验数据实验数
35、据 1 2 1 2 1 2 1 2 A因素因素 1 1 2 2 1 1 2 2 B因素因素 1 1 1 1 2 2 2 2 C因素因素y=52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0g1=1 2 1 2 1 2 1 2;g2=1 1 2 2 1 1 2 2;g3=1 1 1 1 2 2 2 2;p=anovan(y,g1 g2 g3,model,interaction,.varname,A,B,C)结果分析:从方差分析表中我们可以看出结果分析:从方差分析表中我们可以看出A因素对数据具有显著影响,因为因素对数据具有显著影响,因为p=0.03470.05B因素对数
36、据具有显著影响,因为因素对数据具有显著影响,因为p=0.00480.05AB因素对数据具有显著影响,因为因素对数据具有显著影响,因为p=0.0150.05BC因素对数据没有显著影响,因为因素对数据没有显著影响,因为p=0.50.054.4 多因素方差分析数据统一处理多因素方差分析数据统一处理 上面两因素方差分析的例子中,数据文件的准备相当麻烦。我上面两因素方差分析的例子中,数据文件的准备相当麻烦。我们统一将变量们统一将变量X,因素,因素A1,A2,AP看作变量,作为二维数组看作变量,作为二维数组的列,这样方差分析的数据为:的列,这样方差分析的数据为:可以整理成数据文件名为可以整理成数据文件名为
37、anon_2_2.txt,数据为:,数据为:31 1 1 33 1 1 33 2 1 34 2 1 35 3 1 37 3 1 34 1 2 36 1 2 36 2 2 37 2 2 37 3 2 38 3 2 35 1 3 36 1 3 37 2 3 39 2 3 39 3 3 40 3 3 39 1 4 38 1 4 38 2 4 41 2 4 42 3 4 44 3 4我们的程序为:我们的程序为:%利用统一的数据格式进行多因素方差分析利用统一的数据格式进行多因素方差分析X=load(e:dataanov_2_2.txt)varnames=A;B;group=X(:,2)X(:,3)%为因
38、素为因素A和和B的各种搭配的各种搭配anovan(X(:,1),group,2,2,varnames)计算结果与前面方法的一致计算结果与前面方法的一致例例4.2.5 大数据的多因素方差分析,对轿车数据大数据的多因素方差分析,对轿车数据carbig中的每加中的每加仑行驶里数仑行驶里数MPG进行分析,第一因素为进行分析,第一因素为cy14,是四缸与否。第二,是四缸与否。第二因素为产地因素为产地org(欧洲,日本,美国),第三因素为产出时间(早(欧洲,日本,美国),第三因素为产出时间(早期、中期、近期)期、中期、近期)load carbigvarnames=Origin;4Cyl;MfgDate;a
39、novan(MPG,org cyl4 when,3,3,varnames)2024/8/28 周三中国人民大学六西格玛质量管理研究中心77 目录 上页 下页 返回 结束 3.3 协方差阵的检验协方差阵的检验 上面讨论了多元正态分布均值的检验。但这仅上面讨论了多元正态分布均值的检验。但这仅仅研究了问题的一个方面,倘若要进一步深究不同仅研究了问题的一个方面,倘若要进一步深究不同总体的平均水平(均值)波动的幅度,前面介绍的总体的平均水平(均值)波动的幅度,前面介绍的方法就无能为力了。本节所介绍的协方差阵的检验方法就无能为力了。本节所介绍的协方差阵的检验可以解决该类问题可以解决该类问题一、一个正态总体协差阵的检验一、一个正态总体协差阵的检验n n 二、多个协差阵相等检验二、多个协差阵相等检验n n n 至少有一对本章结束