1、1、简述多元统计分析中协差阵检验的步骤第一,提出待检验的假设H0和H1;第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。协差阵的检验检验 检验 统计量2. 针对一个总体均值向量的检验而言,在协差阵已知和未知的两种情形下,如何分别构造的统计量?3. 作多元线性回归分析时,自变量与因变量之间的影响关系一定是线性形式的吗?多元线性回归分析中的线性关系是指什么变量之间存在线性关系?答:作多元线性回归分析时,自变量与因变量之间的影响关系不一定是线性
2、形式。当自变量与因变量是非线性关系时可以通过某种变量代换,将其变为线性关系,然后再做回归分析。多元线性回归分析的线性关系指的是随机变量间的关系,因变量y与回归系数i间存在线性关系。多元线性回归的条件是:(1)各自变量间不存在多重共线性;(2)各自变量与残差独立;(3)各残差间相互独立并服从正态分布;(4)Y与每一自变量X有线性关系。4.回归分析的基本思想与步骤基本思想:所谓回归分析,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或
3、两个以上自变量时,叫做多元回归分析。此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。步骤:1)确定回归方程中的解释变量和被解释变量。2)确定回归模型 根据函数拟合方式,通过观察散点图确定应通过哪种数学模型来描述回归线。如果被解释变量和解释变量之间存在线性关系,则应进行线性回归分析,建立线性回归模型;如果被解释变量和解释变量之间存在非线性关系,则应进行非线性回归分析,建立非线性回归模型。3)建立回归方程 根据收集到的样本数据以及前
4、步所确定的回归模型,在一定的统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。4)对回归方程进行各种检验 由于回归方程是在样本数据基础上得到的,回归方程是否真实地反映了事物总体间的统计关系,以及回归方程能否用于预测等都需要进行检验。5)利用回归方程进行预测5.多重共线性问题、不良后果、解决方法多重共线性是指线性回归模型中的自变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。常见的是近似的多重共线性关系,即存在不全为0的p个常数C1,C2, ,Cp使得C1Xi1+C2Xi2+CpXip0,i=1,2,n不良后果:模型存在完全的多重共线性,则资料阵X的秩p+1,
5、从而无法得到回归参数的估计量。对于近似多重共线性情况,虽有r(X)=p+1,但|XTX|0,从而矩阵(XTX)-1的主对角线上的元素很大,使得估计的参数向量的协方差阵的对角线上的元素也很大,导致普通最小二乘参数估计量并非有效。检验方法:方差扩大因子(VIF)法和特征根判定法方差扩大因子表达式为:VIFi=1/(1-Ri2),其中Ri为自变量xi对其余自变量作回归分析的复相关系数。当VIFi很大时,表明自变量间存在多重共线性。解决方法:当发现自变量存在严重的多重共线性时,可以通过剔除一些不重要的自变量、增大样本容量、对回归系数做有偏估计(如采用岭回归法、主成分法、偏最小二乘法等)等方法来克服多重
6、共线性。6.为什么要进行回归方程的显著性检验?答:对于任意给定的一组观测数据(xi1,xi2,.,xip;yi),(i=1,2,.,n) ,我们都可以建立回归方程。但实际问题很可能y与自变量x1,x2,.,xp之间根本不存在线性关系,这时建立起来的回归方程的效果一定很差,即回归值yi实际上不能拟合真实的值yi。即使整个回归方程的效果是显著的,在多元的情况下,是否每个变量都起着显著的作用呢?因此还需要对各个回归系数进行显著性检验,对于回归效果不显著的自变量,我们可以从回归方程中剔除,而只保留起重要作用的自变量,这样可以使回归方程更简练。7.统计性的依据是什么?给出一个回归方程如何做显著性检验?统
7、计性的依据是方差分析。对于多元线性回归方程作显著性检验就是要看自变量x1,x2,.xp从整体上对随机变量y是否有明显的影响,即检验假设H0:1=2=.=p=0 H1:至少有某个i0,1=i=p如果H0被接受,则表明y与x1,x2,.xp之间不存在线性关系,为了说明如何进行检验,我们首先要建立方差分析表。在进行显著性检验中,我们可以用F统计量来检验回归方程的显著性,也可以用P值法做检验。F统计量是:F=MSR/MSE=SSR/p/SSE/(n-p-1) 当H0为真时,FF(p,n-p-1)。给定显著性水平,查F分布表得临界值F1-(p,n-p-1),计算F的观测值,若F0F0),定显著性水平,若
8、pt/2(n-p-1)时,拒绝H0。反之,则接受H0。数据的中心化和标准化目的:解决利用回归方程分析实际问题时遇到的诸多自变量量纲不一致的问题。数据中心化处理的几何意义:相当于将坐标原点移至样本中心,而坐标系的平移并不改变直线的斜率,只改变了截距。通过对残差进行分析,可以在一定程度上回答下列问题:1)回归函数线性假定的可行性;2)误差项的等方差假设的合理性;3)误差项独立性假设的合理性;4)误差项是否符合正态分布;5)观测值中是否存在异常值;6)是否在模型中遗漏了某些重要的自变量。8.标准化回归方程与非标准化回归方程有何不同?在怎样的情况下需要将变量标准化?标准化回归方程 就是将自变量因变量都
9、标准化后的方程。在spss输出的回归系数中有一列是标准化的回归系数,由于都标准化了,因此标准化方程中没有常数项了。对数据标准化,即将原始数据减去相应变量的均数后再除以该变量的标准差,计算得到的回归方程称为标准化回归方程,相应的回归系数为标准化回归系数。一般情况下的回归,并不必须标准化,直接回归即可。在做主成分分析包括因子分析时,则必须标准化。9.回归分析和相关分析的区别和联系相关分析和回归分析都是对客观事物数量依存关系的分析,均有一元和多元,线性与非线性之分,在应用中相互结合渗透,但仍有差别,主要是:(1)相关分析主要刻画两类变量间线性相关的密切程度,而回归分析则是揭示一个变量如何与其他变量相
10、联系,并可由回归方程进行控制和预测(2)在相关分析中,变量y与x处于平等的地位,在回归分析中,因变量y处于被解释的特殊地位(3)在相关分析中所涉及的变量y与x完全是随机变量;而在回归分析中因变量y是随机变量,自变量可以是随机变量也可以是非随机变量。一般来说,只有存在相关关系才可以进行回归分析,相关程度越高,回归分析的结果就越可靠。10.回归方程的基本假定?(1)回归函数的线性假设(2)误差项的等方差假设(3)误差项的独立性假设(4)误差项的正态分布假设11.运用回归分析解决问题时,回归变量的选择理论依据的什么?选择回归变量时应注意哪些问题?(1)从拟合角度考虑,可以采用修正的复相关系数达到最大
11、的准则准则1:修正的复相关系数Ra2达到最大。因为:Ra2=1-MSE/(SST/(n-1)从这个关系式容易看出,Ra2达到最大时,MSE达到最小。(2)从预测的角度考虑,可以采用预测平方和达到最小的准则及Cp准则准则2:预测平方和PRESSp达到最小准则3:(Cp准则)(3)从极大似然估计角度考虑,可以采用赤池信息量化准则(AIC准则)准则4:赤池信息量达到最小AIC=nln(SSEp)+2p选择AIC值最小的回归方程为最优回归方程自变量的选择问题可以看成是应该采用全模型还是选模型的问题全模型正确误用选模型:全模型相应参数为有偏估计,选模型预测也是有偏的。选模型的参数估计和预测残差以及均方差
12、都有较小的方差。选模型正确误用全模型,全模型参数估计和预测是有偏估计,而全模型预测值的方差和均方差大于选模型相应的方差。上述结论说明丢掉那些对应变量影响不大的,或虽有影响,但难于观测的自变量是有利的。 12.逐步回归方法的基本思想与步骤基本思想:有进有出。具体做法是将变量一个一个引入,引入变量的条件是通过了偏F统计量的检验,同时,每引入一个新变量后,对已入选方程的老变量进行检测,将经检验认为不显著的变量剔除,此过程经过若干步,直到既不能引入新变量又不能剔除老变量为止。基本步骤:(1)对于每个自变量xi(1im),拟合m个一元线性回归模型,若Fi1(1)FE,则所选择含有自变量xi1的回归模型为
13、当前模型,否则,没有变量引入模型,选择过程结束,即认为所有自变量对y的影响均不显著。(2)在第一步的基础上,再将其余的m-1个自变量分别加入此模型中,得到m-1个二元回归方程,若若Fi1(2)FE则将自变量xi2引入模型,进一步考察xi2引入模型后,xi1对y的影响是否仍显著,若Fi1(2)FD,则剔除xi。(3)在第二步的基础上再将其余的m-2个自变量分别加入此模型中,拟合各个模型并计算偏F统计量值,与FE比较决定是否又新变量引入,如果有新的变量引入,还需要检验原模型中的老变量是否因为这个新变量的引入而不再显著,那样就应该被剔除。重复以上步骤,直到没有新的变量进入模型,同时在模型中的老变量都
14、不能被剔除,则结束选择过程。13.在作判别分析时,如何检验判别效果的优良性?当一个判别准则提出以后,还要研究其优良性,即要考察误判概率。一般使用以训练样本为基础的回代估计法与交叉确认估计法。(1)误判率回代估计法回判过程中,用n12表示将本属于G1的样本误判为G2的个数,n21表示将本属于G2的样本误判为G1的个数,总的误判个数是n12+n21,误判率的回代估计为(n12+n21)/(n1+n2),但往往比真实的误判率要小。(2)误判率的交叉确认估计每次剔除训练样本中的一个样本,利用其余容量为n1+n2-1个训练样本来建立判别准则,再利用所建立的判别准则对删除的那个样本作判别,对训练样本中的每
15、个样本做上述分析,以其误判的比例作为误判概率的估计。14、简述费希尔判别法的基本思想。从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数系数:确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p个指标值代入线性判别函数式中求出值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。15.Fisher判别法的基本思想基本思想是投影。将k组m元数据投影到某一个方向,使得投影后组与组之间尽可能地分开,其中利用了一元差分的思想导出判别函数。这个函数可以是线性的,也可以是其他类型的函数。贝叶斯判别法的基本思想基本思想是假定对所研究是对象(总体)在
16、抽样前就有一定的认识,常用先验概率分布来描述这种认识。然后基于抽取的样本再对先验概率做修正,得到后验概率分布,再基于后验概率分布做判别分析。16.简述费歇尔准则下两类判别分析的基本思想。答:费歇尔的判别方法,其基本思想是把p个变量x1,x2,.,xp综合成一个新变量y,y=c1x1+c2x2+.+cpxp=cx ,也即产生一个综合判别指标,要求已知的g个类Gk,k=1,2,.,g在这个新变量下能最大程度地区分开,于是可用这个综合判别指标判别未知样品的归属。其中c=(c1,c2,cp)为待定参数。判别方程除没有常数外,与回归方程非常相似,但两者有着本质的区别。在回归方程中,y为因变量,是一个已知
17、的随机变量,有其样本测试值,回归分析的任务是选择一组参数,使得根据回归方程预测的因变量的值与实测值尽可能地接近;而判别模型中y只是一个综合变量,实际上并不存在这样一个变量,因而也没有实测值。判别模型的几何意义是把p维空间的点投影到一维空间(直线)上去,使各已知类在该直线上的投影尽可能分离。17.比较费歇尔准则下的两类判别方程与回归方程的异同。为什么判别方程中不需要常数项?答:除没有常数项外,与回归方程非常相似,但两者有着本质的区别。在回归方程中,y为因变量,是一个已知的随机变量,有其样本测试值,回归分析的任务是选择一组参数,使得根据回归方程预测的因变量的值与实测值尽可能地接近;而判别模型中y只
18、是一个综合变量,实际上并不存在这样一个变量,因而也没有实测值。判别模型的几何意义是把p维空间的点投影到一维空间(直线)上去,使各已知类在该直线上的投影尽可能分离。18.判别分析与聚类分析有何不同?聚类分析和判别分析有相似的作用,都是起到分类的作用。但是判别分析是已知分类然后总结出判别规则,是一种有指导的学习;而聚类分析则是有了一批样本,不知道它们的分类,甚至连分成几类都不知道,希望用某种方法把观测进行合理的分类,使得同一类的观测比较接近,不同类的观测相差较多,这是无指导的学习。所以聚类分析依赖于对观测间的接近程度(距离)或相似程度的理解,定义不同的距离量度和相似性量度就可以产生不同的聚类结果。
19、19.简述聚类分析的基本思想。有哪两类聚类分析?各自的作用?聚类分析就是根据空间点群的“亲疏”关系进行分类的一种方法。为此要给出表示空间点与点之间“亲疏”关系的相似性度量,然后讨论根据相似性度量进行点群簇分的方法和应用。聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中对象趋向于不相似。聚类分析根据对象不同分为Q型聚类分析(对样本进行聚类)和R型聚类(对变量进行聚类)。对样品或变量进行聚类时,我们常用距离和相似系数来对样品或变量之间的相似性进行度量。距离用来度量样品之间的相似性,而相似系数常
20、用来度量变量间的相似性。20.距离系数需要满足的基本条件?答:点i和点j之间的距离dij可有各种不同的定义,只要其满足所谓的距离公理:对一切是i,j,dij=0;dij=0等价于点i和点j为同一点,即X(i)=X(j);对一切的i,j,dij=dji;三角不等式成立,即对一切的i,j,k,有dij=dik+dkj21.系统聚类法的基本思想和步骤。有哪些常用的系统聚类法?基本思想:(1)将聚类的n个样品(或者变量)各自看成一类,共有n类;(2)按照事先选定的方法计算每两类之间的聚类统计量,即某种距离(或者相似系数),将关系最密切的两类并为一类,其余不变,即得n-1类;(3)按前面的计算方法计算新
21、类与其他类之间的距离(或者相似系数),将关系最密切的两类并为一类,其余不变,即得n-2类;(4)如此继续下去,直到最后所有样品(或者变量)归为一类为止。基本步骤:(1)n个样品(或者变量)各自成一类,一共有n类。计算两两之间的距离,显然D(Gp,Gq)=dpq,构成一个对称矩阵D(0)=(dij)nn,其对角线上的元素全为0.(2)选择D(0)中对角线元素以外的上(或者下)三角部分中的最小元素,设其为D(Gp,Gq),与其下标相对应,将类Gp与Gq合并成一个新类,记为Gr。计算Gr与其他类Gk(kp,q)之间的距离。(3)在D(0)中划去与Gp、Gq所对应的两行和两列,并加入由新类Gr与其他各
22、类之间的距离所组成的一行和一列,得到一个新的n-1阶对称距离矩阵D(1)。(4)由D(1)出发,重复步骤(2)(3)得到对称矩阵D(2);再由D(2)出发,重复步骤(2)(3)得到对称矩阵D(3),.,依次类推,直到n个样品(或者变量)聚为一个大类为止。(5)在合并某两类的过程中记下两类样品(或者变量)的编号以及所对应的距离(或者相似系数),并绘制成果聚类图。(6)决定类的个数以及聚类结果。常用的系统聚类法有:最短距离法、最长距离法、中间距离法、重心法、来平均法、离差平方和法22.模糊聚类法的基本思想和步骤基本思想:采用模糊数学语言对事物按一定的要求进行描述和分类的数学方法称为模糊聚类分析,模
23、糊聚类分析一般是指根据研究对象本身的属性来构造模糊矩阵,并在此基础上根据一定的隶属度来确定聚类关系,即用模糊数学的方法把样本之间的模糊关系定量的确定,从而客观且准确地进行聚类。模糊聚类分析所讨论的对象,事先没有给定任何模式供分类参考,要求按照样本各自的属性特征加以分类。聚类就是将数据集分成多个类或簇,使得各个类之间的数据差别应尽可能大,类内之间的数据差别应尽可能小,即为“最小化类间相似性,最大化类内相似性”原则。基本步骤:(1)选定一种计算距离或相似系数的公式。(2)由观测数据矩阵计算样品间的距离dij(1i,jn)或变量间的相似系数rij(1i,jm),形成距离矩阵D=(dij)nn或相似系
24、数矩阵R=(rij)mm(3)将距离矩阵D或相似系数矩阵R中的元素压缩到0与1之间,形成模糊矩阵A=(aij)(4)将模糊矩阵A改造成为模糊等价矩阵(5)选取截取水平(01),对样本进行模糊聚类(6)按的值画出聚类的谱系图。23如何确定合理的聚类数目?聚类数目的真正确定在于研究的问题是什么,以及事先有无一个大致的判断标准。分类的数目应该符合使用的目的。确定聚类数的问题属于聚类有效性问题。比如在模糊聚类分析中,可以根据方差分析理论,应用混合F统计量来确定最佳分类数。24、在进行系统聚类分析时,不同的类间距离计算方法有何区别?请举例说明。设dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj
25、之间的距离。(1). 最短距离法(2)最长距离法(3)中间距离法其中(4)重心法 (5)类平均法 (6)可变类平均法 其中b是可变的且b 1(7)可变法 其中b是可变的且b 1(8)离差平方和法 25.数据变换由于每个样品各个变量的观测值具有不同的数量级和不同的测量单位,所以有必要进行变换,得到无量纲数据,以消除其中的不合理现象,提高分类效果,常用的数据变换方法有:标准化法、正规化法、极差标准化法、极大值正规化法、均值正规化法26.Q型聚类统计量考虑对样品进行聚类,描述变量之间的接近程度常用“距离”来度量。两个样品之间的距离越小,表示两者之间的共同点越多;距离越大,共同点越少。常用距离有:绝对
26、值距离、欧式距离、闵克夫斯基距离、切比雪夫距离、马哈拉诺比斯距离27.R型聚类统计量考虑对样品进行聚类,描述变量之间的接近程度常用“相似系数”来度量。两个变量之间的相似系数的绝对值越接近于1,表示两者关系越密切;绝对值越接近于0,关系越疏远。常用相似距离有:夹角余弦和相似系数。28.简述主成分分析的基本思想。答:主成分分析的基本思想是构造原始变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。29.主成分的求取首先,求其协方差矩阵的各特征值及相应的正交单位化特征向量,然后
27、,以特征值从大到小所对应的特征向量为组合系数所得到的X1,X2,.,Xp的线性组合分别取作X的第一、第二、直至第p个主成分,而各主成分的方差等于相应的特征值。30.主成分分析的基本思想,可以做什么应用及在应用中要选几个主成分?主成分分析的基本思想:构造原始变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。通常变量中所含信息的多少用该变量的方差(或样本方差)来度量,这是经典的信息量的表示方法。解决的问题:(1)研究的问题当中,随机变量的个数比较大,将增大计算量和分析问题的
28、复杂性;(2)随机变量之间存在着一定的相关性,它们的观测样本所反映的信息在一定程度上存在着重叠的。一般地,在约束条件liTli=1Cov(Yi,Yk)=liTlk=0,k=1,2,.,i-1之下,使得Var(Yi)达到最大,由此li确定的Yi=liTX称为X1,X2,.,Xp的第i个主成分。31.比较主成分分析与判别分析的基本思想。主成分分析就是一种通过降维技术把多个指标约化为少数几个综合指标的统计分析方法。其基本思想是:设法将原来众多具有一定相关性的指标(设为p个),重新组合成一组新的相互无关的综合指标来代替原来指标。数学上的处理就是将原来P个指标作线性组合,作为新的指标。第一个线性组合,即
29、第一个综合指标记为Y1,为了使该线性组合具有唯一性,要求在所有线性组合中Y1的方差最大,即Var(Y1)越大,那么包含的信息越多。如果第一个主成分不足以代表原来p个指标的信息,再考虑选取第二个主成分Y2,并要求Y1已有的信息不出现在Y2中,即主成分分析是将分散在一组变量上的信息集中到某几个综合指标上的探索性统计分析方法。以便利用主成分描述数据集内部结构,实际上也起着数据降维作用。聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中对象趋向于不相似。聚类分析根据对象不同可分为Q型聚类分析(对样本
30、进行聚类)和R型聚类分析(对变量进行聚类)。对样本或变量进行聚类时,我们常用距离和相似系数来对样品或变量之间的相似性进行度量。距离常用来度量样品之间的相似性,而相似系数常用来度量变量间的相似性。32、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。33.因子分析的基本思想?因子分析是主成分分析的推广,它也是利用降维的
31、思想,从研究原始变量相关矩阵内部结构出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的 多元统计分析方法,因子分析的基本思想是根据相关性大小将变量分组,使得同组内的变量之间相关性较高,不同组的变量相关性较低。每一组变量代表一个基本结构,用一个不可观测的综合变量表示,这个基本结构称为公共因子。对于所研究的问题就可用最少个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。34、比较主成分分析与因子分析的异同点。相同点:两种分析方法都是一种降维、简化数据的技术。两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的
32、姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。 主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。 35、简述相应分析的基本思想。相应分析指受制于某个载体总体的两个因素为A和B,其中因素A包含r个水平,即 A1,A2,Ar;因素B包含即c个水平,即B1,B2,Bc。对这两组因素作随机抽样调查, 记为得到
33、一个rc的二维列联表,记为K=(Kij)rc,主要目的是寻求列联表行因素A和列因素B的基本分析特征和它们的最优联立表示。基本思想为通过列联表的转换,使得因素A和列因素B具有对等性,这样就可以用相同的因子轴同时描述两个因素各个水平的情况,把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,直观地描述两个因素A和因素B以及各个水平之间的相关关系。36、进行相应分析时在对因素A和因素B进行相应分析之前有没有必要进行独立性检验?为什么?有必要,如果因素A和因素B独立,则没有必要进行相应分析;如果因素A和因素B不独立,可以进一步通过相应分析考察两因素各个水平之间的相关关系。37. 解释因子分
34、析模型中,变量共同度与公因子方差贡献的统计意义。为什么有时候需要作因子旋转?有哪些估计因子得分的方法?因子得分的计算是不是通常意义下的参数估计?变量共同度的统计意义:Xi*=ai1F1+.+aimFm+i两边求方差 Var(Xi)=a2i1Var(F1)+.+ a2imVar(Fm)+Var(i)1=aij2+i2=hi2+i2所有的公共因子和特殊因子对变量Xi*的贡献为1。hi2反映了全部公共因子对变量Xi*影响,是全部公共因子对变量方差所作出的贡献,或者说Xi*对公共因子的共同依赖程度,称为公共因子对变量Xi*的方差贡献。hi2接近于1,表明该变量的原始信息几乎都被选取的公共因子说明了。i
35、2特殊因子的方差,反映了原有变量方差中无法被公共因子描述的比例。公因子方差贡献的统计意义:是衡量公共因子相对重要性的指标,gj2越大,表明公共因子Fj对x的贡献越大,或者说对x的影响和作用就越大。一个正交变换对应坐标系的旋转,而且主因子的任一解均可由已求得的A经过旋转(右乘一个正交阵)得到。经过旋转后,公共因子对xi的贡献hi2并不改变,但公共因子本身可能有较大变化,即gj2不再与原来的值相同,从而可通过适当的旋转来得到我们比较满意的公共因子。估计因子得分的方法较多,常用的有回归估计法,Bartlett估计法,Thomson估计法。回归估计法F = X b = X (X X)-1A = XR-
36、1A (这里R为相关阵,且R = X X )。Bartlett估计法Bartlett估计因子得分可由最小二乘法或极大似然法导出。F = (W-1/2A) W-1/2A-1(W-1/2A) W-1/2X = (AW-1A)-1AW-1XThomson估计法在回归估计法中,实际上是忽略特殊因子的作用,取R = X X,若考虑特殊因子的作用,此时R = X X+W,于是有:F = XR-1A = X (X X+W)-1A这就是Thomson估计的因子得分,使用矩阵求逆算法(参考线性代数文献)可以将其转换为:F = XR-1A = X (I+AW-1A)-1W-1A将公共因子用变量的线性组合来表示,也
37、即由地区经济的各项指标值来估计它的因子得分。设公共因子F由变量x表示的线性组合为:Fj = uj1 xj1+ uj2 xj2+ujpxjp j=1,2,m但因子得分函数中方程的个数m小于变量的个数p,所以并不能精确计算出因子得分,只能对因子得分进行估计。38.试比较主成分分析、因子分析、对应分析这三种方法的异同之处并简要介绍它们的应用。主成分分析的基本思想是构造原始变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。通常变量中所含信息的多少用该变量的方差(或样本方差)来度
38、量,这是经典的信息量的表示方法。例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。利用主成分分析既可以大大减少参与建模的变量个数,同时也不会造成信息的大量丢失。能够有效降低变量维数。因子分析是主成分分析的推广,它也是利用降维的思想,从研究原始变量相关矩阵内部结构出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的 多元统计分析方法,因子分析的基本思想是根据相关性大小将变量分组,使得同组内的变量之间相关性较高,不同组的变量相关性较低。每一组变量代表一个基本结构,用一个不可
39、观测的综合变量表示,这个基本结构称为公共因子。对于所研究的问题就可用最少个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。例如,某企业招聘人才,对每位应聘者进行外贸、申请书的形式、专业能力、讨人喜欢的能力、自信心、洞察力、诚信、推销本领、经验、工作态度、抱负、理解能力、潜在能力、实际能力、适应性的15个方面考核。这15个方面可归结为应聘者的表现力、亲和力、实践经验、专业能力4个方面,每一方面称为一个公告因子。企业可根据这4个公共因子的情况来衡量应聘者的综合水平。对应分析是因子分析的进一步推广,也称关联分析、R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析
40、技术,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。相应分析指受制于某个载体总体的两个因素为A和B,其中因素
41、A包含r个水平,即 A1,A2,Ar;因素B包含即c个水平,即B1,B2,Bc。对这两组因素作随机抽样调查, 记为得到一个rc的二维列联表,记为K=(Kij)rc,主要目的是寻求列联表行因素A和列因素B的基本分析特征和它们的最优联立表示。基本思想为通过列联表的转换,使得因素A和列因素B具有对等性,这样就可以用相同的因子轴同时描述两个因素各个水平的情况,把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,直观地描述两个因素A和因素B以及各个水平之间的相关关系。共同点:(1)都是用少数的几个变量(因子)来反映原始变量(因子)的主要信息。并且新的变量彼此不相关,消除了多重共线性。(2)求
42、解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。不同点:(1)相对于主成分分析,因子分析更倾向于描述原始变量之间的相关关系。(2)线性表示方向不同,因子分析和对应分析是把变量表示成公共因子的线性组合,而主成分分析则是把主成分表示成各变量的线性组合。(3)主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析和对应分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析和对应分析要构造因子模型。(4)对应分析克服了因子分析的不足之处,可以寻找出R型和Q型分析间的内在联系,由R型分析的结果可以
43、方便地得到Q型分析结果,克服了做Q型分析样品容量n很大时计算上的困难。40.因子分析的一般步骤1)将原始数据标准化2)建立变量的相关系数矩阵R3)求R的特征根及相应的单位特征向量,根据累积贡献率要求,取前m个特征根及相应的特征向量,写出因子载荷阵A4)对A施行因子旋转5)计算因子得分41.试述主成分分析的基本思想。由协方差矩阵出发和由相关系数矩阵出发求主成分有何不同?答:主成分分析的基本思想是构造原始变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。一般而言,对于度量单
44、位不同的指标或是取值范围彼此差异非常大的指标,我们不直接由其协方差矩阵出发进行主成分分析,而应该考虑将数据标准化,由相关阵出发求解主成分。对同度量或是取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。实际表明,这种差异有时很大。由协方差阵出发求解主成分所得的结果及由相关阵出发求解主成分所得的结果有很大不同,所得主成分解释原始变量方差比例与主成分表达式均有显著差别,且两者之间不存在简单的线性关系。42.如果回归方程通过了显著性检验而有部分系数(变量)没有通过显著性检验,你觉得应该如何处理?谈谈你对回归方程形式设定和自变量选择的想
45、法或经验。答:根绝具体情况,找准原因。如果是变量对Y有很强的影响,而该变量对应的系数却没有通过检验,则修改回归模型。常用的可选的回归方程形式有:线性函数、线性对数函数、倒数函数、线性多项式函数、交互作用函数等等。选择的标准:第一,看散点图,根据散点图的形态进行选择;第二,经济实质,这个根据回归系数的含义;第三,数据特征,有的是绝对数据有的是相对数据。但是,以上这些判断非常依赖经验,经验不足的话可以进行试错,对于样本选择所有的函数形式进行回归,再根据回归统计量的优劣确定最佳的函数形式。自变量的选择问题可以看成是应该采用全模型还是选模型的问题全模型正确误用选模型:全模型相应参数为有偏估计,选模型预
46、测也是有偏的。选模型的参数估计和预测残差以及均方差都有较小的方差。选模型正确误用全模型,全模型参数估计和预测是有偏估计,而全模型预测值的方差和均方差大于选模型相应的方差。上述结论说明丢掉那些对应变量影响不大的,或虽有影响,但难于观测的自变量是有利的。 43.简述动态聚类法的基本思想和步骤,在实际应用中如何确定合理的聚类数目?答:基本思想:首先选择若干个样本作为聚类中心,再按照事先确定的聚类准则进行聚类。在聚类过程中,根据聚类准则对聚类中心反复修改,直到分类合理为止。步骤:(1)选择凝聚点,凝聚点就是一批有代表性的样品。可以凭经验选择,或将所有样品随机分成k份,计算每一类的均值,将这些均值作为凝聚点;也可以采用最大最小原则或密度法。(2)初始分类(3)判断分类是否合理,若不合理,则修改分类,重复步骤(2)(4)至分类结果合理,结