多元统计分析填空和简答(一).doc

资源描述

2 1．多元分析研究的是多个随机变量及其相互关系的统计总体。 2．多元统计中常用的统计量有：样本均值、样本方差、样本协方差和样本相关系数。 3．协方差和相关系数仅仅是变量间离散程度的一种度量，并不能刻画变量间可能存在的关联程度。 4．人们通过各种实践，发现变量之间的相互关系可以分成相关和不相关两种类型。 5．总离差平方和可以分解为回归离差平方和和剩余离差平方和两个部分，各自的自由度为 p 和n-p-1，其中回归离差平方和在总离差平方和中所占比重越大，则线性回归效果越显著。 7．偏相关系数是指多元回归分析中，当其他变量固定后，给定的两个变量之间的的相关系数。 8．Spss中回归方程的建模方法有一元线形回归、多元线形回归、岭回归、多对多线形回归等。 9．主成分分析是通过适当的变量替换，使新变量成为原变量的综合变量，并寻求相关性的一种方法。 10．主成分分析的基本思想是：设法将原来众多具有一定相关性（比如P个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。 11．主成分的协方差矩阵为对角矩阵。 12．主成分表达式的系数向量是相关系数矩阵的特征向量。 13．原始变量协方差矩阵的特征根的统计含义是原始数据的相关系数。 14．原始数据经过标准化处理，转化为均值为 0 ，方差为 1 的标准值，且其协方差矩阵与相关系数矩阵相等。 15．样本主成分的总方差等于 1 。 16．变量按相关程度为，在相关性很强程度下，主成分分析的效果较好。 17．在经济指标综合评价中，应用主成分分析法，则评价函数中的权数为方差贡献度。 19．因子分析是把每个原始变量分解为两部分因素，一部分是公共因子，另一部分为特殊因子。 20．变量共同度是指因子载荷矩阵中第i行元素的平方和。 21．公共因子方差与特殊因子方差之和为 1 。 22．聚类分析是建立一种分类方法，它将一批样哂或变量按照它们在性质上的亲疏程度进行科学的分类。 23．Q型聚类法是按样品进行聚类，R型聚类法是按变量进行聚类。 24． R型聚类统计量通常采用具有代表性的变量。 25．在聚类分析中需要对原始数据进行无量纲化处理，以消除不同量纲或数量级的影响，达到数据间可同度量的目的。常用的无量纲化方法有以下几种：中心化变换、规格化变换、标准化变换、对数变换。 26．六种Q型聚类方法分别为最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法 28．判别分析是要解决在研究对象已分成若干类的情况下，确定新的观测数据属于已知类别中哪一类的多元统计方法。 29．用判别分析方法处理问题时，通常以判别函数作为衡量新样本点与各已知组别接近程度的指标。 30．进行判别分析时，通常指定一种判别规则，用来判定新样本的归属，常见的判别准则有Fisher准则、贝叶斯准则。 33．Fisher判别法就是要找一个由p个变量组成的线性判别函数，使得各自组内点的离差尽可能接近，而不同组间点的尽可能疏远。简述多元统计分析的作用。能够简化数据的数据结构；能够进行分类和组合；能够研究指标之间的依存关系；进行预测；进行假设检验。简述逐步回归分析方法的基本原理。原理是从一个自变量出发，依照自变量对因变量的影响显著性大小，从大到小逐个引入回归方程，同时，在逐个自变量选入回归方程的过程中，如果发现先前被引入的自变量在其后由于某些自变量的引入而失去其重要性时，可以从回归方程中随时予以剔除。引入一个变量或剔除一个变量，为逐步回归的一步，每步都要进行显著性检验，以便保证每次引入变量前回归方程中只包括显著性变量，这个过程反复进行，直到既无不显著变量从回归方程中剔除，又无显著变量需要选入回归方程时为止。提取样本主成分的原则。 (1)Fi于Fj不相关。（2）F1是X1 ,X2…… Xp的一切线性组合中方差最大的，F2是与F1不相关的X1 ,X2……Xp一切线性组合中方差最大。Fp是与F1 ,……FP-1不相关的X1 ,X1….Xp一切线性组合中方差最大。思考主成分分析法的应用。首先，主成分分析可以用于系统评估；其次，在经济统计研究中，除了经济效益的综合评价研究外，对不同地区经济发展水平的评价研究，不同地区经济发展竞争力的评价研究，人民生活水平、生活质量的评价研究，等等都可以用主成分分析方法进行研究；另外，主成分分析除了用于系统评估研究领域外，还可以与回归分析结合，进行主成分回归分析，以及利用主成分分析进行挑选变量，选择变量子集合的研究。简述因子分析的基本思想。因子分析是通过变量（或样品）的相关系数矩阵内部结构的研究，找出存在于所有变量（或样品）中具有共性的因素，并综合为少数几个新变量，把原始变量表示成少数几个综合变量的线性组合，以再现原始变量与综合变量之间的相关关系。其中，这里的少数几个综合变量一般是不可观测指标，通常称为公共因子。简述系统聚类法的基本思想及主要步骤。聚类分析是将样品或变量按照它们在性质上的亲疏程度进行分类的多元统计分析方法。聚类分析时，用来描述样品或变量的亲疏程度通常有两个途径，一是把每个样品或变量看成是多维空间上的一个点，在多维坐标中，定义点与点，类和类之间的距离，用点与点间距离来描述样品或变量之间的亲疏程度；另一个是计算样品或变量的相似系数，用相似系数来描述样品或变量之间的亲疏程度简述系统聚类分析法。是在样品距离的基础上定义类与类的距离，首先将个样品自成一类，然后每次将具有最小距离的两个类合并，合并后再重新计算类与类之间的距离，再并类，这个过程一直持续到所有的样品都归为一类为止。这种聚类方法称为系统聚类法。根据并类过程所做的样品并类过程图称为聚类谱系图。 16．简述聚类分析和判别分析的区别和联系。区别：判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型（或组别）并已取得各种类型的一批已知样品的观测数据，在此基础上根据某些准则建立判别式，然后对未知类型的样品进行判别分类。聚类分析，并对于一批合定样品要划分的类型事先不知道，正需要聚类分析来综合确定类型的。联系：判别分析与聚类分析往往联合使用，往往是专职能部门类分析，再进行判别新样品属于哪一类。建立判别式判别。判别分析的基本步骤。步骤：（1）选择自变量或组变量，并计算各组单变量描述的计量，对判别分析所要求的前提能定进行统计检验；（2）推导判别系数组出标准化或未标准化的典则判别函数系数，并进行安著性检验；（3）建立Fisher判别模型，根据Bayes规则和Fisher规则进行判别组合；4）进行样本回判分析，对判别系数的结果进行分析；（5）输出结果，根据实际情况分析出结果，做出结论。 BAYES判别法和FISHER判别法的比较。 Fisher判别：又称典则判别，该方法的基本思想是投影，即将原来在R维空间的自变量组合投影到维度较低的D维空间上去，然后在D维空间再进行分类。其优势在于对分布和方差没有什么限制，应用范围广泛。 Bayes判别：就是利用经验信息，基本思想是认为所有D个类别都是空间中互斥的子城，每个观测都是空间中的一点。其优点在于进行多类别判别，但是它要求总体呈多元正态分布。距离判别法基本思想：根据已知分类的数据，计算样品与各类之间的“距离”，根据样品到类之间的“距离”大小判别，样品到那个类的“距离”最小，判样品属于哪个类。 Fisher判别法的基本思想：从多个总体（类）抽取一定的样本，借助方差分析的思想，建立p个指标的线性判别函数，把待判样品代入线性判别函数，然后与临界值比较，就可判样品属于哪个类。 Bayes判别法的基本思想：对多个总体（类）要求有一定的认识，利用借Bayes公式计算样品到每个总体（类）的概率，比较概率的大小，样品到那个总体（类）的概率最大，就判样品属于哪个总体（类）。因子分析的基本思想：把每个研究变量分解为几个影响因素变量，将每个原始变量分解成两部分因素，一部分是由所有变量共同具有的少数几个公共因子组成的，另一部分是每个变量独自具有的因素，即特殊因子。主成分分析分析与因子分析的联系和差异：联系：（1）因子分析是主成分分析的推广，是主成分分析的逆问题。（2）二者都是以‘降维’为目的，都是从协方差矩阵或相关系数矩阵出发。区别：（1）主成分分析模型是原始变量的线性组合，是将原始变量加以综合、归纳，仅仅是变量变换；而因子分析是将原始变量加以分解，描述原始变量协方差矩阵结构的模型；只有当提取的公因子个数等于原始变量个数时，因子分析才对应变量变换。（2）主成分分析，中每个主成分对应的系数是唯一确定的；因子分析中每个因子的相应系数即因子载荷不是唯一的。（3）因子分析中因子载荷的不唯一性有利于对公因子进行有效解释；而主成分分析对提取的主成分的解释能力有限。因子分析的基本步骤：（1）因子分析的前提条件鉴定（2）因子提取（3）因子旋转（4）计算因子得分主成分分析概念及几何意义概念（思想）：主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来的指标的信息几何意义：主成分分析的过程也就是坐标旋转的过程，各主成分表达式就是新坐标系与原坐标系的转换关系，新坐标系中各坐标轴的方向就是原始数据方差最大的方向。聚类分析的基本思想：是根据一批样品的多个观测指标，具体地找出一些能够度量样品或指标之间相似程度的统计量，然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类，把不相似的归为其他类。直到把所有的样品（或指标）聚合完毕. 典型相关基本思想和主成分分析非常相似。首先在每组变量中找出变量的线性组合，使得两组的线性组合之间具有最大的相关系数。然后选取和最初挑选的这对线性组合不相关的线性组合，使其配对，并选取相关系数最大的一对，如此继续下去，直到两组变量之间的相关性被提取完毕为此。被选出的线性组合配对称为典型变量，它们的相关系数称为典型相关系数。典型相关系数度量了这两组变量之间联系的强度。简述典型相关分析的分析方法和典型变量选取具体实施步骤（1）典型相关分析是研究两组变量之间相关关系的统计方法（2）取每组变量的线性组合，使他们的线性组合的相关系数达到最大（3）然后在每组中再取第二对典型相关变量，使其与第一对不相关（4）反复取，直到两组变量的相关性提取完为止（5）典型相关变量的提取多少用假设检验来检验* 单总体均值向量的检验设总体～Np(μ,Σ),随机样本X(α) (α＝1,…,n).检验（1）H0: μX＝μ0 (μ0为已知向量),H1: μ≠μ0 （2）取检验统计量（3）按传统的检验方法,对给定的显著水平α,查临界值表得λα : （4）由样本值计算X及T20值,若T20 ＞λα,则否定H0,否则H0相容. 简述典型相关分析的计算步骤（1）计算相关系数阵R （2）求典型相关系数及典型变量（3）典型相关系数的显著性检验简述距离判别法中得两个类别的判别及判别标准（1）两个总体的距离判别法：这两个总体、G2分别抽取n1和n2个样品，每个样品测量p个指标，计算X到G1、G2总体的距离。X∈G1 D (X1 , G1)﹤D (X1 , G2)；X∈G2 D (X1 , G1) D (X1 , G2)；待定D (X1 , G1)= D (X1 , G2)。（2）多个总体的距离判别法：∑（1）=（2……=∑(k)= ∑时当Wji(X) ﹥0 对一切j≠I；待判若有一个Wji=0。当∑（1），∑（2……∑(k)互不相等时：X∈Gi，若Wji(X) ﹥0对一切j≠I；待判若有一个Wji=0 ∑已知时均值向量的检验（1）写出检验假设，H0:μ=μ0 H1：μ≠μ0 (2)检验统计量=n(X--μ0)/ ∑-1(X--μ0)～X2(P)(在H0成立时)（3）对给定的检验水平a，查X2分布表使P〔T02﹥λa〕=a可确定临界值λx 再用样本值计算T02,若T02﹥λa则否定H0，否则相容

展开阅读全文