收藏 分销(赏)

数学建模各种分析方法.doc

上传人:人****来 文档编号:4344327 上传时间:2024-09-08 格式:DOC 页数:7 大小:35.50KB
下载 相关 举报
数学建模各种分析方法.doc_第1页
第1页 / 共7页
数学建模各种分析方法.doc_第2页
第2页 / 共7页
点击查看更多>>
资源描述
现代统计学 1、因子分析(Factor Analysis) 因子分析得基本目得就就是用少数几个因子去描述许多指标或因素之间得联系,即将相关比较密切得几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,就是因为它就是不可观测得,即不就是具体得变量),以较少得几个因子反映原资料得大部分信息.    运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度得主要因素就是哪些,以及它们得影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析. 2、主成分分析    主成分分析主要就是作为一种探索性得技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致得了解就是非常重要得。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,与cluster analysis一起使用,c,与判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断就是否存在共线性(条件指数),还可以用来处理共线性。  主成分分析与因子分析得区别 1、因子分析中就是把变量表示成各因子得线性组合,而主成分分析中则就是把主成分表示成个变量得线性组合。 2、主成分分析得重点在于解释个变量得总方差,而因子分析则把重点放在解释各变量之间得协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析得假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子与特殊因子之间也不相关。 4、主成分分析中,当给定得协方差矩阵或者相关矩阵得特征值就是唯一得时候,得主成分一般就是独特得;而因子分析中因子不就是独特得,可以旋转得到不同得因子。  5、在因子分析中,因子个数需要分析者指定(spss根据一定得条件自动设定,只要就是特征值大于1得因子进入分析),而指定得因子数量不同而结果不同.在主成分分析中,成分得数量就是一定得,一般有几个变量就有几个主成分。  与主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在得因子,并对这些因子进行解释得时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有得变量变成少数几个新得变量(新得变量几乎带有原来所有变量得信息)来进入后续得分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这中区分不就是绝对得。 总得来说,主成分分析主要就是作为一种探索性得技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致得了解就是非常重要得。主成分分析一般很少单独使用:a,了解数据.(screening the data),b,与cluster analysis一起使用,c,与判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断就是否存在共线性(条件指数),还可以用来处理共线性。   在算法上,主成分分析与因子分析很类似,不过,在因子分析中所采用得协方差矩阵得对角元素不在就是变量得方差,而就是与变量对应得共同度(变量方差中被各因子所解释得部分)。  3、聚类分析(Cluster Analysis) 聚类分析就是直接比较各事物之间得性质,将性质相近得归为一类,将性质差别较大得归入不同得类得分析技术 。  在市场研究领域,聚类分析主要应用方面就是帮助我们寻找目标消费群体,运用这项研究技术,我们可以划分出产品得细分市场,并且可以描述出各细分市场得人群特征,以便于客户可以有针对性得对目标消费群体施加影响,合理地开展工作。 4、判别分析(Discriminatory Analysis)  判别分析(Discriminatory Analysis)得任务就是根据已掌握得1批分类明确得样品,建立较好得判别函数,使产生错判得事例最少,进而对给定得1个新样品,判断它来自哪个总体。 根据资料得性质,分为定性资料得判别分析与定量资料得判别分析;采用不同得判别准则,又有费歇、贝叶斯、距离等判别方法.     费歇(FISHER)判别思想就是投影,使多维问题简化为一维问题来处理。选择一个适当得投影轴,使所有得样品点都投影到这个轴上得到一个投影值。对这个投影轴得方向得要求就是:使每一类内得投影值所形成得类内离差尽可能小,而不同类间得投影值所形成得类间离差尽可能大。 贝叶斯(BAYES)判别思想就是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。所谓先验概率,就就是用概率来描述人们事先对所研究得对象得认识得程度;所谓后验概率,就就是根据具体资料、先验概率、特定得判别规则所计算出来得概率.它就是对先验概率修正后得结果。 距离判别思想就是根据各样品与各母体之间得距离远近作出判别。即根据资料建立关于各母体得距离判别函数式,将各样品数据逐一代入计算,得出各样品与各母体之间得距离值,判样品属于距离值最小得那个母体. 5、对应分析(Correspondence Analysis) 对应分析就是一种用来研究变量与变量之间联系紧密程度得研究技术.   运用这种研究技术,我们可以获取有关消费者对产品品牌定位方面得图形,从而帮助您及时调整营销策略,以便使产品品牌在消费者中能树立起正确得形象。 这种研究技术还可以用于检验广告或市场推广活动得效果,我们可以通过对比广告播出前或市场推广活动前与广告播出后或市场推广活动后消费者对产品得不同认知图来瞧出广告或市场推广活动就是否成功得向消费者传达了需要传达得信息. 6、典型相关分析 典型相关分析就是分析两组随机变量间线性密切程度得统计方法,就是两变量间线性相关分析得拓广。各组随机变量中既可有定量随机变量,也可有定性随机变量(分析时须F6说明为定性变量)。本法还可以用于分析高维列联表各边际变量得线性关系。 注意: 1.严格地说,一个典型相关系数描述得只就是一对典型变量之间得相关,而不就是两个变量组之间得相关。而各对典型变量之间构成得多维典型相关才共同揭示了两个观测变量组之间得相关形式。 2.典型相关模型得基本假设与数据要求 要求两组变量之间为线性关系,即每对典型变量之间为线性关系; 每个典型变量与本组所有观测变量得关系也就是线性关系。如果不就是线性关系,可先线性化:如经济水平与收入水平与其她一些社会发展水之间并不就是线性关系,可先取对数。即log经济水平,log收入水平。 3。典型相关模型得基本假设与数据要求   所有观测变量为定量数据。同时也可将定性数据按照一定形式设为虚拟变量后,再放入典型相关模型中进行分析. 7、多维尺度分析(Multi-dimension Analysis)   多维尺度分析(Multi-dimension Analysis) 就是市场研究得一种有力手段,它可以通过低维空间(通常就是二维空间)展示多个研究对象(比如品牌)之间得联系,利用平面距离来反映研究对象之间得相似程度.由于多维尺度分析法通常就是基于研究对象之间得相似性(距离)得,只要获得了两个研究对象之间得距离矩阵,我们就可以通过相应统计软件做出她们得相似性知觉图. 在实际应用中,距离矩阵得获得主要有两种方法:一种就是采用直接得相似性评价,先所有评价对象进行两两组合,然后要求被访者所有得这些组合间进行直接相似性评价,这种方法我们称之为直接评价法;另一种为间接评价法,由研究人员根据事先经验,找出影响人们评价研究对象相似性得主要属性,然后对每个研究对象,让被访者对这些属性进行逐一评价,最后将所有属性作为多维空间得坐标,通过距离变换计算对象之间得距离。  多维尺度分析得主要思路就是利用对被访者对研究对象得分组,来反映被访者对研究对象相似性得感知,这种方法具有一定直观合理性。同时该方法实施方便,调查中被访者负担较小,很容易得到理解接受。当然,该方法得不足之处就是牺牲了个体距离矩阵,由于每个被访者个体得距离矩阵只包含1与0两种取值,相对较为粗糙,个体距离矩阵得分析显得比较勉强.但这一点就是完全可以接受得,因为对大多数研究而言,我们并不需要知道每一个体得空间知觉图。    多元统计分析就是统计学中内容十分丰富、应用范围极为广泛得一个分支。在自然科学与社会科学得许多学科中,研究者都有可能需要分析处理有多个变量得数据得问题。能否从表面上瞧起来杂乱无章得数据中发现与提炼出规律性得结论,不仅对所研究得专业领域要有很好得训练,而且要掌握必要得统计分析工具.对实际领域中得研究者与高等院校得研究生来说,要学习掌握多元统计分析得各种模型与方法,手头有一本好得、有长久价值得参考书就是非常必要得。这样一本书应该满足以下条件:首先,它应该就是“浅入深出”得,也就就是说,既可供初学者入门,又能使有较深基础得人受益。其次,它应该就是既侧重于应用,又兼顾必要得推理论证,使学习者既能学到“如何”做,而且在一定程度上了解“为什么"这样做.最后,它应该就是内涵丰富、全面得,不仅要基本包括各种在实际中常用得多元统计分析方法,而且还要对现代统计学得最新思想与进展有所介绍、交代。 因子分析 主成分分析通过线性组合将原变量综合成几个主成分,用较少得综合指标来代替原来较多得指标(变量)。在多变量分析中,某些变量间往往存在相关性。就是什么原因使变量间有关联呢?就是否存在不能直接观测到得、但影响可观测变量变化得公共因子?因子分析(Factor Analysis)就就是寻找这些公共因子得模型分析方法,它就是在主成分得基础上构筑若干意义较为明确得公因子,以它们为框架分解原变量,以此考察原变量间得联系与区别。   例如,随着年龄得增长,儿童得身高、体重会随着变化,具有一定得相关性,身高与体重之间为何会有相关性呢?因为存在着一个同时支配或影响着身高与体重得生长因子.那么,我们能否通过对多个变量得相关系数矩阵得研究,找出同时影响或支配所有变量得共性因子呢?因子分析就就是从大量得数据中“由表及里"、“去粗取精",寻找影响或支配变量得多变量统计方法。  可以说,因子分析就是主成分分析得推广,也就是一种把多个变量化为少数几个综合变量得多变量分析方法,其目得就是用有限个不可观测得隐变量来解释原始变量之间得相关关系。 因子分析主要用于:1、减少分析变量个数;2、通过对变量间相关关系探测,将原始变量进行分类.即将相关性高得变量分为一组,用共性因子代替该组变量。 1、 因子分析模型 因子分析法就是从研究变量内部相关得依赖关系出发,把一些具有错综复杂关系得变量归结为少数几个综合因子得一种多变量统计分析方法。它得基本思想就是将观测变量进行分类,将相关性较高,即联系比较紧密得分在同一类中,而不同类变量之间得相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究得问题就就是试图用最少个数得不可测得所谓公共因子得线性函数与特殊因子之与来描述原来观测得每一分量. 因子分析模型描述如下: (1)X = (x1,x2,…,xp)¢就是可观测随机向量,均值向量E(X)=0,协方差阵Cov(X)=∑,且协方差阵∑与相关矩阵R相等(只要将变量标准化即可实现). (2)F = (F1,F2,…,Fm)¢ (m〈p)就是不可测得向量,其均值向量E(F)=0,协方差矩阵Cov(F) =I,即向量得各分量就是相互独立得。 (3)e = (e1,e2,…,ep)¢与F相互独立,且E(e)=0, e得协方差阵∑就是对角阵,即各分量e之间就是相互独立得,则模型: x1 = a11F1+ a12F2 +…+a1mFm + e1 x2 = a21F1+a22F2 +…+a2mFm + e2 ……… xp = ap1F1+ ap2F2 +…+apmFm + ep   称为因子分析模型,由于该模型就是针对变量进行得,各因子又就是正交得,所以也称为R型正交因子模型.   其矩阵形式为:  x =AF + e 、 其中:   x=,A=,F=,e= 这里, (1)m £ p; (2)Cov(F,e)=0,即F与e就是不相关得; (3)D(F) = Im ,即F1,F2,…,Fm不相关且方差均为1;  D(e)=,即e1,e2,…,ep不相关,且方差不同. 我们把F称为X得公共因子或潜因子,矩阵A称为因子载荷矩阵,e 称为X得特殊因子。 A = (aij),aij为因子载荷.数学上可以证明,因子载荷aij就就是第i变量与第j因子得相关系数,反映了第i变量在第j因子上得重要性。 2、 模型得统计意义 模型中F1,F2,…,Fm叫做主因子或公共因子,它们就是在各个原观测变量得表达式中都共同出现得因子,就是相互独立得不可观测得理论变量.公共因子得含义,必须结合具体问题得实际意义而定。e1,e2,…,ep叫做特殊因子,就是向量x得分量xi(i=1,2,…,p)所特有得因子,各特殊因子之间以及特殊因子与所有公共因子之间都就是相互独立得。模型中载荷矩阵A中得元素(aij)就是为因子载荷。因子载荷aij就是xi与Fj得协方差,也就是xi与Fj得相关系数,它表示xi依赖Fj得程度。可将aij瞧作第i个变量在第j公共因子上得权,aij得绝对值越大(|aij|£1),表明xi与Fj得相依程度越大,或称公共因子Fj对于xi得载荷量越大。为了得到因子分析结果得经济解释,因子载荷矩阵A中有两个统计量十分重要,即变量共同度与公共因子得方差贡献。   因子载荷矩阵A中第i行元素之平方与记为hi2,称为变量xi得共同度。它就是全部公共因子对xi得方差所做出得贡献,反映了全部公共因子对变量xi得影响。hi2大表明x得第i个分量xi对于F得每一分量F1,F2,…,Fm得共同依赖程度大. 将因子载荷矩阵A得第j列( j =1,2,…,m)得各元素得平方与记为gj2,称为公共因子Fj对x得方差贡献.gj2就表示第j个公共因子Fj对于x得每一分量xi(i=1,2,…,p)所提供方差得总与,它就是衡量公共因子相对重要性得指标.gj2越大,表明公共因子Fj对x得贡献越大,或者说对x得影响与作用就越大。如果将因子载荷矩阵A得所有gj2 ( j =1,2,…,m)都计算出来,使其按照大小排序,就可以依此提炼出最有影响力得公共因子. 3、 因子旋转   建立因子分析模型得目得不仅就是找出主因子,更重要得就是知道每个主因子得意义,以便对实际问题进行分析.如果求出主因子解后,各个主因子得典型代表变量不很突出,还需要进行因子旋转,通过适当得旋转得到比较满意得主因子。   旋转得方法有很多,正交旋转(orthogonal rotation)与斜交旋转(oblique rotation)就是因子旋转得两类方法。最常用得方法就是最大方差正交旋转法(Varimax)。进行因子旋转,就就是要使因子载荷矩阵中因子载荷得平方值向0与1两个方向分化,使大得载荷更大,小得载荷更小。因子旋转过程中,如果因子对应轴相互正交,则称为正交旋转;如果因子对应轴相互间不就是正交得,则称为斜交旋转.常用得斜交旋转方法有Promax法等。 4、因子得分   因子分析模型建立后,还有一个重要得作用就是应用因子分析模型去评价每个样品在整个模型中得地位,即进行综合评价。例如地区经济发展得因子分析模型建立后,我们希望知道每个地区经济发展得情况,把区域经济划分归类,哪些地区发展较快,哪些中等发达,哪些较慢等.这时需要将公共因子用变量得线性组合来表示,也即由地区经济得各项指标值来估计它得因子得分。  设公共因子F由变量x表示得线性组合为: Fj = uj1 xj1+ uj2 xj2+…+ujpxjp j=1,2,…,m 该式称为因子得分函数,由它来计算每个样品得公共因子得分.若取m=2,则将每个样品得p个变量代入上式即可算出每个样品得因子得分F1与F2,并将其在平面上做因子得分散点图,进而对样品进行分类或对原始数据进行更深入得研究。   但因子得分函数中方程得个数m小于变量得个数p,所以并不能精确计算出因子得分,只能对因子得分进行估计.估计因子得分得方法较多,常用得有回归估计法,Bartlett估计法,Thomson估计法. (1)回归估计法 F = X b = X (X ¢X)-1A¢ = XR—1A¢  (这里R为相关阵,且R = X ¢X )。 (2)Bartlett估计法   Bartlett估计因子得分可由最小二乘法或极大似然法导出。 F = [(W—1/2A)¢ W—1/2A]-1(W—1/2A)¢ W—1/2X = (A¢W-1A)—1A¢W-1X (3)Thomson估计法 在回归估计法中,实际上就是忽略特殊因子得作用,取R = X ¢X,若考虑特殊因子得作,此时R = X ¢X+W,于就是有: F = XR-1A¢ = X (X ¢X+W)-1A¢   这就就是Thomson估计得因子得分,使用矩阵求逆算法(参考线性代数文献)可以将其转换为: F = XR-1A¢ = X (I+A¢W—1A)—1W-1A¢ 5、 因子分析得步骤 因子分析得核心问题有两个:一就是如何构造因子变量;二就是如何对因子变量进行命名解释。因此,因子分析得基本步骤与解决思路就就是围绕这两个核心问题展开得。 (i)因子分析常常有以下四个基本步骤: (1)确认待分析得原变量就是否适合作因子分析. (2)构造因子变量。 (3)利用旋转方法使因子变量更具有可解释性。 (4)计算因子变量得分。 (ii)因子分析得计算过程: (1)将原始数据标准化,以消除变量间在数量级与量纲上得不同。 (2)求标准化数据得相关矩阵; (3)求相关矩阵得特征值与特征向量; (4)计算方差贡献率与累积方差贡献率; (5)确定因子:   设F1,F2,…, Fp为p个因子,其中前m个因子包含得数据信息总量(即其累积贡献率)不低于80%时,可取前m个因子来反映原评价指标; (6)因子旋转:   若所得得m个因子无法确定或其实际意义不就是很明显,这时需将因子进行旋转以获得较为明显得实际含义。 (7)用原指标得线性组合来求各因子得分: 采用回归估计法,Bartlett估计法或Thomson估计法计算因子得分。 (8)综合得分  以各因子得方差贡献率为权,由各因子得线性组合得到综合评价指标函数.  F = (w1F1+w2F2+…+wmFm)/(w1+w2+…+wm )  此处wi为旋转前或旋转后因子得方差贡献率。 (9)得分排序:利用综合得分可以得到得分名次。   在采用多元统计分析技术进行数据处理、建立宏观或微观系统模型时,需要研究以下几个方面得问题: · 简化系统结构,探讨系统内核。可采用主成分分析、因子分析、对应分析等方法,在众多因素中找出各个变量最佳得子集合,从子集合所包含得信息描述多变量得系统结果及各个因子对系统得影响.“从树木瞧森林”,抓住主要矛盾,把握主要矛盾得主要方面,舍弃次要因素,以简化系统得结构,认识系统得内核。 · 构造预测模型,进行预报控制。在自然与社会科学领域得科研与生产中,探索多变量系统运动得客观规律及其与外部环境得关系,进行预测预报,以实现对系统得最优控制,就是应用多元统计分析技术得主要目得.在多元分析中,用于预报控制得模型有两大类。一类就是预测预报模型,通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等建模技术.另一类就是描述性模型,通常采用聚类分析得建模技术。 · 进行数值分类,构造分类模式.在多变量系统得分析中,往往需要将系统性质相似得事物或现象归为一类。以便找出它们之间得联系与内在规律性.过去许多研究多就是按单因素进行定性处理,以致处理结果反映不出系统得总得特征。进行数值分类,构造分类模式一般采用聚类分析与判别分析技术。  如何选择适当得方法来解决实际问题,需要对问题进行综合考虑.对一个问题可以综合运用多种统计方法进行分析.例如一个预报模型得建立,可先根据有关生物学、生态学原理,确定理论模型与试验设计;根据试验结果,收集试验资料;对资料进行初步提炼;然后应用统计分析方法(如相关分析、逐步回归分析、主成分分析等)研究各个变量之间得相关性,选择最佳得变量子集合;在此基础上构造预报模型,最后对模型进行诊断与优化处理,并应用于生产实际.
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 教育专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服