资源描述
,*,北大,数学学院,第二章 多元正态分布及参数的估计,*,北大,数学学院,第二章 多元正态分布及参数的估计,*,北大,数学学院,第二章 多元正态分布及参数的估计,*,北大,数学学院,单击以编辑,母版标题样式,*,北大,数学学院,*,北大,数学学院,单击以编辑,母版标题样式,单击以编辑母版文本样式,第二级,第三级,第四级,第五级,*,北大,数学学院,单击以编辑,母版标题样式,单击以编辑母版文本样式,第二级,第三级,第四级,第五级,*,北大,数学学院,单击以编辑,母版标题样式,单击以编辑母版文本样式,第二级,第三级,第四级,第五级,*,北大,数学学院,单击以编辑,母版标题样式,单击以编辑母版文本样式,第二级,第三级,第四级,第五级,*,1,应用多元统计分析,2,课 程 介 绍,多元统计分析,(简称多元分析)是统计学的一个重要分支.它是应用数理统计学来研究多变量(多指标)问题的理论和方法;它是一元统计学的推广和发展.,多元统计分析是一门具有很强应用性的课程;它在自然科学和社会科学等各个领域中得到广泛的应用;它包括了很多非常有用的数据处理方法.,3,第一章,绪论,第二章,多元正态分布及参数的估计,第三章,多元正态总体参数的假设检验,第四章,回归分析,-,第五章,判别分析,第六章,聚类分析,第七章,主,成,分分析,第八章,因子分析,第九章,对应分析方法,第十章,典型相关分析,第十一章,偏最小二乘回归分析,本课程的内容,多变量分析(数据结构简化),分类方法,两组变量的相关分析,基础理论,两组变量的相依分析,4,教学方式:,授课与实际例题相结合.,本课程的特点与教学方式,本课程的特点,是将常用的多元分析方法的介绍与在计算机上实现这些方法的软件紧密地结合起来,不仅介绍每种多元分析方法 的实际背景、统计思想、统计模型、数学原理和解题的思路,并结合实例介绍应用统计软件,(SAS,系统,),解决问题的步骤和计算结果的分析。,5,第一章 绪 论,1.1 引 言,在实际问题中,很多随机现象涉及到的变量不止一个,而经常是多个变量,而且这些变量间又存在一定的联系。我们常常需要处理多个变量的观测数据。例如考察学生的学习情况时,就需了解学生在几个主要科目的考试成绩,。,下表给出从中学某年级随机抽取的12名学生中5门主要课程期末考试成绩。,6,第一章 绪 论,1.1 引 言,序号 政治 语文 外语 数学 物理,1 99 94 93 100 100,2 99 88 96 99 97,3 100 98 81 96 100,4 93 88 88 99 96,5 100 91 72 96 78,6 90 78 82 75 97,7 75 73 88 97 89,8 93 84 83 68 88,9 87 73 60 76 84,10 95 82 90 62 39,11 76 72 43 67 78,12 85 75 50 34 37,7,第一章 绪 论,1.1 引言-,多元分析的研究 对象和内容,上表提供的数据,如果用一元统计方法,势必要把多门课程分开分析,每次分析处理一门课的成绩。这样处理,由于忽视了课程之间可能存在的相关性,因此,一般说来,丢失信息太多。分析的结果不能客观全面地反映某年级学生的学习情况。,本课程要讨论的多元分析方法,它同时对多门课程成绩进行分析。这样的分析对这些课程之间的相互关系、相互依赖性等都能提供有用的信息。,8,第一章 绪 论,1.1 引言-,多元分析的研究 对象和内容,由于大量实际问题都涉及到多个变量,这些变量又是随机变化,如学生的学习成绩随着被抽取学生的不同成绩也有变化(我们往往需要依据它们来推断全年级的学习情况)。所以要讨论多维随机向量的统计规律性。,多元统计分析就是讨论多维随机向量的理论和统计方法的总称。,多元统计分析,研究,的对象,就是多维随机向量,.,9,第一章 绪 论,1.1 引言-,多元分析的研究 对象和内容,研究的内容既包括一元统计学中某些方法的直接推广,也包括多个随机变量特有的一些问题。,多元统计分析是一类范围很广的理论和方法。,企图用三言两语来下一个严格的定义是困难的.,10,第一章 绪 论,1.1 引言-,多元分析的研究 对象和内容,就以学生成绩为例,我们可以研究很多问题:用各科成绩的总和作为综合指标来比较学生学习成绩的好坏(如成绩好的与成绩差的,又如文科成绩好的与理科成绩好的);研究各科成绩之间的关系(如物理与数学成绩的关系,文科成绩与理科成绩的关系);,等等。所有这些都属于多元统计分析的研究内容。,11,第一章 绪 论,1.1 引言-,多元分析的研究 对象和内容,综上所述,多元分析以,个变量的,n,次观测数据组成的数据矩阵,x,11,x,12,x,1p,x,21,x,22,x,2p,.,x,n,1,x,n,2,x,np,X,=,为依据。根据实际问题的需要,给出种种方法。英国著名统计学家.肯德尔(,M.G.Kendall),在多元分析一书中把多元分析所研究的内容和方法概括为以下几个方面,:,12,第一章 绪 论,1.1 引言-,多元分析的研究 对象和内容,1.简化数据结构(降维问题),例如通过变量变换等方法使相互依赖的变量变成互不相关的;或把高维空间的数据投影到低维空间,使问题得到简化而损失的信息又不太多.主成分分析,因子分析,对应分析等多元统计方法就是这样的一类方法。,.分类与判别(归类问题),对所考查的对象,(,样品点或变量)按相似程度进行分类(或归类)。聚类分析和判别分析等方法是解决这类问题的统计方法,。,13,第一章 绪 论,1.1 引言-,多元分析的研究 对象和内容,3.变量间的相互联系,(1)相互依赖关系:分析一个或几个变量的变化是否依赖于另一些变量的变化?如果是,建立变量间的定量关系式,并用于预测或控制-回归分析.,(2)变量间的相互关系:分析两组变量间的相互关系-典型相关分析等.,(3)两组变量间的相互依赖关系-偏最小二乘回归分析.,14,第一章 绪 论,1.1 引言-,多元分析的研究 对象和内容,5.多元统计分析的理论基础,包括多维随机向量及多维正态随机向量,及由此定义的各种多元统计量,推导它们的分布并研究其性质,研究它们的抽样分布理论。这些不仅是统计估计和假设检验的基础,也是多元统计分析的理论基础。,.多元数据的统计推断,参数估计和假设检验问题.特别是多元正态分布的均值向量和协差阵的估计和假设检验等问题。,15,第一章 绪 论,1.1 引言-,多元分析的发展历史,多元统计分析起源于二十世纪初,1928年,Wishart,发表论文多元正态总体样本协方差阵的精确分布,可以说是多元分析的开端.之后,R.A.Fisher、H.Hotelling、S.N.Roy、,许宝录等人作了一系列奠基的工作,使多元统计分析在理论上得到迅速的发展,在许多领域中也有了实际应用.由于用统计方法解决实际问题时需要的计算量很大,使其发展受到影响,甚至停滞了相当长的时间.,16,第一章 绪 论,1.1 引言-,多元分析的的发展历史,二十世纪50年代中期,随着电子计算机的出现和发展,使得多元统计分析在地质、气象、医学、社会学等方面得到广泛的应用.60年代通过应用和实践又完善和发展了理论,由于新理论、新方法的不断出现又促使它的应用范围更加扩大.多元统计的方法在我国至,70,年代初期才受到各个领域的极大关注,近30多年来我国在多元统计方法的理论研究和应用上也取得了很多显著成绩,有些研究工作已达到国际水平,并已形成一支科技队伍,活跃在各条战线上.,17,第一章,绪 论,1.2,多元统计分析的应用领域,-,教育学,多元统计分析是解决实际问题有效的数据处理方法。随着电子计算机使用的日益普及,多元统计方法已广泛地应用于自然科学,社会科学的各个方面。以下我们列举多元分析的一些应用领域。从中可看到多元分析应用的广度和深度。,1.教育学,n,个考生报考北大概率统计系.每个考生参加7门课(语文、数学、政治、外语、物理、化学、生物)的考试,各门课成绩记为,Y,j1,Y,j2,Y,j7,。,又每个考生在高中学习期间,,m,门主要课程成绩为,X,j1,X,j2,X,jm,(,j,=1,2,n,)。,经对这大量的资料作统计分析,我们能够得出:,18,第一章 绪 论,1.2,多元统计分析的应用领域,-,教育学,(1)高考成绩和高中学习期间成绩的关系,即给出两组变量线性组合间的关系,从而可由考生在高中期间的学习成绩来预报高考的综合成绩或某科目的成绩.,(2)给出考生成绩次序排队的最佳方案(最佳组合).总分可以体现一个考生成绩好坏,但对报考概率统计系的学生,按总分从高到低的顺序录取并不是最合适的.应按适当的权数加权求和.如数学、物理、外语的权数相对高些.,19,第一章 绪 论,1.2,多元统计分析的应用领域,-,教育学,(3)利用,n,个学生在高中学习期间,m,门主科的考试成绩,可对学生进行分类,如按文、理科成绩分类,按总成绩分类等。若准备给优秀学生发奖,那么一等奖、二等奖的比例应该是多少?应用多元统计分析的方法可以给出公平合理地确定。,20,教育学,-,主成分分析在学生学习成绩排序中的应用,我,在担任学生班主任期间,经常会遇到学校下达的评选三好生,评选学习奖等任务,.,另还有评选各种奖学金的工作,;,推荐研究生的工作都要求班主任提出意见,.,如何利用全班学生在校几年中主要课程的学习成绩及各方面的表现更科学,更合理地进行评选,?,应用多元统计分析中的主成分方法可以给出公平合理地确定,.,21,教育学,-,主成分分析在学生学习成绩排序中的应用,比如全班有,40,名学生,本科生四年中主要课程包括基础课,专业基础课,本专业的限选课,设共有,12,门课,.,从教务可以得到全班,40,名学生这,12,门课的成绩,组成的,40,行,12,列的数据阵,X,就是我们的原始数据,.,(1),全班学生综合成绩的排序,评选三好生,评选学习奖,推荐研究生的工作首先都要了解全班学生的学习情况,.,22,教育学,-,主成分分析在学生学习成绩排序中的应用,12,门课的成绩可看成,12,个变量,这是多指标,(,变量,),系统的排序评估问题。,这类问题在实际工作中经常会迂到,比如对某类企业的经济效益进行评估比较,影响企业经济效益的指标有很多,如何更科学、更客观地将一个多指标问题综合为单个综合变量的形式,.,主成分分析方法为样品排序或多指标系统评估提供可行的方法,.,23,教育学,-,主成分分析在学生学习成绩排序中的应用,这里把,12,门课的成绩看成,12,个变量,这些变量是相关的,有的相关性强些,有的相关性一般些。用主成分分析方法从,12,个相关的变量中可以综合得出几个互不相关的主成分它们是原始变量的线性组合。其中第一主成分综合原始变量的信息最多(一般在,70,以上),我们就用第一主成分(即单个综合指标)替代原来的,12,个变量;然后计算第一主成分的得分并进行排序。,24,教育学,-,主成分分析在学生学习成绩排序中的应用,最简单最直观地综合变量就是,12,门课的成绩总和。但这个最简单的综合变量并不是最科学地代表,12,门课综合成绩的指标,而用主成分分析得出的第一主成分(原始变量的线性组合),Z,1,是最科学地代表,12,门课综合成绩的指标。比如,Z,1,是,12,个变量的线性组合,且系数都是正数,数值有大有小。显然数值大的变量对综合指标(主成分)的贡献大;数值小的变量对综合指标(主成分)的贡献小。,25,教育学,-,主成分分析在学生学习成绩排序中的应用,12,个原始变量(课程)提供的信息各为多少?用什么量来表达?最经典的方法是用变量的方差,Var(,X,i,),为多少来表达。,如果某课程全班学生的成绩都差不多,比如都是,80,分左右,则这门课程在学生成绩的排序中不起什么作用。这反映在原始变量的线性组合,Z,1,(第一主成分)上该变量对应的系数会很小(如,0.1025).,如果另一门课程全班学生的成绩相差很大,有的,100,分,有的只有,30,多分,则这门课程在学生成绩的排序中起的作用很大。这反映在原始变量的线性组合,Z,1,(第一主成分)上该变量对应的系数会很大(比如,0.4525).,26,教育学,-,主成分分析在学生学习成绩排序中的应用,接着把每个学生,12,门课程的成绩代入第一主成分,Z,1,中,计算出每个学生第一主成分,Z,1,的得分值,然后按从大到小的次序对全班学生的第一主成分,Z,1,的得分值进行排序。这个次序作为全班学生在大学本科,4,年中综合学习成绩的顺序是更合理更科学的。,推荐研究生时可以根据这个次序来依次推荐;评选综合学习奖时也可以根据这个次序来评选;评选三好生时这个次序也是很有力的依据。,27,教育学,-,主成分分析在学生学习成绩排序中的应用,(2),全班学生加权综合成绩的排序,因,12,门课程(变量)所得的学分不同,学分的多少反映该课程的重要性,在(,1,)中进行排序时没有考虑课程的重要性。,由学分的多少,对变量的重要程度分别赋于不同的权数,.,学分多权数大些,学分少权数小些。即设,X,j,为第,j,个变量(课程)的,40,名学生的成绩(,观测向量),令,28,教育学,-,主成分分析在学生学习成绩排序中的应用,其中,X,j,表示第,j,门,课程的,40,名学生的加权成绩(,观测向量),可取,其中,N,表示,12,门课程的总学分数(如,N,50,),n,j,表示第,j,门课程的学分数(如,n,1,6,),.,某课程若所得的学分多,(,即该课程重要,),因乘上的权数大,则该门课程的加权成绩变大,.,由此得出的新综合指标,(,第一主成分,),Z,1,*,在该变量上的系数也会加大,该变量对第一主成分,Z,1,*,的得分贡献加大,.,29,教育学,-,主成分分析在学生学习成绩排序中的应用,把,12,门课程的成绩代入第一主成分,Z,1,*,中,计算出每个学生第一主成分,Z,1,*,的得分值,然后按从大到小的次序对全班学生的第一主成分,Z,1,*,的得分值进行排序。这个次序可作为全班学生在大学本科,4,年中加权综合学习成绩的顺序。,加权综合学习成绩的顺序与(,1,)中没有加权的综合学习成绩的顺序可能会稍有些差别,.,加权综合学习成绩的顺序也许比没加权得出的顺序还更合理更科学的。,30,教育学,-,主成分分析在学生学习成绩排序中的应用,同样地,推荐研究生时可以根据这个更科学的次序来依次推荐;评选综合学习奖时也可以根据这个更科学的次序来评选;评选三好生时这个更科学的次序也是很有力的依据。,31,第一章 绪 论,1.2,多元统计分析的应用领域,2.医学,3.气象学,(,请参阅教材,应用多元统计分析,P5),32,第一章 绪 论,1.2,多元统计分析的应用领域,-,医学,2.医学,随机抽取300名患有抑郁症的病人,按照测量到的指标,可以将他们分为几种类型-聚类问题.,医生对病人的诊断是靠对病人观测若干症状来综合评定。如一个人发高烧,医生根据他的体温高低、白血球数目及其它症状来判断他是得感冒、肺炎还是其它。再如某人发现腹部有肿瘤,医生根据肿瘤的大小、生长的速度、边界是否清楚,质硬或软等症状来判断肿瘤是良性或恶性-判别问题.,33,第一章 绪 论,1.2,多元统计分析的应用领域,-,医学,为了判断更为准确可靠,事先应有一批经专家确诊或手术后经病理化验确诊的病例资料,根据这批资料利用多元统计方法建立诊断的准则(即专家系统)。对来就诊的病人,按专家系统的要求,观测若干项指标后,根据诊断准则,即可作出诊断。,34,第一章 绪 论,1.2,多元统计分析的应用领域,-,气象学,3.气象学,全国各地建立了很多气象站,在不同时间各气象站都记录了降雨量、气温、气压、湿度、风速、风向等气象指标资料。对这些资料作统计分析,可以得出:,(1)指标间的关系,如降雨与前一天的气温、气压、湿度等的关系,利用该关系可对,降雨的可能性作预报,。,(2)不同地点、气象指标的关系。如某地有气象台站,长期记录各气象指标的资料。今计划在台站附近建一大型化工厂;厂区气象条件是我们关心的,重建台站又不可能。采用的办法是先在厂区临时建个观测站,与台站同时测定气象指标。然后利用这些资料用多元统计分析方法,建立二地气象指标的关系,。以达到今后可由气象台站的气象资料来预报厂区的气象情况。,35,第一章 绪 论,1.2,多元统计分析的应用领域-,环境科学,4.,环境科学,(1),大气环境污染的评估及与职工健康的关系,湖南岳阳化工总厂建厂前没有进行环境评估(因建在文化大革命期间).工厂投产几年后,发现污染严重,如很多职工有明显肝大的症状,到底“肝大,”,是大气污染造成的,还是其它,(,如水污染,),?故决定进行环境评估。,具体工作有:,定时定点测量大气中多种污染气体的浓度,同时测量气象条件;,36,环境科学,大气环境污染的评估及与职工健康的关系,现场试验,如施放大量的海军烟雾弹作为示踪物,了解其扩散情况,记录其轨迹。,调查并统计了大量的职工体检资料;,风洞模拟试验。,现场观测试验共用了二个多月的时间,调用了很多的人力和物力,收集了大量的资料。我们(多元分析组)参加其中的数据处理工作,使用了多元统计分析的多种方法进行数据分析处理。,以下是其中的部分工作:,37,环境科学,大气环境污染的评估及与职工健康的关系,(一),大气污染的地区分类,为了了解某大型化工厂对环境的污染程度,在厂区及邻近地区有代表性的选25个监测点(如厂区,生活区,医院,学校,),每天定时(2点,8点,14点,20点)同时抽取大气样品,测定其中6种污染气体(二氧化硫,硫化氢,碳4,)的浓度,前后4天共16次数据,对每个监测点,计算每种污染气体16次实测值的平均值,得25行6列的数据阵,X,以下由数据阵,X,出发,进行分析处理.,38,环境科学,大气环境污染的评估及与职工健康的关系,用统计分析方法分析处理这些资料.,具体地说,使用了,系统聚类分析,方法,主成分分析,方法,因子分析,方法等等.,不同的统计方法分类的结果不完全一致,经综合汇总后,把25个取样点按污染情况分为5类,如分为极严重污染,很,严重污染,严重污染,一般污染和较轻污染五大类.,39,环境科学,大气环境污染的评估及与职工健康的关系,若使用,对应分析方法,不仅可得出分类结果,还可给出有污染的每一类主要的污染气体(元素).,这些分类结果将为今后监测点的布局提供既合理又经济的方案.,如果在25个监测点以外的其它地方也同时定点测量了6种污染气体的浓度,则由以上的分类结果用,判别归类,的方法还可给出该地区的污染分类.,40,环境科学,大气环境污染的评估及与职工健康的关系,(,二),职工体检资料的统计分析,在23个监测点附近各随机地抽取40人的体验资料,共920人.考查的指标(因变,量)有:,Y1,-78,年肝大数量;,Y2,-78,年的白血球;,Y3,-78,年血收缩压;,Y4,-78,年血舒张压;,Y5,至,Y8,为79年同,Y1,至,Y4,的指标;,Y,-78,年到79年的肝增大数量;,41,环境科学,大气环境污染的评估及与职工健康的关系,影响这些指标的因素(自变量)有:,X1,-,年龄;,X2,-,工龄;,X3,-,性别;,X4,-,所在地区的污染类别.,我们的目的是找出职工肝大与所在地区的污染程度是否关系很显著.,1)用方差分析检验不同类别的污染地区一年之间肝增大量(,Y),是否有显著性差异?这是个单因素的方差分析模型,因变量(指标)为,Y,因素为定性(属性)变量,X4.,42,环境科学,大气环境污染的评估及与职工健康的关系,问题可化为假设检验问题:假设,即假设5类地区职工中肝的平均增大数量相等.用920人的观测数据来检验这个假设是否成立.,分析计算的结果在,0.01的水平上,否定这个假设.这表明五类不同地区的平均肝增大数量有显著性差异.,类似地可以把性别(,X1),作为因素,检验男女职工平均肝增大数量是否有显著差异.结果是没有明显差异.,43,环境科学,大气环境污染的评估及与职工健康的关系,这说明职工肝大主要是由大气污染引起的.与性别(或,年龄,工龄)无关,也不是由有些人所说是由于水质不好引起的.,2,),用回归分析方法建立,Y(,肝增大数量)与,X1,X2,X3,X4,的相关关系式.,因为,X3,和,X4,为定性(属性)变量,建立模型之前先把这两个变量数量化.,X3=0,表示女性,X3=1,表示男性.,44,环境科学,大气环境污染的评估及与职工健康的关系,由以上讨论的大气污染地区的分类结果知该地区的污染情况可分为五类.,引入,极严重,很严重,严重,一般,较轻,45,环境科学,大气环境污染的评估及与职工健康的关系,用逐步回归分析方法计算得:,第1,2,3类是污染严重的地区,在这三类地区内 ,故,Y,=0.4611,说明住在污染严重地区的职工于78年至79年间肝平均增大0.4611(厘米);,46,环境科学,大气环境污染的评估及与职工健康的关系,住在第4类地区()的职工,这一年间肝平均增大数量为,0.4611-0.3486=0.1125;,而住在第5类地区()的职工,在这一年间肝平均增大数量为,0.4611-0.2969=0.1642.,总之,以上分析结果表明,肝大是由大气污染引起的,与年龄,工龄,性别无显著关系.,其它指标的分析结果这里省略了.,47,第一章 绪 论,1.2,多元统计分析的应用领域-,环境科学,4.,环境科学,(2)许多学者研究了洛杉矶地区大气中污染物质的浓度。在较长的一段时间内,每天定时测定与污染有关的几个指标值。用多元统计检验的方法首先判断洛杉矶地区空气污染程度在一周内是固定不变或周末与平时有显著差异。其次对这庞杂的观测数据用一种易解释的方法加以归纳化简。,(3)研究多种污染气体(,CO,CO,2,SO,2,),的浓度与污染源的排放量和气象因子(风向,风速,温度,湿度等)之间的相互关系.,48,第一章 绪 论,1.2,多元统计分析的应用领域,5.地质学,6.考古学,7.服装工业服装的定型分类问题,8.经济学,(1)(4),9.农业,(,请参阅教材,应用多元统计分析,P6-7),49,第一章 绪 论,1.2,多元统计分析的应用领域,-,地质学,5.地质学,随着电子计算机的普及以及地质科学向定量化发展,地质学和数学(主要是多元统计方法)结合起来产生了边缘学科数学地质,多元分析是其主要内容之一。王学仁在地质数据的多变量统计分析一书中介绍了多元分析方法及在地质学中的应用。,应用多元统计方法处理各种地质观测数据,对成矿规律的评价,矿产预测、构造解释推断、勘探工程布署等等都得出了一些定量的依据,获得了一些找矿信息。,50,第一章 绪 论,1.2,多元统计分析的应用领域,-,考古学,6.考古学,(1)考古学家根据一群坟墓中的陪葬品(特别是陶磁和珠宝),利用它们在式样和装饰上的差别,把它们按时间顺序排列起来。,(2)考古学家对挖掘出来的人头盖骨可测得多种数据(如高,宽等),利用头盖骨的数据来判断所属的种族,或判别性别是男或是女。并研究最佳的测量法以及最少的测量数目。,(3)考古学家根据挖掘出的动物牙齿的有关测试指标,判别它是属于哪类动物牙齿,是哪一个时代的。,51,第一章 绪 论,1.2,多元统计分析的应用领域,-,服装工业,7.服装工业服装的定型分类问题,一个服装公司希望生产足够多的成衣以适应大多数顾客的要求,而且使不合身的和卖不出去的服装尽量少。这样不尽可满足社会需要且公司也才可能赚钱。,为此目的,首先在各地做抽样调查,对被调查人测量身体几十个部位的尺寸,然后对庞大的调查资料用多元统计方法分析处理,确定一种服装究竟要有几种型号,每种型号服装的比例是多少,由身体的那几个主要部位的尺寸决定。,52,第一章 绪 论,1.2,多元统计分析的应用领域-,经济学,8.经济学,(1)构造中国国民收入的生产、分配与最终使用的计量经济模型。例如根据我国1952年1981年财政收入与国民收入、工农业总产值、人口、就业人口、固定投资等因素有关,用回归方法,建立预测模型,,用予对今后的财政收入作预测。,(2)在商业经济中,常常需要将很复杂的数据综合成商业指数形式,如物价指数、货币工资比、生活费用指数、商业活动指数等,用主成分分析可以从多个变量中,构造出所需的商业指数。,53,第一章 绪 论,1.2,多元统计分析的应用领域-,经济学,8.经济学,(3)为了研究,不同地区农民收支的分布规律,,抽样调查了全国28个省市自治区的农民生活消费支出情况,如食品、衣着、燃料、住房、生活用品、文化生活等的消费。用聚类分析方法对28个地区分类,根据分类结果还可进一步研究各类地区农民的生活水平、富裕程度、以便进一步研究经济发展对策。,(4)在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来,判定一个国家的经济发展程度所属类型,。,54,第一章 绪 论,1.2,多元统计分析的应用领域,-,农业,9.农业,(1)有个不同地区,每个地区记录多种农作物的收获量,用多元统计方法对各个地区的总生产效率进行比较,并,对不同的农业区域进行分类,。,(2)为了节省能源,对某地农用的手扶拖拉机的能源消耗进行抽样调查。调查的内容为拖拉机在田间,运输、排灌、加工等作业时的燃油耗,在册月数、年平均更变零件数及平均燃油耗。通过对调查资料作统计分析,达到,对拖拉机的平均燃油耗作预测并对拖拉机进行分类,,划分淘汰类、大修类、小修类和继续使用类。,55,第一章 绪 论,1.2,多元统计分析的应用领域-,社会科学,10.,社会科学,青少年犯罪问题是一个很大的社会问题。对待青少年犯罪,我们采取,“,以防为主、防重干治,”,的原则。要预防犯罪,除了加强经常性的教育外,还必然提出,预测犯罪,的问题。,如能对青少年犯罪心理和行为倾向性在犯罪行为发生之前便预测到,争取把它消灭在萌芽状态,才能做到实际预防,。,56,第一章 绪 论,1.2,多元统计分析的应用领域-,社会科学,为此目的,,1981,1982,年中央教育科学研究所等几个单位协作进行了调查研究工作,调查对象为一般中学生及工读学校、少管所、劳教农场、和劳改农场的青少年。,57,社会科学,青少年犯罪的防治与预测,具体地说,使用逐步判别分析方法.利用所,调查的二大方面内容,:,心理因素(如物质追求感,、,隔离感,、,无目的感,、,团伙义气感,),和外部因素,(,如性别、家庭平均收入,、,每月零花钱,、,住宅面积,),共25项指标,.这些指标中有些是属性指标,如,性别,、物质追求感等,用于建立判别式之前,先把它们数量化.,58,社会科学,青少年犯罪的防治与预测,性别,Sex,为0表示女,为1表示男;,若调查表中的物质追求感有三种选择:很强,一般和弱,那么可用二个变量,V1,V2,来表示:,(,V1,V2)=(1,0),表示很强,(,V1,V2)=(0,1),表示一般,(,V1,V2)=(0,0),表示弱.,其它的属性指标类似处理.,59,社会科学,青少年犯罪的防治与预测,把被调查的青少年分为几类(根据所犯罪行),利用调查资料来逐步筛选出区分这几个类的指标,然后用这几个指标建立判别式,并用所得到的判别式对这些青少年进行归类,检验判别式的有效性.,将来就是要应用由这批调查资料所得的判别式对另一些青少年进行归类,及早发现有问题的青少年.,60,社会科学,青少年犯罪的防治与预测,如果只把青少年分为正常和有问题两类,那么判别的效果是很满意的.,如果有问题的这一类又细分为:小偷,打架斗殴,流氓,杀人等类,所建立的判别式的效果就很不理想了,如把打架斗殴被判为小偷,而小偷被判为流氓等等.但是好人,坏人基本上是分清了.,也就是有问题的青少年还是可以预测出来的.,61,第一章 绪 论,1.2,多元统计分析的应用领域-,文学,11.文学,自从二十世纪30年代末英国著名的统计学家,Yule,把统计方法引入到文学词汇的研究以来,这个领域已经取得不少进展,最有名的是,Mosteller,与,Wallace,在60年代初对美国立国三大历史文献之一的联邦主义者文集的研究.,62,第一章 绪 论,1.2,多元统计分析的应用领域-,文学,在1985,1986年我国复旦大学统计运筹系的李贤平教授对我国的名著红楼梦的著作权进行研究.使用的统计方法主要是多元分析.,先选定数十个与情节无关的虚词(如:了,吗,嘛,喱,呢,么,等)作为变量,把红楼梦一书,中的120回作为120个样品,统计每一回(即样品)选定的这些虚词(即变量)出现的频数.由此得到的,1,20,行,m,列的,数据阵作为分析的依据,.,63,第一章 绪 论,1.2,多元统计分析的应用领域-,文学,在红楼梦的著作权的研究中使用较多的方法是聚类分析,主成分分析,典型相关分析等方法,由输出的大量图形可以看出:,(1)前80回和后40回截然地分为两类;,(2)第67回落入后40回的这一类中;,(3)前80回广泛散布,并有若于规律;,(4)后40回依回目的先后可分为几类.,64,第一章 绪 论,1.2,多元统计分析的应用领域-,文学,由以上分析结果可以证实:,(1)前80回和后40回不是出于同一个人的手笔;,(2)前80回是否为曹雪芹所写?通过用曹雪芹的另一著作,做类似的分析,结果证实了用词手法完全相同,断定为曹雪芹一人手笔;,(3)而后40回是否为高鹗写的?结论推翻了后40回是高鹗一人所写.后40回的成书比较复杂,既有残稿也有外人笔墨,不是高鹗一人所续.,65,第一章 绪 论,1.2,多元统计分析的应用领域-,文学,以上这些论证在红学界引起轰动.他们用多元统计分析方法提出了关于,红楼梦作者和成书过程的新学说.,李贤平教授他们又把这类方法用于其他作家和作品,结果证明统计方法的分辩能力是很强的.,66,第一章 绪 论,1.2,多元统计分析的应用领域-,文学,从有关资料中我还看到,:1980,年美国华人教授陈先生也用类似的统计方法研究了红楼梦的作者,.,当时把,前80回和后40回分开成为二部分,又另取英雄儿女一书,.,考虑的用词有名词,形容词和虚词等,.,计算这三部分的相关系数,得出前80回和后40回的相关系数为,0.7,以上,而与英雄儿女的相关系数只有,0.3.,从而得出结论认为前80回和后40回的作者为同一人,.,67,第一章 绪 论,1.2,多元统计分析的应用领域,-,其他,12.其他,体育科研 军事科学,生物学 心理学,生态学 保险科学,火警预报,地震预报,中医阴阳学说研究,林业科学,.,68,第一章 绪 论,1.3,多元统计数据的图表示法,图形有助于对所研究的数据的直观了解,一维或二维数据的图形容易得到,三维图形虽也可以画出,但并不方便.三维以上图形如何表示,?,许多统计学家给出了多维数据的图示方法,但这方面的研究还处于不成熟状态,目前尚未有公认的方法.下面介绍几种国际上近几十年来出现的方法,其中有一些依赖人工容易实现,但是有一些要是没有计算机的帮助,恐怕较难实现.,设变量个数为,p,,,观测次数为,n,,,第,k,次观测值记为,X,(k),=(,x,k,1,x,k,2,x,kp,),(,k,=1,2,n,),69,第一章 绪 论,1.3,多元统计数据的图表示法-轮廓图,轮廓图的作图步骤为:,(1)作直角坐标系,横坐标取,个点表示,个变量.,(2)对给定的一次观测值,在,个点上的纵坐标(即高度)和它对应的变量取值成正比.,(3)连接,个高度的顶点得一折线.则一次观测值的轮廓为一条多角折线形.,n,次观测值可画出,n,条折线,构成轮廓图.,70,第一章 绪 论,1.3,多元统计数据的图表示法-轮廓图,表1.1中12个学生学习成绩的轮廓图如下:,政治,语文,外语,数学,物理,100,71,第一章 绪 论,1.3,多元统计数据的图表示法-轮廓图,由轮廓图可直观看出,哪几个学生成绩相似,哪些属优秀、哪些中等、哪些较差,对几门课程可直观地看成绩的好坏,分散情况等等.这种图形在聚类分析中颇有帮助.,72,第一章 绪 论,1.3,多元统计数据的图表示法-雷达图,雷达图的作图步骤是:,(1)作一圆,并把圆周分为,等分.,(2)连接圆心和各分点,把这,条半径依次定义为各变量的坐标轴,并标以适当的刻度.,(3)对给定的一次观测值,把,个变量值分别点在相应的坐标轴上,然后连接成一个,边形.,n,次观测值可画出,n,个,边形.,73,第一章 绪 论,1.3,多元统计数据的图表示法-雷达图,政治,语文,外语,数学,物理,12,1,74,第一章 绪 论,1.3,多元统计数据的图表示法-雷达图,这种图形既象雷达荧光屏上看到的图象,也象个蜘蛛网.因此有人称为雷达图,也有人称为 蜘蛛图.以上图形中画出表1.1中第一个和第十二个学生的成绩.,各科都达到100分的学生对应着一个面积最大的正五边形.第一个学生的图形接近正五边形,因此是个学习成绩优秀的学生.,另方面,学习成绩差的学生,其图形面积也小,第十二个学生就是如此,而且其图形明显偏右上方,这意味着数学,物理和外语成绩极差,而语文,政治还算过得去.,75,第一章 绪 论,1.3,多元统计数据的图表示法-调和曲线图,从数学上看,较为完美的多维数据图表示方法可能是,D.F.,Andcews,在1972年提出的三角多项式表示法.其思想是把多维空间中的一个点对应于二维平面上的一条曲线,.,设,p,维数据,X(,x,1,x,2,x,p,),,,则对应的曲线是,76,第一章 绪 论,1.3,多元统计数据的图表示法-调和曲线图,表1.1学生成绩数据中,第一个学生对应的曲线为,第十二个学生对应的曲线为,77,第一章 绪 论,1.3,多元统计数据的图表示法-调和曲线图,f,2,f,1,f,11,f,12,78,第一章 绪 论,1.3,多元统计数据的图表示法-调和曲线图,n,次观测对应,n,条曲线,画在同一平面上就是一张调和曲线图.在多项式的图表示中,当各变量的数值太悬殊时,最好先标准化后再作图,.,作调和曲线图时一般要借助计算机作图,这种图对聚类分析帮助很大,如果选择聚类统计量为距离的话,同类的曲线拧在一起,不同类的曲线拧成不同的束,非常直观.,79,第一章 绪 论,1.3,多元统计数据的图表示法-,散布图矩阵,当,p,=2,时,常把,n,次2维观测数据点在平面上生成一张散点图,由散点图可直观地看出变量,X,与,Y,间的相关关系及相关的程度.,当,p,2,时,我们也想借助散点图来直观给出变量之间,观测点之间的关系,可以对,p,个变量,两两配对,生成一张散点图矩阵,通过这张图,不仅可以了解到每两个变量间的相关情况,在,SAS,系统中,还可通过,“,刷亮,”,方法来找出异常点,.,80,第一章 绪 论,1.3,多元统计数据的图表示法-,散布图矩阵,81,第一章 绪 论,1.3,多元统计数据的图表示法-其它,在多元数据的图表示法中,还有,星座图,、,脸谱图,、,装饰图,等表示法.最为浪漫的可能是脸谱图.它把多元数据表示成一张脸谱图.脸的轮廓由上下两个椭圆构成.这些椭圆的长短轴及离心率等均由多元数据中某些变量来刻画.另一些变量决定鼻子长度,嘴的位置及圆弧的长度与向上还是向下,眼晴的大小,眼珠的位置,眉毛的角度等.如果变量很多,脸谱可以刻划得细致些,变量不多,则把一部分器官形态固定,只让另一部分器官变化.在实际应用中,脸谱图也有发展,如在脸谱上加眼泪以表示 很坏情况的出现;还可以在脸谱基础上加上体型,用一些变量来决定体型的胖瘦,高矮等。,82,第一章 绪 论,1.3,多元统计数据的图表示法-其它,最后我们指出,多元数据的图表示法的难点在于变量过多.如果有一种方法可以把高维数据投影到二维空间(平面)中去.并且在投影过程中不会过多地损失原有数据信息的话,就可以使用通常方法在平面上画出这些本来是高维数据的图形来.后面将介绍的主成分分析等方法就是一些降维的方法,。,83,第一章 绪 论,1.3,多元统计数据的图表示法-其它,(1)参见,实用多元统计分析,(方开泰),第八章,(2)参见,多元统计分析,(于秀林),第四章,应用多元统计分析,第二章,多元正态分布及,参数的估计,84,85,在多元统计分析中,多元正态分布占有相当重要的地位.这是因
展开阅读全文