1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,统计学基础知识的回顾,统计学是一门关于如何收集、分析、解释和表达数据的科学,。,-Webster,s International Dictionary,统计学是研究,随机现象,规律性的方法学。,什么是统计学?,温故而知新,三类现象,自然界和人类社会活动中,普遍存在三类,现象。,确定性现象,:在相同的条件下出现相同的结果,称为确定性现象或必然现象。如地球的运动。,随机性现象,:在相同的条件下出现不同的结果,但结果是确定的,称为随机性现象。如掷硬币。,模糊性现象,:在相同的条件下出现不确定的结果,称为模糊性现
2、象,。如,美人与丑人。,不同现象与,研究方法,现象,研究方法,确定性现象经典数学,随机性现象概率统计学,模糊性现象模糊数学,牛顿的自由落体运动实验,多次重复实验,测量计录每,次下落的高度与时间数据,:,采用什么方法找规律呢,?,运用了统计学思想,回归分析,直线回归方程,:,y=a+,b,*x,h,1/2 g,t,h,牛顿发现定律方法的探究,时间,t,高度,h,1,4.9,2,39.1,3,88.3,.,h,。,。,。,。,。,。,。,。,。,0 1 2 3 4 t,散,点,图,牛顿的自由落体定律的产生,回归方程的构造,:,回归方程,:y=a+,b,*x,h 0,1/2 g,t,2,h,自由落体
3、定律的探究,影响定律公式的因素,:,灵感,测量误差,模型的选择,肾脏体积的经验公式,肾脏为不规则体,怎样测量,?,立方体体积规律,:,公式,:V=,长,*,宽,*,高,=abc,a,经典应用,2:,肾脏体积的测量,b,c,肾脏体积计算公式,:,经验公式,:V=,/4*,长,*,宽,*,高,公式怎样产生的,?,肾脏体积测量实验,用,20,个肾脏标本,测量计录每,个体积及其长,宽,高的数据,:,采用什么方法找规律呢,?,回归方程的构造,:,y=a+,b,*x,V=,/4,*,长,*,宽,*,高,实验的回顾,编号,体积,V,长,a,宽,b,高,c,1,100,10,5,2.5,2,110,10,6,
4、2.6,3,105,11,5,2.1,.,.,.,影响公式的因素,:,测量误差,模型的选择,历史上很多非统计专业人员,通过对统计学的学习和研究,在专业和统计学取得有很深的造诣。,物理学家,爱因斯坦,学习和研究统计,将统计学思想应用于他的物理学和哲学研究中。,生物学家,达尔文,学习和研究统计,进化论方面的工作在本质而言是属于生物统计学。,护理学的奠基人,Nightingale,学习和研究统计,出版世界上第一部医院统计的专著,医院统计与医院规划,。,不同科学间相互协作的重要性,统计学是,“,对令人困惑费解的问题做出数字设想的艺术。,”,-,美国,David Freedman,统计学是一门处理数据中
5、变异性的,科学和艺术。,-,John M.Last,A Dictionary of Epidemiology,科学与艺术的不同在于不同的人处理相同的问题可能得到不同的结果,现代统计学的基本内容,一、,试验设计,二、,数据管理,三、,统计分析,实验设计,调查研究设计,数据管理,质量控制,统计描述,统计推断,一、试验设计,进行一项科研如同建造一座大厦,其设计、质量控制、分析、验收等都十分重要。如果大厦没有良好的设计和质量控制,就会出现问题,甚至倒塌,负责人会受到国家法律惩治。科研工作若没有良好的设计和质量控制,就会失败,得出错误的结果,对后来的科研产生误导作用。,科研设计如同建筑设计一样举足轻重。
6、1,试验设计的三要素,1),、试验因素,2),、试验对象,3),、试验效应,2,实验设计的三原则,随机,对照,重复,(,均衡,),二、,数据管理,数据管理,质量控制,三、,数据分析,统计描述,统计推断,通过统计描述不仅可以对数据的概貌,分布,变量间的关系等有大致的了解,而且可发现数据中的异常现象。,因此,统计描述在统计分析中占有相当重要的地位。,1,统计描述,率、构成比,统计量,均数、中位数,相关回归系数,统计表,统计图,条图、直方图、线图等,用样本的信息来推断总体的特征叫统计推断。,统计分析的目的是由样本推断总体,故统计学的主体是统计推断,。,2,统计推断,实验设计的模型,1,试验因素,试
7、验效应,(,自变量,)(,因变量,),X,Y,试验对象,F,y=f(x)+e,1,因果关系,:,实验设计的模型,2,A,因素,B,因素,(X1,变量,)(X2,变量,),X1,X2,试验对象,F,X2=f(x1)+e,2,相互关联,:,统计软件的重要作用,“,计算机软件给统计学带来革命性变化,”,发表论文或进行科研课题时,注明统计软件和采用的统计分析方法,.,统计分析工具的选择,:,Eviews r,SAS,SPSS,STATA,实例解析,3,携带火柴和发生肺癌间的关系的研究。,人们观察发现那些携带火柴的人更有可能发生肺癌。难道这表明携带火柴可能引起肺癌?,混杂因素,这中间存在混杂因素,-,吸
8、烟,客观事实,携带火柴不可能引起肺癌。,混杂因素的影响,危险因素、混杂因素和结果的关系,携带火柴,肺癌,吸烟,实例解析,4,喝咖啡与心肌梗塞,MI,关系的研究。,有人观察发现喝咖啡的人,很多人患,MI,,这种现象是表象还是内在因果关系的?,数据来自,2000,年,小儿科邀请一位美国医学及生物统计学教授来院讲学的例子。,研究者调查,MI,及非,MI,病人各,150,例,得到如下数据。,表,1.1,MI NoMI%,Coffee 90 60 60,No coffee 60 90 40,优势比,:,OR=90*90/(60*60)=2.25,Pearson chi2(1)=12.0,,,P=0.00
9、1,。,说明喝咖啡人,MI,发生的危险性是不喝的,2.25,倍。,两组,MI,发生率差异有显著意义。,结论:喝咖啡与心肌梗塞,MI,有关!对否?,研究者怀虑结论,考虑到其中可能混杂其它因素,如吸烟对喝咖啡与心肌梗塞,MI,间关系的影响,进一步分层分析得到。,表,控制吸烟因素的干扰后结果,Smoker Nosmoker,MI NoMI%MI NoMI%,Coffee 80 40 67 10 20 33,Noffee 20 10 67 40 80 33,优势比,OR=1,,,OR=1,P=1.00,,,P=1.00,表明,在吸烟组和不吸烟组中。喝咖啡与不喝咖啡的,MI,发生的相对危险度相同的。,喝
10、咖啡与心肌梗塞,MI,关系,说明当存在混杂因素时,单因素分析结论并不科学。,案例,:,研究生招生与性别的关系研究,案例讨论研究生招生与性别的关系研究,美国加州贝克莱分校,1973,年研究生的录取情况如上表,.,结果显示,男生报考人数据,2691,人,录取,1197,人,录取比例,44.5%,,女生报考人数据,1835,人,录取,556,人,录取比例,30.3%,。,有人认为该校在研究生录取中存在性别歧视。试对此进行讨论与分析。,混杂因素的定义,当某一危险因素和结果的相关性受,第三个变量和危险因素及结果之间关系的影响,这第三个变量称为,混杂因素,。,排除混杂因素的两种方法,1,、分层分析,2,、
11、多元统计分析,分层分析是在其它影响因素保持恒定情况下,评价某一危险因素对结果的影响。,例如,上面我们可以分别在吸烟者和非吸烟者之中,比较喝啡咖与和不喝啡咖的人。这可使我们在不依赖于吸烟的情况下,分析喝啡咖对,MI,的影响。,1,分层分析方法,-,控制混杂因素对结果的影响,分层分析的优缺点,优点:直观简洁。,缺点:当考虑因素较多时分组数量倍增,,需要例数较多,有时无法实现。,生命在于运动。,运动有利于长寿,流水不腐。,这是人类长期经验的总结,但事实果真如此吗?是科学的结论,还是事物的假象呢?,实例解析,5,运动与寿命关系的研究,许多研究表明长期运动人的寿命比久坐型生活方式人的寿命长。,但是,如果
12、运动者寿命长的真正原因是他不吸烟,没有家族病史,好的生活环境等,那么运动将不能改变一个人的寿命。,运动与人的寿命的关系,美国,Aerobics,中心的追踪研究,在,1970,1989,年间,它们追踪观察,25,341,男性和,7084,女性,研究运动和死亡率的关系。男性参加者被追踪观察平均,8.4,年,女性平均,7.5,年。,所有参加者接受了基线检查,这些检查包括体检、实验室检测及踏车试验评价身体适宜运动量。结果如表,1.1,。,表,1.3 Aerobics,中心追踪研究过程中生存与死亡者基线特征(男性组),指标,生存,死亡,(n=24,740)(n=601),年龄(,SD,),42.7(9.
13、7)52.1(11.4)*,体重指数,26.0(3.6)26.3(3.5),收缩压,121.1(13.5)130.4(19.1)*,总胆固醇,213.1(40.6)228.9(45.4),空腹血糖,100.4(16.3)108.1(32.0),运动量(,%,),生存,死亡,低,20.1 41.6,中,42.0 39.1,高,37.9 19.3*,冠心病家族史,25.4,33.8*,吸烟,26.3,36.9*,异常心电图,6.9,26.3*,慢性病,18.4,40.3*,分析发现,存活者和死亡者之间是有明显区别的。特点是存活者较年轻,血压较低,低胆固醇,很少吸烟并且高运动量(基于他们踏车试验时间
14、长短及程度)。,但表,1.1,并没有回答我们的基本问题:,运动是否独立地延长寿命?,它并没有回答这个问题是由于虽然高运动量组很少在研究期间死亡,但他们或者较很少吸烟,或年轻,或有较低的血压。,我们应排除排除混杂因素的影响。,分层分析法,表,1.4 Aerobics,中心追踪研究中全因死亡患者吸烟和体质的分层分析,每万人年,分层相对危险度,死亡数,(,CI,),吸烟,低运动量,48.0 1.63(1.26-2.13)*,中,/,高运动量,29.4 1.0(,参照组,),不吸烟,低运动量,44.0 2.19(1.77-2.70)*,中,/,高运动量,20.1 1.0(,参照组,),可见低运动量组死
15、亡率高于中,/,高运动量组的死亡率,,这一分层分析表明运动的作用不依赖于吸烟状态。,但是,有可能影响运动和长寿之间关系的其它变量是怎样的?,你可以层层分析每一原因,来证明运动对长寿的影响不但不依赖于吸烟状态,也不依赖于年龄、性别、高血脂、高血压等等。,如果分层分析,3,个变量,吸烟状态、年龄、体重(正常,/,异常),,你将需要在,8,个组中分析运动和死亡率的关系。,如果分层分析,6,个变量,吸烟状态、年龄、性别、体重、胆固醇水平、高血压状态(是不是),,你将需要在,64,个组中分析运动和死亡率的关系。,多因素分析法,为判断运动是否独立地与死亡有关,研究者们运用了,COX,比例风险分析,(pro
16、portional hazards analysis),的多元分析方法,结果如表,1.2,。,准许引自:,Blair,S.N.,et al.,”,Influences of cardiorespiratory fitness and other precursors on cardiovascular disease and all-cause mortality in women.,”,JAMA,1996;276:205-10.Copyright 1996,American Medical Association.Additional data provided by authors.,表,
17、1.5 Aerobics,中心追踪研究全死亡率危险因素的多元分析,自变量,死亡率,调整相对危险度,RR,(百万分数),(,95%CI,),运动量,低,38.1 1.52(1.28-1.82)*,中,/,高,25.0 1.0(,参照组,),吸烟状况,吸烟,39.4 1.65(1.39-1.97)*,不吸烟,23.9 1.0(,参照组,),收缩压,140 mmHg 35.6 1.30(1.08-1.58)*,140,mmHg 26.1 1.0(,参照组,),胆固醇,240 mg/dl 35.1 1.34(1.13-1.59)*,240 mg/dl 26.1 1.0(,参照组,),冠心病家族史,有,
18、29.9 1.07(0.90-1.29),无,27.8 1.0(,参照组,),体重指数,27 Kg/m,2,28.8 1.02(0.86-1.22),27 Kg/m,2,28.2 1.0(,参照组,),空腹血糖,120 mg/dl 34.4 1.24(0.98-1.56),120 mg/dl 27.9 1.0(,参照组,),异常心电图,有,44.4 1.64(1.34-2.01)*,无,27.1 1.0(,参照组,),慢性疾病,有,41.2 1.63(1.37-1.95)*,无,25.3 1.0(,参照组,),表明,如果你比较男性中每千人年死亡数,你可以看出在低运动组(,38.1,)比中,/,
19、高运动量组(,25.0,)有较高的死亡数。其相对危险度为,38.1/25.0=1.52,。说明低运动量的人死亡的危险性是高运动人的,1.52,倍。,这显示运动与生存率有关,它并不依赖于吸烟、高血压、高胆固醇及家族史。,运动与人的寿命的关系,多因素分析与分层分析的比较,当你用分层分析每增加一个变量,你将倍增分组的数量。,一方面产生大量的打印结果、需要整本书报告你的结果。,另一方面即使在开始时有很大的样本量,可能在某些分组中样本量还是不足。有时无法分层的。,多因素分析克服了这方面的限制,,它将使你同时评价各种不同因素对结果的不同作用。,但多因素分析需要前提条件,模型对数据的性质要作一些假定,这些假
20、定有时候是很难证实的。,多因素分析与分层分析的比,较,*,混杂因素与干预因素关系,当危险因素和结果的相关性受第三个因素和危险因素及结果之间关系的影响,这第三个变量称为混杂因素。,一个干预因素是出现结果的原因。,Camango,及其同事们在研究中度酒精消费和心脏病危险性关系时校正了年龄、吸烟、运动、糖尿病及心脏病家族史,但是他们没有校正血压、体重指数、高胆固醇血症。为什么不?,这些因素符合混杂因素的定义,它们与危险因素(酒精消费)有关并与结果(心肌梗塞)有因果关系,,问题是酒精消费可加重导致高血压、体重指数增加及高胆固醇血症。因此,如图,1.3,所示。这些变量可能通过其它致病途径导致心肌梗塞,应
21、考虑为干预变量,不应考虑为混杂因素,如果将混杂因素作为干预变量来校正,那么你需要重新考虑你的结果。,统计学不能区别混杂和干预变量,统计学并不能告诉你什么是混杂因素,什么是干预变量。,从统计上讲,混杂因素与干预变量是一回事。,在你的模型中,是因为有混杂因素而引入该变量,还是因为有干预变量而排除该变量呢?这一决定必须根据以前的研究和经济学、管理学上的可解释性作出。,一、多元统计分析的概念,多元统计分析是研究客观事物中,多种指标间相互依赖,相互影响,的统计规律性的一个数理统计学分支。,二、学习多元统计的重要性,多元统计分析能使我们对所研究的问题更全面,更深刻的认识。,帮助我们透过现象看本质,发观事物
22、之间内在的本质规律。,三,、,多元统计分析的特点,优点有两个,:,多元统计分析的资料较容易取得,;,多元统计分析可以从整体上分析结果,。,四、开展多元统计教学的可能性,多元统计分析的数学理论十分复杂,;,多元统计分析的计算量很大,;,教学工作开展不够,.,个人电子计算机的飞速发展,对多元统计学产生重大影响。,常用的统计软件包有,r,、,eviews,、,SPSS,、,SAS,、,STATISTCA,Stata,等,.,五、多元统计分析的前提条件,1.,多元统计对资料的分布有一定的要求,;,2.,需要有足够大的样本,一般认为,,例数,m,是研究因素个数,P,的,10,倍左右。,历史上许多著名科学
23、家做过抛掷硬币的试验,抛掷硬币试验结果如表,试验者,抛掷次数,(n),正面次数,(k),频率,(k/n),De Morgan 2048 1061 0.518,Buffon 4,040 2,048 0.5069,Pearson 12,000 6,019 0.5016,Pearson 24,000 12,012 0.5005,观测例数越少,抽样误差越大,样本的对研究总体的代表性就小。,所以,需要足够多的例数。,定理,:,若当试验次数,n,充分大以后,频率,k/n,稳定地在某一确定值,P,的附近摆动。即,:Lim(,k,/n)=P n ,实际工作中,常用频率求概率的近似值,:,P(A)f(A)=k/
24、n.,频率与概率的关系,六、如何收集和整理多元分析资料,设研究问题中含有,p,个指标变量,x1,x2,xp.,及,n,个观察对象,.,其数据结构为,:,编号,X,1,X,2,X,3,.X,P,1 x,11,x,21,x,31,x,1p,2 x,12,x,22,x,32,x,2p,3 x,13,x,23,x,33,x,3p,n x,1n,x,2n,x,3n,x,np,在我们对某现象进行研究时,常常需要同时观测多个指标。,如,衡量一个地区的经济发展水平时,不仅要考虑国内生产总值水平、而且还要考虑收入、消费、投资、进出口等多个指标;,上述指标,在统计中通常称为变量。,什么是多元统计分析,如何同时对多
25、个变量进行有效的分析和研究?,一种做法是把多个变量分开分析,一次仅分析一个变量,最多也就是研究两个变量之间的关系,这就是我们已经在统计学中学过的一元统计分析;,另一种做法是对这些所要研究的变量同时进行分析研究,即多元统计分析。,什么是多元统计分析,多元统计分析是研究多个变量之间关系以及内在的统计规律的一门统计学科。,利用多元统计分析的方法不仅可以对多个变量之间的相互依赖关系以及内在的统计规律进行分析,而且还可以对研究对象进行分类和简化。,什么是多元统计分析,多元分析起源于本世纪初,1928年,Wishart,发表论文,多元正态总体样本协方差阵的精确分布,,是多元分析的开端。,多元统计分析主要发
26、展于三、四十年代,,Fisher、Hotelling、Roy、,徐宝禄等人做了一系列的多元统计分析的理论探索。,但是由于多元分析的计算复杂,计算量又大,使其发展受到影响。,随着计算机的普遍应用及统计软件的广泛应用,多元统计重新出现活力,现已大量应用于各种领域中。,多元统计的产生,经济学上的应用,:如不同地区的经济发展水平比较,综合的经济效益评价等,医学上的应用,:如研究某种病的起因,研究某种新药或某种医疗方法的治疗效果,利用计算机初步诊断病情等。,体育科学的研究,:如对运动员的心理研究、体能研究等。,另外在生态学、地质学、社会学、考古学、生物学、军事科学等等领域,多元统计都得到了广泛的应用。,
27、多元统计的应用,复旦大学李贤平教授与它的学生对红楼梦进行了多元统计分析。,把红楼梦的120回,作为120个样本,,以虚词做为变量,计算在每一回中(样本)变量(虚词)出现的次数,然后用聚类的方法进行分类。,结论:,120回分为两类,前80回为一类,进一步与曹雪琴著作,相比分析,答案是肯定的。,后40回为一类,进一步分析,证实不是,高鹗一人所写。,多元统计的应用,统计方法和研究目的之间的关系,问题,内容,方法,数据或结构性化简,尽可能简单地表示所研究的现象,但不损失很多有用的信息,并希望这种表示能够很容易的解释。,多元回归分析、聚类分析、主成分分析、因子分析、相应分析、多维标度法、可视化分析,分类
28、和组合,基于所测量到的一些特征,给出好的分组方法,对相似的对象或变量分组。,判别分析、聚类分析、主成分分析、可视化分析,变量之间的相关关系,变量之间是否存在相关关系,相关关系又是怎样体现。,多元回归、典型相关、主成分分析、因子分析、相应分析、多维标度法、可视化分析,预测与决策,通过统计模型或最优准则,对未来进行预见或判断。,多元回归、判别分析、聚类分析、可视化分析,假设的提出及检验,检验由多元总体参数表示的某种统计假设,能够证实某种假设条件的合理性。,多元总体参数估计、假设检验,1,、城镇居民消费水平通常用八项指标来描述,如人均粮食支出、人均副食支出、人均烟酒茶支出、人均衣着商品支出、人均日用
29、品支出、人均燃料支出、人均非商品支出。这八项指标存在一定的线性关系。为了研究城镇居民的消费结构,需要将相关强的指标归并到一起,这实际就是对指标进行聚类分析。,2,、在企业经济效益的评价中,涉及到的指标往往很多,如百元固定资产原值实现产值、百元固定资产原值实现利税、百元资金实现利税、百元工业总产值实现利税、百元销售收入实现利税、每吨标准煤实现工业产值、每千瓦时电力实现工业产值、全员劳动生产率、百元流动资金实现产值。如何将这些具有错综复杂关系的指标综合成几个较少的因子,既有利于对问题进行分析和解释,又能便于抓住主要矛盾做出科学的评价。可用主成分分析和因子分析法。,3,、某一产品是用两种不同原料生产
30、的,试问此两种原料生产的产品寿命有无显著差异?又比如,若考察某商业行业今年和去年的经营状况,这时需要看这两年经营指标的平均水平是否有显著差异以及经营指标之间的波动是否有显著差异。可用多元正态总体均值向量和协差阵的假设检验。,4,、按现行统计报表制度,农村家庭纯收入是指农村常住居民家庭总收入中扣除从事生产和非生产经营用支出、税款和上交承包集体任务金额以后剩余的、可直接用于进行生产的、非生产性建设投资、生产性消费的那一部分收入。如果我们收集某年各个省、自治区、直辖市农民家庭人均纯收入的数据,可以用相应分析,揭示全国农民人均纯收入的特征以及各省、自治区、直辖市与各收入指标的关系。,5,、某医院已有,
31、100,个分别患有胃炎、肝炎、冠心病、糖尿病等的病人资料,记录了他们每个人若干项症状指标数据。如果对于一个新的病人,当也测得这若干项症状指标时,可以利用判别分析方法判定他患的是哪种病。,6,、有,100,种酒,品尝家可以对每两种酒进行品尝对比,给出一种相近程度的得分(越相近得分越高,相差越远得分越低),希望用这些得分数据来了解这,100,种酒之间的结构关系。这样的问题就可以用多维标度法来解决。,7,、在地质学中,常常要研究矿石中所含化学成分之间的关系。设在某矿体中采集了,60,个标本,对每个标本测得,20,个化学成分的含量。我们希望通过对这,20,个化学成分的分析,了解矿体的性质和矿体形成的主
32、要原因。,8,、研究中国七星瓢虫在黄海、渤海的群聚与近期气象条件的关系。对,1000,个类似的鱼类样本,如何根据测量的特征如体重、身长、鳍数、鳍长、头宽等,我们可以利用聚类分析方法将这类鱼分成几个不同品种。,9,、考古学家对挖掘出来的人头盖骨的高、宽等特征来判断是男或女,根据挖掘出的动物牙齿的有关测试指标,判别它是属于哪一类动物牙齿、是哪一个时代的。,10,、在高考招生工作中,我们知道每个考生的基本情况,通过分析我们不仅可以了解到学生喜欢学习的科目,还可以进一步从考生每门课程的成绩,分析出学生的逻辑思维能力、形象思维能力和记忆力等等对学习成绩的影响。,多元统计分析的应用,降维问题,主成分分析,
33、因子分析,归类问题,判别分析,聚类分析,变量间的相互联系,回归分析,典型相关分析,多元数据的统计推断,理论基础,变量的类型,变量的数字特征,均值,方差,协方差,相关,多个变量,随机向量,我们所讨论的是多个变量的总体,所研究的数据是同时观测,p,个指标(即变量),又进行了,n,次观测得到的,常用向量表示:,样品,变量,X,1,X,2,X,P,1,2,n,x,11,x,21,x,n1,x,21,x,22,x,n2,x,P1,x,P2,x,Pn,随机向量的数字特征,在数据处理时,为了克服由于指标的量纲不同对统计分析结果带来的影响,往往在实用某种统计分析方法之前,常需将每个指标“标准化”,即作如下变换
34、即标准化数据的协方差阵正好是原指标的相关阵,随机向量,样本资料矩阵可用矩阵语言表达:,随机向量的数字特征,随机向量,X,的均值:,随机向量的数字特征,随机向量,X,自协方差阵:,随机向量的数字特征,随机向量,X,的相关阵,随机向量的数字特征,随机向量,X,和,Y,的,协方差阵,设,若,cov(X,Y)=0,,称,X,和,Y,是不相关的,和,分别为,n,维和,p,维随机向量,则:,变量的标准化,在数据处理时,为了克服由于指标的量纲不同对统计分析结果带来的影响,往往在实用某种统计分析方法之前,常需将每个指标“标准化”,即作如下变换:,随机向量的数字特征,在数据处理时,为了克服由于指标的量纲不同
35、对统计分析结果带来的影响,往往在实用某种统计分析方法之前,常需将每个指标“标准化”,即作如下变换:,即标准化数据的协方差阵正好是原指标的相关阵,多元数据的几何表示,三变量的散点图,星图,切尔诺夫脸,树状图,神经网络图,多元正态分布,多元分布,的基本概念,随机向量,我们所讨论的是多个变量的总体,所研究的数据是同时观测,p,个指标(即变量),又进行了,n,次观测得到的,常用向量表示:,样品,变量,X,1,X,2,X,P,1,2,n,x,11,x,21,x,n1,x,21,x,22,x,n2,x,P1,x,P2,x,Pn,随机向量,样本资料矩阵可用矩阵语言表达:,分布函数与密度函数,随机变量的分布函
36、数:,随机向量,的,分布,函数,分布函数与密度函数,随机变量的密度函数:,随机向量的密度函数,一元正态分布,均值是:,方差是:,标准差是:,多元正态分布,多元正态分布的密度函数为,均值向量是:,协方差阵是:,多元正态分布,多元正态分布,多元正态分布,定理1,设,X,N(,),,则,E(X)=,,D(X)=,定理2,正态分布的条件分布仍为正态分布,均值向量和协方差阵的估计,在实际问题中,通常可以假定被研究对象是多元正态分布,但分布中的,参数,和,是未知的,一般的做法是通过样本来估计。,设样本资料为:,均值向量和协方差阵的估计,则总体参数,均值,的估计量是:,即均值向量,的估计量,就是样本均值向量
37、均值向量和协方差阵的估计,总体参数,协方差阵,的极大似然估计是,均值向量,和,协方差阵,的检验,均值向量和协方差阵的检验,在一元统计中,对正态总体均值和方差检验时常用的分布有:,Z,分布,,t,分布,,F,分布,,X,2,分布。,那么对于多元正态总体的均值向量和协方差阵的检验也会用到相应的分布:,X,2,分布,Wishart(,维希特)分布,t,分布,Hotelling T,2,分布,F,分布,Wilks,分布,均值向量的检验,多元均值检验,假设:,需要用,T,2,统计量和,T,2,分布来检验。只不过已知协差阵 和未知协差阵 的,T,2,统计量计算方法不同。,均值向量的检验,均值向量的检验又可分为:,一个样本与已知总体均值向量的检验,两总体均值向量的检验,多总体均值向量的检验,以上的检验过程都可由,SPSS,软件中的,Multivariate,来完成。,协方差阵的检验,又分为:,两总体的协差阵相等的检验:,多总体的协差阵相等的检验:,该检验可由,SPSS,软件的,Multivariate,中的,Box,s M,检验来完成。,






