收藏 分销(赏)

应用统计学-绪论2015.ppt

上传人:精*** 文档编号:12601343 上传时间:2025-11-09 格式:PPT 页数:44 大小:1.26MB 下载积分:8 金币
下载 相关 举报
应用统计学-绪论2015.ppt_第1页
第1页 / 共44页
应用统计学-绪论2015.ppt_第2页
第2页 / 共44页


点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,教学目的:,信息时代是数据时代。决策已从过去以经验为主转变到科学决策。如何从大量数据中发现尽可能多的有用信息,从而把握事物特征,为科学决策提供依据,这是本课程要解决的问题。,本课程是在学生掌握统计分析的基本知识和技能之后,以进一步深化学生的量化分析能力为宗旨、以多元统计为中心的一门应用性课程。,课程内容:,第一章 绪论,第二章 向量、矩阵与多维正态分布,第三章 方差分析,第四章 回归分析,第五章 聚类分析,第六章 判别分析,第七章 主成分分析,第八章 因子分析,第九章 对应分析,第十章 结构方程模型,教材:,Jams M Lattin,等著,,多元数据分析,(,英文版,),,机械工业出版社,参考书,何晓群,多元统计分析(第三版),,中国人民大学出版社,2012,王学民,应用多元分析,,上海财经大学出版社,理查德,约翰逊,实用多元统计分析,,清华大学出版社,,2008,(英文版),考核方法:,读书报告:,30,分(考试前交),期末考试(开卷):,70,分,一、多元数据分析的必要性,数据分析,从大量数据中发现尽可能多的,有用信息,,从而把握事物特征的过程,事物特征的描述:变量,/,指标,每个变量,/,指标数据:反映事物某一方面的特征,一般来说事物通常具有多面性,即有多方面特征,例:学生的能力、物种、国家经济实力、企业竞争力,仅从一个方面往往不足以反映事物特性或个体之间的差异,必须全面考虑事物的各个方面,才能对其正确认识。,统计学:单变量,/,双变量分析,描述统计,集中趋势,离散趋势,变量分布,异常点,推断统计:从样本统计量推断总体参数,参数估计:样本均值估计总体均值,,假设检验:总体均值或方差的检验,两总体均值,/,方差相等的检验,双变量:,相关分析:两个随机变量间的(线性)相关程度,一元回归:一个随机变量对另一变量间的依存关系,Simpson,s Paradox,Example:44%of male applicants are admitted by a university,but only 33%of female applicants,Does this mean there is unfair discrimination?,University investigates and breaks down figures for Engineering and English programmes,Male,Female,Accept,35,20,Refuse entry,45,40,Total,80,60,为什么需要多元数据,-,续,两变量分析有时会得到虚假结果,Simpson,s Paradox,No relationship between sex and acceptance for either programme,So no evidence of discrimination,Why?,More females apply for the English programme,but it it hard to get into,More males applied to Engineering,which has a higher acceptance rate than English,Must look deeper than single cross-tab to find this out,Engineering,Male,Female,Accept,30,10,Refuse entry,30,10,Total,60,20,English,Male,Female,Accept,5,10,Refuse entry,15,30,Total,20,40,两变量分析有时会得到虚假结果,Simpson,s Paradox,In this example,the bivariate analysis(cross-tabulation or correlation)gave,misleading results,Introducing another variable gave a better understanding of the data,It even reversed the initial conclusions,性别,录取率,专业,?,二、多元数据分析过程及方法,反映对象行为的、可被观测的所有特征面,精选特征面子集,行为数据,测量模型,模式,多元分析方法,行为,数据,结构,定比数据,筛选变量,/,指标,Some Common Patterns in Point Clouds,planes,filaments,clusters,outliers,Data Analysis:Finding and Interpreting such Patterns,多元数据分析方法概述,多元分析的目的:探索数据的模式(结构),多元数据分析的难点:,维度太多使我们难以发现规律、把握重点,多元分析方法的核心:概要和简化,工具:矩阵代数、统计软件(,SAS,SPSS,Stata,等),具体方法,聚类分析:按距离远近分类,判别分析:,给定样本定类,亲疏判别,主成分分析、因子分析、对应分析:找出主要因素,化简数据,方差分析,多元回归分析,结构方程模型,Grouping,Discriminating,Principle Component,F,actoring,,,Correspondence,Inferring,推断,exploring,探索数据模式,Structural Equation Model,课程重点,强调方法的应用而非理论推导,强调方法的内涵与几何解释,强调,SPSS,软件的应用和结果的解释,牢记:,从数据中获取信息没有确定的方法,具体问题具体分析:把握机理,三、多元数据的描述,数据的计量尺度,(measurement scale),:告诉我们从数据中可获得哪些信息。,品质数据:计算无意义,定类尺度:按穷尽和互斥原则将对象某种特征归类,通常用虚拟变量表示:,定序尺度,对象特征等级或顺序差别的测度,三、多元数据的描述,数值数据,定距尺度:测度对象特征的间距,不能做绝对比较。,定比尺度:即可测度间距,又可做绝对比较。,数值数据的矩阵表示:,样本数,n,,变量数,p,数据的矩阵描述,注:若无特别说明,向量均指列向量,四、统计基本知识回顾:单变量分析,描述统计,参数估计,假设检验,1.,描述统计,描述数据的集中趋势,均值,中位数,众数,描述数据的离散趋势,极差,方差、标准差,变异系数,异常点,均值的代表性,目的:描述数据分布与正态分布的可能偏离,正态分布具有许多有利于统计的特性,一般独立随机事件的分布都服从正态分布,人的身高,产品质量,偏度:用来度量对称性的指标,峰度:刻画一个分布陡峭或平缓程度的指标,正态,右偏,左偏,正态,比正态更陡,比正态平缓,分布的偏度与峰度,标准化变量,对于任意变量,x,,将观测值转换成相应,Z,值的过程称为将该变量标准化,所得到的变量,Z,称为标准化变量。,相对度量,例:地区供电局数据,基本概念,2,、参数估计,总体,样本,变量,观测值,华北电大的所有学生,华北电大的所有学生中所有抽取的,100,名学生,基本概念(续),参数,统计量,精确度,准确度,偏误,标准差:小,标准误:小,标准差:大,标准误:小,标准误差,standard error,标准差,standard deviation,抽样推断:,从样本统计量推断总体参数,参数估计:在未知总体参数的情况下,利用样本统计量来估计总体参数的方法。,参数点估计,参数区间估计,假设检验:先对总体参数作一个假设,然后通过搜集样本数据,用样本统计量判断对总体参数的假设是否成立,参数估计:总体参数的点估计,假设在总体,X,中,,为未知参数(均值、方差、成数等)。由样本(,x,1,、,x,2,x,n,)构造统计量 来估计未知参数,,称 为,的点估计量。,将某次抽样的样本观测值,代入,即得该估计量的一个点估计值。,方法,矩估计法,极大似然估计法,最小二乘法,设为待估计的总体参数,为样本统计量,则的优良标准为:,点估计量的优良性标准,指样本统计量抽样分布的平均值等于被估计的总体指标,无偏性,设 和 是总体指标,的两个无偏估计量,,有效性,若,则称为比 更有效的估计量,如果随着样本容量,n,的增大,样本估计量在概率意义下越来越接近于总体真实值,则称该估计量是待估参数的一致估计量。,一致性,一致性是对一个估计量的最起码要求。“如果你在,n,趋于无穷大时还不能正确地得到它,那你就不应该做这件事”,葛兰杰,n,1,n,2,n,3,n,1,n,2,n,3,置信度(,1-,),反映了估计的可靠程度。根据样本指标和抽样极限误差可以得到满足一定置信度的总体指标的可能范围,定义,设总体参数为,,,L,、,U,为由样本确定的两个统计量,对于给定的(,01),,有,P(,L,U,)=1-,,则称(,L,U,)为参数的置信度为,1-,的置信区间,参数估计:参数的区间估计,可靠度,精确度,为什么要做区间估计?,任意抽出一个妇女,试猜测其体重,猜对赢,50,元,猜错输,50,元,如何猜?输赢概率如何?,例:,20,个妇女的体重资料如表,平均体重:,123.6pound,标准差:,15.5,猜均值上下一个标准差:赢的概率?输的概率,猜均值上下两个标准差:输赢概率?,目的,前提条件,置信度的置信区间,估计总体,均值,正态总体,方差已知,估计总体,均值,正态总体,方差未知,(小样本),估计总体,均值,置信区间估计方法一览表,总体分布知,正态总体方差未知,(大样本),区间估计原理,0.6827,落在范围内的概率为,68.27%,样本抽样分布曲线,原总体分布曲线,置信度,1-,=0.6827,区间估计原理,0.9545,落在范围内的概率为,95.45%,样本抽样分布曲线,原总体分布曲线,置信度,1-,=0.9545,例 某保险公司从投保人中随机抽取,36,人,计算出此,36,人平均年龄为,39.5,岁,已知投保人年龄近似正态分布,标准差,7.2,岁,试以,99%,的可靠度求所有投保人平均年龄的置信区间。如果将可靠度降低到,95%,的水平呢?,解:求所有投保人平均年龄的置信区间。现有一个点估计量,在点估计量基础上,构造投保人平均年龄的置信区间,关键是置信区间的宽度是多少。置信区间宽度取决于置信度和抽样平均误差:,根据置信度查表得到,在,99%,的,置信度下,投保人年龄,总体均值,的,置信区间为:(,39.5-3.1,39.5+3.1,),36.4,42.6,置信度,95%,,,Z,/2,=1.96,=1.96*1.2=2.35,置信区间,(37.2,41.9),3,、假设检验,采用逻辑上的反证法,先认为假设为真,观察在此前提下所抽到样本的出现是否合理。若合理则判断假设可接受,反之拒绝假设。,判断是否合理的依据统计上的小概率原理(即这里的反证法是基于一定概率的反证法)。,假设检验的步骤,提出原假设和备择假设,:,收集样本数据,确定适当的检验统计量及其分布,规定显著性水平,,确定拒绝域和接受域,计算检验统计量的值,作出统计决策,假设的三种形式:,Z,临界点,Z,/2,接受域,-Z,/2,ZZ,/2,Z,临界点,-Z,拒绝域,Z-Z,Z,临界点,Z,拒绝域,ZZ,接受域,Z,Z,在原假设为真的前提下,出现观察到的样本以及更极端样本的概率。,P,值(,P-value,),:,拒绝原假设的最小显著性水平。,如果检验的统计量为,t,,,c,是从样本得到的统计量的值。,左侧检验时,,P,值,=pt,c,右侧检验时,,P,值,=pt,c,双侧检验中,,P,值,=,单侧,P,值的,2,倍。,Z,临界点,-t,c,Z,临界点,t,/2,c,精确,p,值,例:某机器制造出的肥皂厚度为,5,公分。今欲了解机器性能是否良好,随机抽取,10,块肥皂为样本,测得平均厚度为,5.3,公分,样本标准差为,0.3,公分。试以,0.05,的显著性水平检验机器性能良好的假设。,建立假设,检验统计量,接受域,:,t,T,0.05/2,=2.26,3.16,T,0.01/2,=3.25,P(3.16)=0.01155,利用,P,值进行决策,若,P,值,不能拒绝,H,0,若,P,值,拒绝,H,0,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服