ImageVerifierCode 换一换
格式:PPT , 页数:44 ,大小:1.26MB ,
资源ID:12601343      下载积分:8 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/12601343.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(应用统计学-绪论2015.ppt)为本站上传会员【精***】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

应用统计学-绪论2015.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,教学目的:,信息时代是数据时代。决策已从过去以经验为主转变到科学决策。如何从大量数据中发现尽可能多的有用信息,从而把握事物特征,为科学决策提供依据,这是本课程要解决的问题。,本课程是在学生掌握统计分析的基本知识和技能之后,以进一步深化学生的量化分析能力为宗旨、以多元统计为中心的一门应用性课程。,课程内容:,第一章 绪论,第二章 向量、矩阵与多维正态分布,第三章 方差分析,第四章 回归分析,第五章 聚类分析,第六章 判别分

2、析,第七章 主成分分析,第八章 因子分析,第九章 对应分析,第十章 结构方程模型,教材:,Jams M Lattin,等著,,多元数据分析,(,英文版,),,机械工业出版社,参考书,何晓群,多元统计分析(第三版),,中国人民大学出版社,2012,王学民,应用多元分析,,上海财经大学出版社,理查德,约翰逊,实用多元统计分析,,清华大学出版社,,2008,(英文版),考核方法:,读书报告:,30,分(考试前交),期末考试(开卷):,70,分,一、多元数据分析的必要性,数据分析,从大量数据中发现尽可能多的,有用信息,,从而把握事物特征的过程,事物特征的描述:变量,/,指标,每个变量,/,指标数据:反

3、映事物某一方面的特征,一般来说事物通常具有多面性,即有多方面特征,例:学生的能力、物种、国家经济实力、企业竞争力,仅从一个方面往往不足以反映事物特性或个体之间的差异,必须全面考虑事物的各个方面,才能对其正确认识。,统计学:单变量,/,双变量分析,描述统计,集中趋势,离散趋势,变量分布,异常点,推断统计:从样本统计量推断总体参数,参数估计:样本均值估计总体均值,,假设检验:总体均值或方差的检验,两总体均值,/,方差相等的检验,双变量:,相关分析:两个随机变量间的(线性)相关程度,一元回归:一个随机变量对另一变量间的依存关系,Simpson,s Paradox,Example:44%of male

4、 applicants are admitted by a university,but only 33%of female applicants,Does this mean there is unfair discrimination?,University investigates and breaks down figures for Engineering and English programmes,Male,Female,Accept,35,20,Refuse entry,45,40,Total,80,60,为什么需要多元数据,-,续,两变量分析有时会得到虚假结果,Simpson

5、s Paradox,No relationship between sex and acceptance for either programme,So no evidence of discrimination,Why?,More females apply for the English programme,but it it hard to get into,More males applied to Engineering,which has a higher acceptance rate than English,Must look deeper than single cros

6、s-tab to find this out,Engineering,Male,Female,Accept,30,10,Refuse entry,30,10,Total,60,20,English,Male,Female,Accept,5,10,Refuse entry,15,30,Total,20,40,两变量分析有时会得到虚假结果,Simpson,s Paradox,In this example,the bivariate analysis(cross-tabulation or correlation)gave,misleading results,Introducing anothe

7、r variable gave a better understanding of the data,It even reversed the initial conclusions,性别,录取率,专业,?,二、多元数据分析过程及方法,反映对象行为的、可被观测的所有特征面,精选特征面子集,行为数据,测量模型,模式,多元分析方法,行为,数据,结构,定比数据,筛选变量,/,指标,Some Common Patterns in Point Clouds,planes,filaments,clusters,outliers,Data Analysis:Finding and Interpreting

8、such Patterns,多元数据分析方法概述,多元分析的目的:探索数据的模式(结构),多元数据分析的难点:,维度太多使我们难以发现规律、把握重点,多元分析方法的核心:概要和简化,工具:矩阵代数、统计软件(,SAS,SPSS,Stata,等),具体方法,聚类分析:按距离远近分类,判别分析:,给定样本定类,亲疏判别,主成分分析、因子分析、对应分析:找出主要因素,化简数据,方差分析,多元回归分析,结构方程模型,Grouping,Discriminating,Principle Component,F,actoring,,,Correspondence,Inferring,推断,exploring

9、探索数据模式,Structural Equation Model,课程重点,强调方法的应用而非理论推导,强调方法的内涵与几何解释,强调,SPSS,软件的应用和结果的解释,牢记:,从数据中获取信息没有确定的方法,具体问题具体分析:把握机理,三、多元数据的描述,数据的计量尺度,(measurement scale),:告诉我们从数据中可获得哪些信息。,品质数据:计算无意义,定类尺度:按穷尽和互斥原则将对象某种特征归类,通常用虚拟变量表示:,定序尺度,对象特征等级或顺序差别的测度,三、多元数据的描述,数值数据,定距尺度:测度对象特征的间距,不能做绝对比较。,定比尺度:即可测度间距,又可做绝对比较。

10、数值数据的矩阵表示:,样本数,n,,变量数,p,数据的矩阵描述,注:若无特别说明,向量均指列向量,四、统计基本知识回顾:单变量分析,描述统计,参数估计,假设检验,1.,描述统计,描述数据的集中趋势,均值,中位数,众数,描述数据的离散趋势,极差,方差、标准差,变异系数,异常点,均值的代表性,目的:描述数据分布与正态分布的可能偏离,正态分布具有许多有利于统计的特性,一般独立随机事件的分布都服从正态分布,人的身高,产品质量,偏度:用来度量对称性的指标,峰度:刻画一个分布陡峭或平缓程度的指标,正态,右偏,左偏,正态,比正态更陡,比正态平缓,分布的偏度与峰度,标准化变量,对于任意变量,x,,将观测值转

11、换成相应,Z,值的过程称为将该变量标准化,所得到的变量,Z,称为标准化变量。,相对度量,例:地区供电局数据,基本概念,2,、参数估计,总体,样本,变量,观测值,华北电大的所有学生,华北电大的所有学生中所有抽取的,100,名学生,基本概念(续),参数,统计量,精确度,准确度,偏误,标准差:小,标准误:小,标准差:大,标准误:小,标准误差,standard error,标准差,standard deviation,抽样推断:,从样本统计量推断总体参数,参数估计:在未知总体参数的情况下,利用样本统计量来估计总体参数的方法。,参数点估计,参数区间估计,假设检验:先对总体参数作一个假设,然后通过搜集样本

12、数据,用样本统计量判断对总体参数的假设是否成立,参数估计:总体参数的点估计,假设在总体,X,中,,为未知参数(均值、方差、成数等)。由样本(,x,1,、,x,2,x,n,)构造统计量 来估计未知参数,,称 为,的点估计量。,将某次抽样的样本观测值,代入,即得该估计量的一个点估计值。,方法,矩估计法,极大似然估计法,最小二乘法,设为待估计的总体参数,为样本统计量,则的优良标准为:,点估计量的优良性标准,指样本统计量抽样分布的平均值等于被估计的总体指标,无偏性,设 和 是总体指标,的两个无偏估计量,,有效性,若,则称为比 更有效的估计量,如果随着样本容量,n,的增大,样本估计量在概率意义下越来越接

13、近于总体真实值,则称该估计量是待估参数的一致估计量。,一致性,一致性是对一个估计量的最起码要求。“如果你在,n,趋于无穷大时还不能正确地得到它,那你就不应该做这件事”,葛兰杰,n,1,n,2,n,3,n,1,n,2,n,3,置信度(,1-,),反映了估计的可靠程度。根据样本指标和抽样极限误差可以得到满足一定置信度的总体指标的可能范围,定义,设总体参数为,,,L,、,U,为由样本确定的两个统计量,对于给定的(,01),,有,P(,L,U,)=1-,,则称(,L,U,)为参数的置信度为,1-,的置信区间,参数估计:参数的区间估计,可靠度,精确度,为什么要做区间估计?,任意抽出一个妇女,试猜测其体重

14、猜对赢,50,元,猜错输,50,元,如何猜?输赢概率如何?,例:,20,个妇女的体重资料如表,平均体重:,123.6pound,标准差:,15.5,猜均值上下一个标准差:赢的概率?输的概率,猜均值上下两个标准差:输赢概率?,目的,前提条件,置信度的置信区间,估计总体,均值,正态总体,方差已知,估计总体,均值,正态总体,方差未知,(小样本),估计总体,均值,置信区间估计方法一览表,总体分布知,正态总体方差未知,(大样本),区间估计原理,0.6827,落在范围内的概率为,68.27%,样本抽样分布曲线,原总体分布曲线,置信度,1-,=0.6827,区间估计原理,0.9545,落在范围内的概率为,

15、95.45%,样本抽样分布曲线,原总体分布曲线,置信度,1-,=0.9545,例 某保险公司从投保人中随机抽取,36,人,计算出此,36,人平均年龄为,39.5,岁,已知投保人年龄近似正态分布,标准差,7.2,岁,试以,99%,的可靠度求所有投保人平均年龄的置信区间。如果将可靠度降低到,95%,的水平呢?,解:求所有投保人平均年龄的置信区间。现有一个点估计量,在点估计量基础上,构造投保人平均年龄的置信区间,关键是置信区间的宽度是多少。置信区间宽度取决于置信度和抽样平均误差:,根据置信度查表得到,在,99%,的,置信度下,投保人年龄,总体均值,的,置信区间为:(,39.5-3.1,39.5+3.

16、1,),36.4,42.6,置信度,95%,,,Z,/2,=1.96,=1.96*1.2=2.35,置信区间,(37.2,41.9),3,、假设检验,采用逻辑上的反证法,先认为假设为真,观察在此前提下所抽到样本的出现是否合理。若合理则判断假设可接受,反之拒绝假设。,判断是否合理的依据统计上的小概率原理(即这里的反证法是基于一定概率的反证法)。,假设检验的步骤,提出原假设和备择假设,:,收集样本数据,确定适当的检验统计量及其分布,规定显著性水平,,确定拒绝域和接受域,计算检验统计量的值,作出统计决策,假设的三种形式:,Z,临界点,Z,/2,接受域,-Z,/2,ZZ,/2,Z,临界点,-Z,拒绝域

17、Z-Z,Z,临界点,Z,拒绝域,ZZ,接受域,Z,Z,在原假设为真的前提下,出现观察到的样本以及更极端样本的概率。,P,值(,P-value,),:,拒绝原假设的最小显著性水平。,如果检验的统计量为,t,,,c,是从样本得到的统计量的值。,左侧检验时,,P,值,=pt,c,右侧检验时,,P,值,=pt,c,双侧检验中,,P,值,=,单侧,P,值的,2,倍。,Z,临界点,-t,c,Z,临界点,t,/2,c,精确,p,值,例:某机器制造出的肥皂厚度为,5,公分。今欲了解机器性能是否良好,随机抽取,10,块肥皂为样本,测得平均厚度为,5.3,公分,样本标准差为,0.3,公分。试以,0.05,的显著性水平检验机器性能良好的假设。,建立假设,检验统计量,接受域,:,t,T,0.05/2,=2.26,3.16,T,0.01/2,=3.25,P(3.16)=0.01155,利用,P,值进行决策,若,P,值,不能拒绝,H,0,若,P,值,拒绝,H,0,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服