ImageVerifierCode 换一换
格式:DOCX , 页数:9 ,大小:19.89KB ,
资源ID:8411202      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/8411202.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(统计分析学习总结 .docx)为本站上传会员【qwe****66】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

统计分析学习总结 .docx

1、 统计分析学习总结 统计分析方法学习总结 s201505158陈丹妮 一、统计的描述 一般采用以下几种图形描述数据: 直方图:表示几个变量的数据,使人们能够看出这些数目的大体分布或“形状”;盒形图:比直方图简单一些的是盒形图(boxplot,又称箱图、箱线图、盒子图); 茎叶图。既展示了数据的分布形状又有原始数据。它象一片带有茎的叶子。茎为较大位数的数字,叶为较小位数的数字; 散点图:描述的数据有两对连续变量;定型变量的图:定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图,但可以描绘出它们各类的比

2、例,如:饼图、条形图。 二、汇总统计量 表示位置的汇总统计量:均值(mean):样本值的算术平均值;中位数(median):中间大小的数(一半样本点小于中位数);(第一或第三)(下、上)四分位数(点)(firstquantile,thirdquantile)(分别有1/4或3/4的数目小于它们);k-百分位数(k-percentile);a分位数(acentile):k-百分位数=k%分位数:有k%的数目小于它;众数(mode):样本中出现最多的数。 表示尺度的汇总统计量:极差(range):极端值之差;四分位间距(四分位极差)(interquantiler

3、ange)四分位数之差;标准差(standarddeviation)方差平方根;方差(variance)各点到均值距离平方的平均。 三、相关的分布 相关的分布包括:离散分布、连续分布、抽样分布:我们能够利用样本统计量中的(描述样本的)信息,比如样本均值和样本标准差中的信息,来对(描述总体的)总体参数(比如总体均值和总体标准差)进行推断(估计、检验等)。 大数定律。阐述大量随机变量的平均结果具有稳定性的一系列定律的总称。其中又分为独立同分布大数定律(提供了用样本平均数估计总体平均数的理论依据)和贝努力大数定律(提供了频率代替概率的理论依据)。 中心

4、极限定理。阐述大量随机变量之和的极限分布是正态分布的一系列定理的总称。独立同分布中心极限定理(不论总体服从何种分布,只要它的数学期望和方差存在,从中抽取容量为n的样本,当n充分大时,则这个样本的总和或平均数是服从正态分布的随机变量)和德莫佛-拉普拉斯中心极限定理(提供了用正态分布近似计算二项分布概率的方法)。均值的假设检验包括对于正态总体均值的检验、对于比例的检验 四、各种分析方法 1.列联表分析 列联表变量中每个都有两个或更多的可能取值,称为水平,比如收入有三个水平,观点有两个水平,性别有两个水平等。列联表的中间各个变量不同水平的交汇处,就是这种水平组合出

5、现的频数或计数(count)。二维的列联表又称为交叉表(crosstable)。列联表可以有 很多维。维数多的叫做高维列联表。注意前面这个列联表的变量都是定性变量;但列联表也会带有定量变量作为协变量。 2.方差分析 方差分析(analysisofvariance,anova)是分析各个自变量对因变量影响的一种方法。这里的自变量就是定性变量的因子及可能出现的称为协变量(covariate)的定量变量。分析结果是由一个方差分析表表示的。原理为:把因变量的值随着自变量的不同取值而得到的变化进行分解,使得每一个自变量都有一份贡献,最后剩下无法用已知的原因解释的则看成

6、随机误差的贡献。然后用各自变量的贡献和随机误差的贡献进行比较(f检验),以判断该自变量的不同水平是否对因变量的变化有显著贡献。输出就是f-值和检验的一些p-值。 3.相关和回归分析 发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系。这种关系一般称为模型(model)。 假如用y表示感兴趣的变量,用x表示其他可能与y有关的变量(x也可能是若干变量组成的向量)。则所需要的是建立一个函数关系y=f(x)。这里y称为因变量或响应变量(dependen

7、tvariable,responsevariable),而x称为自变量,也称为解释变量或协变量(independentvariable,explanatoryvariable,covariate)。建立这种关系的过程就叫做回归(regression)。 一旦建立了回归模型,除了对变量的关系有了进一步的定量理解之外,还可以利用该模型(函数)通过自变量对因变量做预测(prediction)。这里所说的预测,是用已知的自变量的值通过模型对未知的因变量值进行估计;它并不一定涉及时间先后。 4.主成分分析和因子分析 主成分分析从原理上是寻找椭球的所有主轴。原先有几个变

8、量,就有几个主成分。而因子分析是事先确定要找几个成分,这里叫因子(factor)(比如两个),那就找两个。这使得在数学模型上,因子分析和主成分分析有不少区别。而且因子分析的计算也复杂得多。根据因子分析模型的特点,它还多一道工序:因子旋转(factorrotation);这个步骤可以使结果更好。对于计算机,因子分析并不费事。从输出的结果来看,因子分析也有因子载荷(factorloading)的概念,代表了因子和原先变量的相关系数。但是在因子分析公式中的因子载荷位置和主成分分析不同。因子分析也给出了二维图;其解释和主成分分析的载荷图类似。 可以看出,因子分析和主成分分析都依赖于原始变量

9、也只能反映原始变量的信息。所以原始变量的选择很重要。另外,如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降维效果就越好。在得到分析的结果时,并不一定会都得到如我们例子那样清楚的结果。这与问题的性质,选取的原始变量以及数据的质量等都有关系。 5.聚类分析 物以类聚、人以群分;但根据什么分类呢。如要想把中国的县分类,就有多种方法可以按照自然条件来分,比如考虑降水、土地、日照、湿度等,也可考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。对一个数据,既可以对变量(指标

10、进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。当然,不一定事先假定有多少类,完全可以按照数据 本身的规律来分类。对变量的聚类称为r型聚类,而对观测值聚类称为q型聚类。它们在数学上是无区别的。 k-均值聚类(k-meanscluster,也叫快速聚类,quickcluster)却要求先说好要分多少类。然后,根据和这三个点的距离远近,把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来“种子”就没用了),再重新按照距离分类。如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)

11、显然,前面的聚类种子的选择并不必太认真,它们很可能最后还会分到同一类中呢。另一种聚类称为分层聚类或系统聚类(hierarchicalcluster)。开始时,有多少点就是多少类。它第一步先把最近的两类(点)合并成一类,然后再把剩下的最近的两类合并成一类;这样下去,每次都少一类,直到最后只有一大类为止。越是后来合并的类,距离就越远。 6.判别分析 在聚类分析中,人们一般事先并不知道应该分成几类及哪几类,全根据数据确定。在判别分析中,至少有一个已经明确知道类别的“训练样本”,并利用该样本来建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。训练样本中必须包含所有要

12、判别的类型,分类必须清楚,不能有混杂。要选择好可能用于判别的预测变量。这是最重要的。当然,在应用中,选择余地不见得有多大。要注意数据是否有不寻常的点或者模式存在。还要看预测变量中是否有些不适宜的;这可以用单变量方差分析(anova)和相关分析来验证。判别分析是为了正确地分类,但同时也要注意使用尽可能少的预测变量来达到这个目的。使用较少的变量意味着节省资源和易于对结果作解释。在计算中需要看关于各个类的有关变量的均值是否显著不同的。 7.典型相关分析 由于一组变量可以有无数种线性组合(线性组合由相应的系数确定),因此必须找到既有意义又可以确定的线性组合。典型相关分析(can

13、onicalcorrelationanalysis)就是要找到这两组变量线性组合的系数使得这两个由线性组合生成的变量(和其他线性组合相比)之间的相关系数最大。目的:研究多个变量之间的相关性。方法:利用主成分思想,可以把多个变量与多个变量之间的相关化为两个变量之间的相关.即找一组系数(向量)l和m,使新变量u=lx(1)和v=mx(2)有最大可能的相关关系。 8.对应分析 在因子分析中,或者只对变量(列中的变量)进行分析,或者只对样品(观测值或行中的变量)进行分析;而且利用载荷图来描述各个变量之间的接近程度。典型相关分析也只研究列中两组变量之间的关系。然而,在很多情况下,

14、所关心的不仅仅是行或列本身变量之间的关系,而是行变量和列变量的相互关系;对应分析方法被普遍认为是探索性数据分析的内容,处理列联表的问题仅仅是对应分析的一个特例。一般地,对应分析常规地处理连续变量的数据矩阵;这些数据具有如在主成分分析、因子分析、聚类分析等时所处理的数据形式。在对应分析中,根据各行变量的因子载荷和各列变量的因子载荷之间的关系,行因子载荷和列因子载荷之间可以两两配对。如果对每组变量选择前两列因子载荷,则两组变量就可画出两因子载荷的散点图。由于这两个图所表示的载荷可以配对,于是就可以把这两个因子载荷的两个散点图画到同一张图中,并以此来直观地显示各行变量和各列变量之间的关系。由于列联表

15、数据形式和一般的连续变量的数据形式类似,所以也可以用对应分析的数学方法来研究行变量各个水平和列变量各个水平之间的关系。 9.时间序列分析 人们对统计数据往往可以根据其特点从两个方面来切入,以简化分析过程。一个是研究所谓横截面(crosssection)数据,也就是对大体上同时,或者和时间无关的不同对象的观测值组成的数据。另一个称为时间序列(timeseries),也就是由对象在不同时间的观测值形成的数据。时间序列分析也是一种回归。回归分析的目的是建立因变量和自变量之间关系的模型;并且可以用自变量来对因变量进行预测。通常线性回归分析因变量的观测值假定是互相独立并且有同样分

16、布。而时间序列的最大特点是观测值并不独立。时间序列的一个目的是用变量过去的观测值来预测同一变量的未来值。也就是说,时间序列的因变量为变量未来的可能值,而用来预测的自变量中就包含该变量的一系列历史观测值。当然时间序列的自变量也可能包含随着时间度量的独立变量。一个时间序列可能有趋势、季节、循环这三个成分中的某些或全部再加上随机成分。因此,如果要想对一个时间序列本身进行较深入的研究,把序列的这些成分分解出来、或者把它们过虑掉则会有很大的帮助。如果要进行预测,则最好把模型中的与这些成分有关的参数估计出来。 如果我们不仅仅满足于分解现有的时间序列,而且想要对未来进行预测,就需要建立模型。首先,这里介绍比较简单的指数平滑(exponentialsmoothing)。指数平滑只能用于纯粹时间序列的情况,而不能用于含有独立变量时间序列的因果关系的研究。指数平滑的原理为:当利用过去观测值的加权平均来预测未来的观测值时(这个过程称为平滑),离得越近的观测值要给以更多的权。而“指数”意味着:按照已有观测值“老”的程度,其上的权数按指数速度递减。 第9页 共9页

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服