资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,第六章 统计分析基础知识,第,1,节 数据统计分析概述,第,2,节 描述性统计分析,第,3,节 推断统计,学习目标,了解统计分析中的基本概念,熟悉统计分析中的变量类型,掌握单变量和双变量描述统计的方法,掌握参数估计和假设检验的方法,第,1,节 数据统计分析概述,一、数据统计分析的目的,二、统计分析中的几个基本概念,三、数据统计分析中的变量,一、数据统计分析的目的,简化和描述数据,用样本推断总体,寻找并展示变量间的统计关系,二、统计分析中的基本概念,同质与变异,总体与样本,标志与指标,统计量与样本分布,随机事件与概率,三、统计分析中的变量,1,按间隙划分,离散变量,:当一个变量的任意两个可能取值之间没有其他取值时,该变量是离散的。,连续变量,:当一个变量的任意两个可能取值之间还有其他可能的取值时,该变量是连续的。,按作用划分,自变量,:如果一个变量与其他变量一起用于描述因变量,该变量称为自变量或预测变量。,因变量,:如果一个变量由其他变量来描述,该变量称为因变量或反应变量。,根据测量尺度划分,定类变量,:是一种测量精确度最低、最粗略的基于“质”因素的变量,它的取值只代表观测对象的不同类别。常用来综合定类数据的统计量是频数、比率或百分比等。,定序变量,:其取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量。适合用于综合定序数据取值的集中趋势的统计量是中位数。,三、统计分析中的变量,2,根据测量尺度划分,定距变量,:其取值之间可以比较大小,可以用加减法计算出差异的大小。常用的统计量如均值、标准差、相关系数等。,定比变量,:它与定距变量意义相近,细微差别在于定距变量中的“,0”,值只表示某一取值,不表示“没有”,而定比变量的“,0”,值表示“没有”。,三、统计分析中的变量,3,数据的四种计量尺度及其适用统计方法的比较,尺度,基本性质,举例,适用统计分析方法,描述统计方法,推断统计方法,定类尺度,表明对象或其类别的数字,性别,品牌,商店,比例,众数,卡方检验,二项式检验,定序尺度,表示对象的相对位置,但不能表示差异大小的数字,偏好排序,在市场中的位次,社会层次,比例,众数,中位数,顺序相关系数,,Friedman ANOVA,定距尺度,可以比较对象间的差异,但不存在绝对零点,态度,意见,中位数,全距,均值,标准差,t,检验,,ANOVA,,回归分析,因子分析,定比尺度,存在绝对零点,可以计算对象间的比率,年龄,收入,成本,销售量,市场份额,全距,均值,标准差,几何均值,调和均值,t,检验,,ANOVA,,回归分析,因子分析,变异系数,三、统计分析中的变量,4,一、单变量描述统计,百分数,集中趋势分析,离散趋势分析,频数分布分析,二、双变量描述统计,交叉列联表分析,变量关联的度量,第,2,节 描述性统计分析,一、单变量描述统计,1,百分数,百分数主要用于估计和比较各个相同或相似的子群在总体中所占的比例、估计总体中具有某种特征的个体的数目、估计变化情况或变化速度。,其计算方法为,百分数,百分数一般借助统计分析表来计算,例如:,一、单变量描述统计,2,按家庭收入分类的各公司洗发水品牌的用户数,家庭人均收入,洗发水品牌,低,中,高,合计,公司,A,150,200,50,400,公司,B,80,130,40,250,公司,C,30,90,30,150,其他公司,40,80,80,200,合计,300,500,200,1000,不同收入家庭各公司洗发水品牌的渗透率(,%,),家庭人均收入,洗发水品牌,低,中,高,公司,A,50,40,25,公司,B,27,26,20,公司,C,10,18,15,其他公司,13,16,40,合计,100,100,100,集中趋势分析,众数,:观测数据中出现频率最高的属性值。,例如下表中的众数为,27,岁。,一、单变量描述统计,3,集中趋势分析数据,年,龄,25,26,27,28,29,30,31,人,数,6,7,12,10,6,5,5,累计人数,6,13,25,35,41,46,51,集中趋势分析,中位数,:将观测数据按大小顺序一分为二的变量属性值。若样本总数是奇数,中间的那个便是中位数值;若样本总数是偶数,中位数就是中间的两个数值的平均值。,中位数最适合于描述定序尺度的数据聚中趋势。对于定比和定距变量,中位数有时也能适当地反映其聚中特征。,一、单变量描述统计,4,集中趋势分析,平均数(均值),:定比和定距尺度下平均数是应用最多的反映集中趋势的指标,一般包括算术平均数、调和平均数和几何平均数三种。,算术平均数最简单,也是测定集中趋势最常用的指标,观测值的总和除以观测次数即得出算术平均数。,一、单变量描述统计,5,均值、中位数和众数的比较及适用范围,均值适于定距或定比变量,优点是能充分利用数据的全部信息,比较稳定;缺点是易受极端值影响。,中位数不适于定类变量,适于定序、定距、定比变量,特别是分布不规则的数据。优点是不受极端值的影响;缺点是没有充分利用数据的全部信息,稳定性差于均值,优于众数。,众数不适用于未分组的连续变量,主要适用于定类、定序变量。优点是不受极端值影响,尤其是分布明显呈偏态时,众数的代表性更好;缺点是没有充分利用数据的全部信息,缺乏敏感性和稳定性。,一、单变量描述统计,6,离散趋势分析,方差与标准差:反映的是所有观测值对均值的离散关系,其数值大小与均值代表性的大小呈反向变化关系。,样本方差的计算公式:,标准差为方差的二次方根。,一、单变量描述统计,7,离散趋势分析,级差,:数组中最高值和最低值的差距,它只适用于定比和定距数据。,极差简单直观,但它由两极端偏异值决定,并不能充分反映数据的离散程度。,例如:由,79,,,79,,,79,,,80,,,81,,,81,,,81,构成的数组的级差为,2,,即,81-79=2,。,一、单变量描述统计,8,离散趋势分析,四分位差,:将一组数据从小到大排列后,用,3,个四分位数点将其分为四个相等的部分,第一个四分位数点是第,25,百分位数点,又叫低四分位数点;第二个四分位数点是第,50,百分位数点,即中位数;第三个四分位数点是第,75,百分位数点,又叫高四分位数点。,高四分位数点与低四分位数点之同的距离即为四分位差。,一、单变量描述统计,9,标准差、四分位差和极差的区别,一、单变量描述统计,10,标准差,四分位数差,极差,适用于定距或定比变量,主要用于定序变量,适用于定距或定比变量,最稳定,较标准差的稳定性弱,最不稳定,计算时要用全部数据,只需要其中两段数据,只需两个值,可快速估算,受极端值的影响较大,对极端值不敏感,只对极端值的变化敏感,离散趋势分析,变异系数,:变异系数也称为离散系数,即标准差与均值比值,主要用于不同类别数据离散程度的比较。,变异系数的好处在于:标准差的大小不仅与数据的测度单位有关,也与观测值的均值大小有关,不能直接用标准差比较离散程度,而变异系数消除了测度单位和观测值水平不同的影响,因而可以直接用来比较数据的离散程度。,一、单变量描述统计,11,离散趋势分析,斜度和峰度用于描述调查数据的分布与正态分布之间的差异程度。,斜度表示分布的不对称程度和方向。,峰度表示分布与正态曲线相比的冒尖程度或扁平程度。,一、单变量描述统计,12,频数分布分析,对变量进行频数分布分析,就是计算该变量的各取值被回答的次数及其所占的比例。,频数分布分析不仅要分析所关心数据的集中趋势、离散性和分布形状,还要计算缺失数据、极端值、范围外数据的比例等。,描述频数分布常用的方法是频数表和直方图。,一、单变量描述统计,13,一、单变量描述统计,14,目前没有家用轿车的家庭今后一年内购买的可能性,项目,频数,百分比(),累计百分比(),肯定会买,22,6.8,6.8,可能买,76,23.4,30.2,不会买,42,46.2,76.4,不确定,10,23.6,100,例如:,连续变量制作频数表的一般步骤是:,找出数据的取值范围,即最大值、最小值;,确定组数与组距,一般视分析目的而定,但组数不要太多,通常,5,15,组比较合适,也可以用,Sturges,公式确定组数;,确定组限(上限与下限)与组中值;,计算观测数据落入各组的频数与频率。,一、单变量描述统计,15,二、双变量描述统计,1,交叉列联表分析,交叉列联表分析,是同时描述两个或两个以上变量的联合分布的统计技术。进行交叉列联表分析的变量必须是离散变量,并且只能有有限个取值,否则要进行分组。,频数交叉列联表样表,自变量,低,中,高,总计,因变量,高,21,47,12,80,中,38,41,20,99,低,79,14,28,121,总计,138,102,60,300,交叉列联表分析,由于各行、列样本的总数不同,相互之间无法进行比较,难以判别变量之间的关系,为此,将各要素的频数变成百分数,即将频数除以相应行列的总数。,行百分比与列百分比的选择取决于哪个变量是因变量哪个变量是自变量。一般规则是,在自变量的方向上,对因变量计算百分比。,二、双变量描述统计,2,交叉列联表分析,二、双变量描述统计,3,频数交叉列联表样表,自变量,低,中,高,总计,因变量,高,21,47,12,80,中,38,41,20,99,低,79,14,28,121,总计,138,102,60,300,变量频率关联表,自变量,低,中,高,因变量,高,15.2%,46.1%,20.0%,中,27.5%,40.2%,33.3%,低,57.3%,13.7%,46.7%,总计,100%,100%,100%,(,138,),(,102,),(,60,),二、双变量描述统计,4,变量关联的度量,关联度量指度量变量间关联的强度或密切程度,用相关系数来表示。,定类数据的关联度,这类变量最适合的关联度量指标是 ,度量变量间的相关程度,是基于误差消减比例的思路,即引入另一个变量属性的数据后,某个变量猜测值的误差会减小一定的比例。,二、双变量描述统计,4,变量关联的度量,定序数据的关联度,定序变量关联度常用 来表示,取值在,1,和,-1,之间,其计算公式为,其中 为同序对数目,为异序对数目。,可以分全序和偏序等不同情况进行计算。,变量关联的度量,定距和定比数据的相关分析,测定相关关系的方法是利用积差法来计算相关系数,计算公式如下:,二、双变量描述统计,5,第,3,节 推断统计,推断统计主要是参数估计和假设检验。,参数估计,是在总体分布已知的情况下,用样本统计量估计总体参数的方法。,假设检验,是在总体分布未知,或已知总体分布但不知其参数的情况下,为了推断总体的某些性质,提出有关总体的假设,再根据样本信息对假设进行判断的方法。,一、参数估计,1,点估计,由总体抽取一组样本数为,n,的随机样本,由此寻找样本统计量作为总体参数的估计值。,区间估计,以区间的形式给出总体参数真值的范围,以及总体参数真值的可信度,其本质是用一个数值区间表示未知总体参数落人该区间的概率或可能性有多大的一种统计方法。,定距和定比变量主要是对总体的均值和方差进行估计;对于定类、定距变量,主要是估计总体的比例。,一、参数估计,2,区间估计,区间估计的理论基础是抽样分布,区间估计的核心问题是把样本统计量与总体参数之间的关系转换成抽样分布来处理。,借助抽样分布的平均数、标准差及其正态分布的统计特性就可对样本统计量与总体参数之间的关系做出概率意义上的估计与推断。,一、参数估计,2,区间估计,一般地,在,95,的置信水平条件下,总体平均数的置信区间 ,而在,99,的置信水平条件下,总体平均数的置信区间,置信水平越低,置信区间越小;置信水平越高,置信区间越大。,一、参数估计,2,二、假设检验,1,假设检验是以抽样分布原理为基础,检验调查样本中的统计特性是否在总体中同样存在的一种统计分析方法。,参数假设检验,是在总体分布已知的情况下,先对总体参数提出假设,然后利用样本信息去检验该假设是否成立;,非参数假设检验,是在总体分布未知的情况下,先对总体提出假设,然后根据样本资料对假设的正确性进行判断。,零假设和备择假设,零假设,就是假设在样本中观察到的事实或变量之间的关系在总体中并不存在,样本中出现的这种情形是由于抽样误差造成的。,备择假设,,也称为替换假设或研究假设,它是与零假设相对的假设,就是假设在样本中出现的情况在总体中也同样存在。,二、假设检验,2,二、假设检验,3,【,例如,】,要确定某项特定的广告是否提高了冰箱的一个新品牌的知名度,则,零假设为“,:,在广告前后消费者中知道该品牌的比例没有显著的差异”,备择假设为,“,:,在广告前后消费者中知道该品牌的比例有显著的差异”,双侧检验,或“,:,广告之后消费者中知道该品牌的比例比广告之前有显著的增加”,单侧检验,两类错误,为真时拒绝了 ,这类“弃真”错误称为第,类错误;,不真时接受了 ,这类“取伪”错误称为第,类错误。,在给定样本容量的情况下,一般总是控制犯第,类错误的概率,使它小于等于 。这种只对犯第,类错误的概率加以控制,而不考虑犯第,类错误的检验问题,称为显著性检验问题。,二、假设检验,4,假设检验的两种错误,接受,不接受,为真,正确决策,第,类错误,不真,第,类错误,正确决策,二、假设检验,5,假设检验分析的一般步骤,根据实际问题,提出原假设和备择假设;,确定显著性水平,视具体情况取值,0.1,,,0.05,,,0.01,等;,确定适当的统计量以及拒绝域的形式;,根据样本观察值计算检验统计量的值;,根据显著性水平与统计量的分布,找出接受域与拒绝域的临界点,比较临界点与检验统计量的值,做出决策,二、假设检验,6,常用的假设检验结论,Z,统计量的双侧检验,如果 ,则结果在,10,的水平下是显著的,如果 ,则结果在,5,的水平下是显著的,如果 ,则结果在,1,的水平下是显著的,如果 ,则结果在,0.1,的水平下是显著的,Z,统计量的单侧检验,如果 ,则结果在,10,的水平下是显著的,如果 ,则结果在,10,的水平下是显著的,如果 ,则结果在,10,的水平下是显著的,如果 ,则结果在,10,的水平下是显著的,二、假设检验,6,几种主要的假设检验方法,单样本均值的假设检验,二、假设检验,7,几种主要的假设检验方法,单样本比例的假设检验,二、假设检验,8,几种主要的假设检验方法,两个独立样本均值的假设检验,其中:,在大样本的情况下,二、假设检验,9,几种主要的假设检验方法,两个独立样本比例的假设检验,其中:,大样本的情况下,二、假设检验,10,几种主要的假设检验方法,两个以上独立样本均值的假设检验,二、假设检验,11,几种主要的假设检验方法,变量的独立性卡方检验,二、假设检验,12,“,喝啤酒方式”与“年龄组”的交叉表(观察频数),35,岁以下,35-49,49,岁以上,行合计,在酒吧休闲时喝,69,17,34,120,在饭店吃饭时喝,42,26,49,117,在家看电视时喝,44,42,77,163,列合计,155,85,160,400,二、假设检验,13,卡方的计算过程,观测频数和期望频数(括号内),69,(,47,),17,(,25,),34,(,48,),42,(,45,),26,(,25,),49,(,47,),44,(,63,),42,(,35,),77,(,65,),22,-8,-4,-3,1,2,-19,7,12,484,64,196,9,1,4,361,49,144,10.3,2.56,4.08,0.2,0.04,0.09,5.73,1.4,2.21,
展开阅读全文