1、应用统计学第七章第七章 列联分析列联分析2 目录页CONTENTS PAGE引导案例 美国税收制度公正吗?根据美国一家网站的调查发现,认为美国税收制度不公正的公民的收入、年龄、教育水平并不相同。在2006年4月对1 005人进行的调查中,该网站提出,60%的美国人认为税收制度不公正,而薪资高于5万美元的人群中,有超过60%的人认为税收制度不公正,具体数据如表7-1所示。从上述数据可知,收入低于5万美元的美国人中有55.44%认为美国税收制度不公正,而收入高于5万美元的美国人中有64%认为美国税收制度不公正,那么这两个收入阶层的美国人对美国税收制度的认同比例是否一致?要解决这个问题,可以使用列联
2、分析方法。经 检验发现,这两个收入阶层的美国人对美国税收制度的认同比例显然是不一致的。3 目录页CONTENTS PAGE第一节列联表第三节列联表中的相关测量第二节 统计量与 检验4 目录页CONTENTS PAGE第一节列联表第三节列联表中的相关测量第二节 统计量与 检验5 第七章列联分析第一节 列联表一、列联表的构造列联表是由两个以上的变量进行交叉分类的频数分布表。例如,要分析收入情况和储蓄率的关系,随机调查了500个储户,年收入分为10万以下、1020万、20万以上,储蓄率分为低于10%、10%30%、30%以上,得到列联表7-2。6 第七章列联分析第一节 列联表 观察值的分布(一)表7
3、-2就是一个简单的观察值的分布。表中最右边显示了收入情况变量的总数,如10万以下的有210人,1020万的有185人,20万以上的有105人,我们把每一行的总数称为行边缘频数;表中最下边显示了储蓄率情况变量的总数,如10%以下的有172人,10%30%的有171人,30%以上的有157人,我们把每一列的总数称为列边缘频数。列联表所表现的就是变量Y在变量X条件下的分布,或是变量X在变量Y条件下的分布,因此又把列联表中的观察值分布称为条件分布,每个具体的观察值就是条件频数。例如,收入在10万以下的人中,储蓄率在10%以下的有15人,就是一个条件频数。二、列联表的分布7 第七章列联分析第一节 列联表
4、 百分比的分布(二)条件频数反映了数据的分布,但不适合进行对比。为了能在相同的基数上比较,使列联表中的数据提供更多的信息,可以计算相应的百分比。表7-3就是一个列联表的百分比分布。8 第七章列联分析第一节 列联表 期望值的分布(三)在实际分析中,我们还需要期望值的分布。假定行变量和列变量是独立的,一个观察频数的期望频数 是总频数的个数n乘以该观察频数 落入第i行和第j列的概率,即 (7-1)根据式(7-1)可知,期望频数等于观察频数 对应的行合计数 乘以列合计数 除以总频数n。表7-4是利用Excel计算的储户期望值分布表。9 第七章列联分析第一节 列联表用Excel计算期望值的操作步骤如下:
5、(1)将表7-2中的观察值数据输入Excel,选中B10单元格,输入“=ROUND($E3*B$6/$E$6,0)”,如图7-1所示。(2)选中B10单元格,将鼠标放在右下角,出现“+”时,向右拉至D10处。(3)选中B10、C10和D10单元格,将鼠标移动到D10的右下角,出现“+”时,向下拉至D12处。10 目录页CONTENTS PAGE第一节列联表第三节列联表中的相关测量第二节 统计量与 检验11 第二节 统计量与 检验第七章列联分析一、统计量 统计量可用于变量间的拟合优度和独立性检验,测定两个分类变量之间的相关程度。若用 表示观察值频数,用 表示期望值频数,则 统计量的计算公式为:(
6、7-2)统计量具有以下特征:,因为它是对平方值结果的汇总。值的大小与观察值和期望值的配对数即 的多少有关。越多,在不改变分布的情况下,值越大,因此,统计量的分布与自由度有关。统计量描述了观察值与期望值的接近程度。两者越接近,即 越小,计算出来的 值越小;反之,越大,计算出来的 值越大。12 第二节 统计量与 检验第七章列联分析运用 分布进行假设检验,需要确定 分布的自由度。在 的列联表中,若 ,则自由度为 ;若 ,则自由度为 ;当 且 时,自由度 为 。根据表7-2、表7-4和式(7-2),将 统计量的计算过程列入表7-5。13 第二节 统计量与 检验第七章列联分析二、检验 检验即卡方检验,是
7、指运用 统计量的计算结果与 分布中的临界值进行比较,作出对原假设的统计决策。卡方检验可以用于拟合优度检验和独立性检验。其中,拟合优度检验是对多个总体比例是否等于其期望概率的检验;独立性检验是判断两组或多组资料是否相互关联,如果不相互关联,就称为独立。例如,储户的收入水平和储蓄率是否存在关系,对父母的孝敬程度是否与孩子性别有关等。14 第二节 统计量与 检验第七章列联分析15 目录页CONTENTS PAGE第一节列联表第三节列联表中的相关测量第二节 统计量与 检验16 第三节 列联表中的相关测量第七章列联分析一、相关系数 相关系数是描述 列联表数据相关程度最常用的一种相关系数。对于 列联表,相
8、关系数的值在01之间,其计算公式为:(7-3)表7-6是一个简化的 列联表,a、b、c、d均为观察频数。17 第三节 列联表中的相关测量第七章列联分析由表7-6中的数据,可计算出a、b、c、d对应的期望频数分别为:,统计量为:因此,相关系数为:(7-4)18 第三节 列联表中的相关测量第七章列联分析可见,当 时,表明变量X与Y之间相互独立;若 ,则 ;若 ,则 ;时,表明变量X与Y完全相关,此时 的符号并没有实际意义。越大,表明变量X与Y的相关程度越高。但是,当R C列联表中的行数R或列数C大于2时,相关系数将随着R或C的变大而增大,且 值没有上限。这时就不能用 相关系数测定两个变量的相关程度
9、,而应该采用c相关系数。19 第三节 列联表中的相关测量第七章列联分析二、c相关系数 c相关系数即列联相关系数,又称列联系数,主要用于大于 列联表的情况。c相关系数的计算公式为:(7-5)当列联表中的两个变量相互独立时,但它不可能大于1。c相关系数的大小取决于自由度,也就是说会随着R和C的增大而增大。对不同的行或列计算的c相关系数是不能进行比较的,只有两个列联表的行数和列数一致时,才能比较其c相关系数,因此c相关系数的使用有一定的局限性。但由于其计算简便,且对总体的分布没有任何要求,所以c相关系数仍不失为一种适应性较广的测试值。20 第三节 列联表中的相关测量第七章列联分析三、V相关系数鉴于
10、相关系数对于大于 的列联表无上限,c相关系数小于1的情况,克莱默提出了V相关系数。其计算公式为:(7-6)式中,表示取 中较小的一个。当两个变量相互独立时,;当两个变量完全相关时,。所以,V的取值是在01之间。如果列联表中有一维为2,即 ,则V值等于 值。21 第三节 列联表中的相关测量第七章列联分析22 第三节 列联表中的相关测量第七章列联分析表7-2是一个 的列联表,计算 相关系数是有风险的,因为 值有可能突破1。从计算结果看,收入对储蓄率的影响介于中度和低度之间,因为影响储蓄率的因素可能还有利率、物价水平、投资环境等。由例7-3可见,对于同一个列联表,相关系数、c、V的结果是不同的。同样,对于不同的列联表,由于行数和列数的差异,也会影响系数值。因此,在对不同的列联表变量之间的相关程度进行比较时,不同列联表中行与行、列与列的个数要相同,并且要采用同一种系数,这样的系数值才具有可比性。谢谢观看