收藏 分销(赏)

统计学第9章.ppt

上传人:精**** 文档编号:1986416 上传时间:2024-05-13 格式:PPT 页数:58 大小:640KB
下载 相关 举报
统计学第9章.ppt_第1页
第1页 / 共58页
统计学第9章.ppt_第2页
第2页 / 共58页
统计学第9章.ppt_第3页
第3页 / 共58页
统计学第9章.ppt_第4页
第4页 / 共58页
统计学第9章.ppt_第5页
第5页 / 共58页
点击查看更多>>
资源描述

1、第9章列联分析 9.1 分类数据与列联表 9.2 拟合优度检验 9.3 独立性检验 9.4 列联表中的相关测量 9.3 列联分析中应注意的问题数据的类型与列联分析数 据定量数据(数值型数据)定性数据(品质数据)列联分析9.1 分类数据与列联表 9.1.1 分类数据 9.1.2 列联表的构造 9.1.3 列联表的分布9.1.1 分类数据定类和定序数据都是定性数据,或称分类数据.分类数据表现为类别.例如:性别(男,女)各类别也可用符号或数字代码来表示.例如:1.男;2.女 对定类或定序数据的描述和分析通常使用列联表,并采用 检验.9.1.2 列联表(contingencytable)的构造1.由两

2、个或两个以上变量进行交叉分类的频数分布表.2.行变量的类别数用 r 表示,列变量的类别数用 c 表示.3.由行变量和列变量的所有可能组合的频数构成的表格,称为列联表.4.一个 r 行 c 列的列联表称为 rc 列联表.22 列联表 列 行12合计12合计表示 i 行 j 列的观察频数,行合计列合计.而样本容量 列 行12c合计12r合计rc 列联表表示 i 行 j 列的观察频数,行合计列合计.而样本容量部门态度一分公司二分公司三分公司四分公司合计赞成该方案68755779279反对该方案32453331141合计10012090110420表 91关于改革方案的调查结果单位:人例一个集团公司在

3、四个不同的区域设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及到各分公司的利益,故采用抽样调查方法,从四个分公司共抽取 420 名职工,了解职工对此项改革的看法,调查结果见表 91.9.1.3 列联表的分布1、观察值的分布l 边缘分布行边缘分布n行观察值的合计数的分布n例如,赞成改革方案的共有279人,反对改革方案的141人列边缘分布n列观察值的合计数的分布n例如,四个分公司接受调查的人数分别为100人,120人,90人,110人l 条件分布与条件频数变量 X 条件下变量 Y 的分布,或在变量 Y 条件下变量 X 的分布每个具体的观察值称为条件频数观察值的分布(图示)一分公司二分公司三

4、分公司四分公司合计合计赞成该方案赞成该方案6868757557577979279279反对该方案反对该方案3232757533333131141141合计合计1001001201209090110110420420行边缘分布列边缘分布条件频数2.百分比分布 条件频数反映了数据的分布,但不适合对比,为在相同的基数上进行比较,可以计算相应的百分比,称为百分比分布。行百分比:行的每一个观察频数除以相应的行合计数(fij/ri)列百分比:列的每一个观察频数除以相应的列合计数(fij/cj)总百分比:每一个观察值除以观察值的总个数(fij/n)表 92 包含百分比的 24 列联表一分公司二分公司三分公司

5、四分公司合计赞成该方案68755779279行百分数%24.4%26.9%20.4%28.3%66.4%列百分数%68.0%62.5%63.35%71.8%总百分数%16.2%17.8%13.6%18.8%反对该方案32453331141行百分数%22.7%31.9%23.4%22.0%33.6%列百分数%32.0%37.5%36.7%28.2%总百分数%7.6%10.7%7.9%7.4%合计10012090110420%23.8%28.5%21.5%26.2%100%3.期望值的分布 (1)假定行变量和列变量相互独立(2)实际频数 的期望频数的估计是总频数的个数 n 乘以该实际频数 落入第i

6、行和第j列的概率,即计算例根据表91,第一行第一列的实际频数 ,相应的期望频数的估计则为类似可求得各个实际频数的期望频数的估计列于表 94.部门态度一分公司二分公司三分公司四分公司合计赞成该方案实际频数68755779279期望频数(66)(80)(60)(73)反对该方案实际频数32453331141期望频数(34)(40)(30)(37)合计10012090110420实际频数和估计的期望频数分布表表94 如果各个分公司对改革方案的看法相同,观察值和期望值就应当非常接近。9.2 拟合优度检验9.2.1 统计量1.常用于检验列联表中变量之间是否独立的检验,尤其适合于两个定类变量之间是否独立的

7、检验,或多个总体是否有相同的分布.2.统计量为(9.1)3.值愈大则表明实际频数与由 确定的期望频数的差异愈大.表95计算表9.2.2 拟合优度检验(goodnessoffittest)1.检验多个变量之间是否存在显著差异2.检验的步骤(1)例如提出原假设和备择假设不全相等(3)对规定的显著性水平,若则拒绝.否则不能拒绝,即接受 .(2)计算检验的统计量例9.1某集团公司欲进行一项改革,分别从所属的四个分公司中共随机抽取了420名职工,了解他们对改革方案的态度(见表91),并对职工态度是否与所在单位有关这个问题在 的显著性水平上进行检验.解:由(9.1)式得不全相等从而接受,即认为四个分公司对

8、改革方案的赞成比例是一致的.由(9.2)式,得自由度 .取时,查表得由于例9.2为了提高市场占有率,A公司和B公司同时开展了广告宣传.在广告宣传战之前,A公司的市场占有率为0.45,B公司的市场占有率为0.40,其他公司的市场占有率为0.15.为了了解广告战之后A、B和其他公司的市场占有率是否发生变化,随机抽取了200名消费者.其中102人表示准备购买A公司产品,82人表示准备购买B公司产品,另外16人表示准备购买其他公司产品.检验广告战前后各公司的市场占有率是否发生了变化.(0.05)解:当原假设成立时,则原假设中至少有一个不成立由(9.1)式得续从而拒绝,即认为可以认为广告后各公司产品市场

9、占有率发生显著变化.由(9.2)式,得自由度 .取 时,查表得由于用Excel计算 p 值第1步:将观察值输入一列,将期望值输入一列.第2步:选择【插入】菜单.第3步:选择【函数】选项.第4步:先在函数分类中选【统计】,然后在函数名中选【CHITEST】,再点击【确定】.第5步:在对话框【Actualrange】输入观察数据区域,在对话框【Expectedrange】输入期望数据区域,得 p 值为 0.0167114所以拒绝原假设.第一步:依次单击“插入”“函数”依次单击“插入”“函数”第二步:依次单击“统计”“CHITEST”“确定”第三步:先在对话框【Actualrange】输入观察数据区

10、域,然后在对话框【Expectedrange】输入期望数据区域得到p值 0.0167114。拟合优度检验(例题分析)例 某空调系统的区域销售商将该地区划分为四个区域。一个想购买该空调销售权的人被告知这四个区域中的销售情况基本相同。这个期望购买者在该公司的文档记录中随意抽取了40份空调安装记录,结果如表。检验原假设是否成立。(=0.05)解:H0:空调安装数在四个区域中是均匀分布的 H1:原假设中至少有一个不成立 决策:在 =0.05的水平上不能拒绝H0结论:可以认为空调安装数在四个区域中是均匀分布的。拟合优度检验(练习题)从历史数据可知,创维电视的销售量中,有40%是小屏幕电视(小于21寸),

11、40%是中等屏幕的电视(2129),还有20%是大屏幕(超过29寸),为了指定下个月适合的生产计划,从现在的购买者中随机抽取了100人的一个样本,发现购买的电视中有55台是小屏幕的,35台是中等屏幕的,还有10台是大屏幕的。在0.01的显著性水平下,检验销售量的历史模式是否成立。解:H0:在售出的所有电视中,小、中、大屏幕所占的比例分别为40%、40%、20%H1:比例发生变化所以拒绝H0,即比例发生了变化,小增加,大减少了。9.3 独立性检验1.检验列联表中的行变量与列变量之间是否独立2.检验的步骤(1)提出原假设和备择假设:行变量与列变量独立:行变量与列变量不独立(2)计算检验统计量(3)

12、对规定的显著性水平,若则拒绝 .否则不能拒绝,即接受.独立性检验的出发点 如果变量A和变量B相互独立,那么根据概率论中的独立性规则,P(AB)=P(A)P(B),若P(AB)P(A)P(B),便说明它们并不相互独立。在独立性假设条件下分别计算出A和B个类别发生的理论概率,并估计相应的频数,最后把观察值与期望值相比较,做出决策。例9.3一种原料来自三个不同的地区,原料质量划分成三个不同等级.从这批原料中随机抽取500件进行检验,结果如表 99所示.要求检验各个地区和原料之间是否存在依赖关系.表99原料抽样结果 单位:件表 910 33 列联表计算过程解:地区和原料之间独立:地区和原料之间不独立续

13、取 时,查表得由于所以拒绝,接受.即认为地区和原料之间不独立.独立性检验(练习题)检验服装店顾客的性别和年龄是否是独立的。=0.05)解:H0:服装店顾客的性别和年龄是独立的 H1:服装店顾客的性别和年龄是相关变量期望频数分布表所以拒绝H0,服装店顾客的性别和年龄是相关变量拟合优度检验与独立性检验的比较1.抽取样本的方法不同:拟合优度检验通常分别各类别各自抽取一个样本,而独立性检验则只抽取一个样本,并在抽样后再分类.2.原假设不同:拟合优度检验通常检验一组样本数据是否服从某一分布,或多组样本数据是否服从同一分布(或具有相同分布).而独立性检验则是检验行变量与列变量是否独立.9.4 列联表中的相

14、关测量9.4.1 相关系数 9.4.2 列联相关系数 9.4.3 V 相关系数 9.4.4 数值分析品质相关两个变量之间相关程度主要用相关系数表示,列联表中的相关测量,就是利用 值计算相关系数.列联表中的变量通常为定类变量或定序变量,对于定类变量或定序变量之间的相关,称为品质相关.一一.相关系数相关系数1.22 列联表中数据的相关程度 2.系数的绝对值在 01 之间 3.相关系数为(9.6)表911因素因素 X合计Yx1x2y1aba+by2Cdc+d合计a+cb+dn=a+b+c+d2 2 列联表 相关系数的计算相关系数的计算1.期望频数(估计)为 3.相关系数为 2.统计量为(9.7)相关

15、系数的特例相关系数的特例1.当 a d=b c,则2.b 0,c=0 时,或 a0,d=0 列联表中变量的位置可以互换,从而的符号没有实际意义,故取绝对值即可.越大,说明相关程度越高.时,表明变量之间完全相关.9.4.2 列联相关系数1.大于 22 列联表中数据的相关程度2.列联相关系数(9.8)其中3.C 的取值范围为 0C 1.4.C的大小与列联表的行数与列数有关,C 随行数和列数的增大而增大.5.不同行数或列数所得的列联系数不宜作比较.9.4.3 V相关系数1.V相关系数2.V 的取值范围为 0V1,V=0 表明列联表的两个变量独立,V1 则表明两个变量完全相关.3.不同行数或列数所得的

16、相关系数不宜作比较.4.当列联表的行或列数为 2,即 m=min(r,c)=2,则(9.9)其中9.4.4 数值分析例 9.3 一种原料来自三个不同的地区,原料质量被分成三个不同等级.从这批原料中随机抽取 500 件进行检验,结果如下.试分别计算 系数,C 系数和 V 系数,并分析相关程度.解:由于三个系数都较小,表明产地和原料等级之间的相关程度不高.已知 n=500,R3,C=3,已求得 ,得三个相关系数的说明1.同一个列联表,、C 和 V 的值不同.2.对不同列联表中变量之间的相关程度进行比较时,行数和列数应相同,并应采用同一种相关系数.9.5 列联分析中应注意的问题9.5.1 条件百分表

17、的方向 如果变量X与Y存在因果关系,令X为自变量(原因),Y为因变量(结果),那么一般的做法是把自变量X放在列的位置,条件百分表也多按自变量的方向计算,因为这样便于更好地表现原因对结果的影响。但是,有时情况也有例外。如果因变量在样本内的分布不能代表其在总体内的分布,例如,为了满足分析的需要,抽样时扩大了因变量某项内容的样本量,这时还是以自变量的方向计算百分表就会歪曲实际情况。例表 914 职业背景与工作价值观取向 共调查225人,其中制造业145人,服务业80人。在制造业被调查者中,以物质报酬为价值取向的有105人,占该群体的72%,以人情关系为价值取向的有40人,占该群体的28%;而在服务业

18、被调查者中,以物质报酬为价值取向的有45人,占该群体的56%;以人情关系为价值取向的有35人,占该群体的44%。数据见表 914.数据表明,与制造业相比,服务业就业人员更注重人情关系。例社会学家欲研究家庭状况对青少年犯罪的影响,设该地区有未犯罪纪录的青少年10000名,有犯罪记录的青少年150名.如果从未犯罪青少年中抽取 1%,即对100名进行研究,则用相同比例从犯罪青少年中抽取的样本容量仅为1.5人.为满足研究的需要,对犯罪青少年的抽样比扩大到1/2,即抽取75人.调查所获得的数据如表 915.表915家庭状况与青少年犯罪 单位:人表916家庭状况与青少年犯罪百分表 表916为按家庭状况计算

19、的条件百分表。结果表明,在完整家庭接受调查的130人中,犯罪青少年所占的比例是29%,这个比例高达近1/3,这是令人吃惊的。其实,这个比例是歪曲的,这是由于抽样时扩大了对犯罪青少年抽取的数量。表917家庭状况与青少年犯罪百分表 表917为按青少年行为计算的条件百分表,结果表明,在完整家庭中,未犯罪青少年的比例占92%,而在离异家庭中,这个比例仅为8%。完整家庭的青少年未犯罪率远远高于离异家庭的这个比例。家庭状况对青少年行为的影响得到了比较真实的反映。9.5.2 2 分布的期望值准则1.当数据划分为两类时,要求每一类别的期望频数不少于5.表918说明表2.当数据划分为两个以上类别时,期望频数小于 5 的比例不应超过 20%时,否则应把期望频数小于5的类别与相邻的类别合并.表919说明表 根据准则,左表中的数据可以计算,因为6个单元中只有1个单元的期望频数小于5。表 920说明表 左表中的数据不能应用统计量,因为7个单元中有3个单元的期望频数小于5。可以将类别E、F、G合并再检验。

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服