资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,高维列联表,高维列联表的数据结构,三维rct列联表的数据结构:,假设n个个体按照三个属性分类,其中属性A有r类,属性B有c类,属性C有t类;,n个个体中属于A,i,、B,j,、C,k,类的有n,ijk,个,联合概率为p,ijk,高维列联表的结构,【例】为了解不同年龄的男性,吸烟与呼吸系统疾病之间的关系,调查数据见下表:,上表为三维222列联表。其中,,“,年龄,”,为层属性,,“,呼吸情况,”,为行属性,,“,吸烟情况,”,为列属性。,在每一层,都是一个二维列联表。,高维列联表的压缩,通过把不同年龄的数据合并,可以将三维列联表压缩成二维列联表。,也可以合并,“,呼吸情况,”,的数据,得到,“,年龄与吸烟情况,”,的二维表;,或合并,“,吸烟情况,”,的数据,得到,“,年龄与呼吸情况,”,的二维表。,高维列联表的压缩,一般地,列联表压缩后的数据结构为:,经过合并压缩后得到的二维表,称为边缘表。,边缘表实际上是,“,忽略,”,某个属性后得到的列联表。,B,1,B,c,合计,A,1,A,r,合计,条件相合性检验的原假设、备择假设分别为:,第k个二维rc列联表的检验统计量应为:,因此,经过检验,不能说该校有偏爱男生的倾向。,任意格上的期望频数应为:,基于辛普森悖论的存在,压缩与分层经常结合起来使用。,上表为三维222列联表。,对不完备列联表独立性的定义与完备列联表的情形类似,不同的仅仅是定义在非空格上;,这一检验方法称为Breslow-Day2检验.,2】某研究生院某年有1659名男生和1413名女生申请报考,其中有733名男生和428名女生被录取。,接下来可以按照压缩和分层方法进行分析。,在三维列联表中,前面所有的独立性问题讨论完后,可以进一步分析三个变量之间的相关关系。,这就要分析偏差产生的原因。,经过合并压缩后得到的二维表,称为边缘表。,根据边缘表计算的优势比,称为边缘优势比;,其期望频数及统计量见表:,三维rct列联表的数据结构:,部分表中的关联性称为条件关联性,即某个属性给定(被控制)时,另外两个属性之间的关系。,高维列联表的分层,与压缩相反,可以把三维表中的每一层的二维表分离出来加以研究,这时称为部分表。,上述三维222列联表,可以通过按年龄分层,分离出两张二维列联表,即两个部分表。,部分表中的关联性称为条件关联性,即某个属性给定(被控制)时,另外两个属性之间的关系。,部分表的条件关联性可能和边缘表中的关联性有较大差异,甚至是自相矛盾(辛普森悖论)。,正是边缘表与部分表分析的条件发生变化,所以把压缩与分层结合起来分析是完全必要的。,部分表与边缘表,从分层后的两张二维表(部分表)中,根据各自的卡方值可以看出,,在年龄,40的部分表中,吸烟情况与呼吸情况是相互独立的;,而在另一个部分表即年龄4059,的二维表中,二者则是相关联的(或不独立)。,从按年龄合并、压缩后的二维表(边缘表)来看,吸烟情况与呼吸情况之间是相关联的。,可见,部分表与边缘表关联性不一致,有时甚至会明显矛盾,完全相反。,部分表与边缘表,从四格表可知,优势比可以用来度量属性之间的关联性;,根据部分表计算的优势比,称为条件优势比;,根据边缘表计算的优势比,称为边缘优势比;,与前面所述的部分表与边缘表的关系相一致,条件优势比与边缘优势比是不同的,有时二者会给出完全相反的结论;,当部分表中两个属性变量条件独立时,所有的条件优势比都等于1;但根据边缘表计算的边缘优势比可能并不等于1,即条件独立不代表边缘独立。,高维列联表的分层,分层与压缩相类似地,都可以按照不同的属性压缩或者分层。,一般地,按属性A分层,可以分成r个二维ct列联表;按属性B分层,可以得到c个二维rt列联表;按属性C分层,可以得到t个二维rc列联表.,压缩与分层都是针对高维列联表的分析方法,是从不同角度和途径对不同属性之间的关系进行分析的需要。,基于辛普森悖论的存在,压缩与分层经常结合起来使用。,高维列联表的条件独立性检验,对于三维列联表,按照某一属性进行分层研究,实际上就是要进行条件独立性检验。,如:考虑C给定后A与B条件独立问题的检验。第k个二维rc列联表的检验统计量应为:,为此,可以把t个统计量的和作为条件独立性检验的检验统计量,其自由度为t(r-1)(c-1)。,高维列联表的条件独立性检验,另外还有两个条件独立性检验的问题,即A给定B与C条件独立和B给定A与C条件独立。,这三种条件独立性检验见下表:,原假设,期望频数,检验统计量,自由度,C给定A、B独立,A给定B、C独立,B给定A、C独立,条件独立性检验举例,【例5.2】某研究生院某年有1659名男生和1413名女生申请报考,其中有733名男生和428名女生被录取。录取结果见表5.12:,经检验,该表的,G,2,=63.18,p值1为正相合,1为负相合,=1为相互独立。,在三维列联表中,可以用,i,表示A给定为,A,i,后,B,和,C,的条件相合性的程度。,那么,各层四格表相合程度是否相同的检验问题,原假设和备择假设应为:,检验统计量为:,相合程度的检验,当卡方值较大时,认为各层的相合程度不相同;而当卡方值较小时,认为各层的相合度相同。这一检验方法称为Breslow-Day,2,检验.,【例5.5】计算例5.3中A给定后B和C条件相合程度。,经计算,,故认为各层B和C条件正相合的程度没有显著区别。,把各层相合程度相同称为齐性,或齐次关联性;,齐性具有对称性。在控制任意的第三变量的情况下,剩余两个变量的条件优势比都相同,或称这两个变量对第三个变量没有交互作用。,有偏比较,在对高维列联表的压缩和分层分析时,通常会出现合并的边缘表与分层的部分表会得出不同的结论,甚至出现辛普森悖论。这就要分析偏差产生的原因。,对于抽样调查数据,抽样方法的缺陷通常会产生偏差;,如例的调查数据分析时,可以通过调查方法设计完善,使调查的男性、女性以及年轻、年老的人数差不多,从而避免混杂因素起作用,避免有偏比较。,对于实验数据,实验设计方法上的缺陷也会导致偏差。,如例,5.7在新药疗效实验方案设计中,必须保证双盲且随机分组,使处理组和对照组中男、女病人数差不多,使,“,性别,”,不起作用,避免有偏比较。,对于三维列联表,按照某一属性进行分层研究,实际上就是要进行条件独立性检验。,那么,r个统计量Ui合并后,可以综合为一个检验统计量:,即对于r22的三维列联表,在层属性A给定后,行属性B与列属性C是否条件相合(正、负)。,三维rct列联表的数据结构:,H0:A给定后B和C条件独立;,对于A给定后B和C条件独立时,按A分层的二维列联表上的优比总等于1;,因此,经过检验,不能说该校有偏爱男生的倾向。,需要指出的是,这一检验只有在前面进行了分层分析检验的基础上才有意义。,即对于r22的三维列联表,在层属性A给定后,行属性B与列属性C是否条件相合(正、负)。,可见,独立性检验全被拒绝了,说明三个属性间仅有相关关系。,从四格表可知,优势比可以用来度量属性之间的关联性;,高维列联表的独立性检验,有偏比较,对于观察数据,有偏比较在所难免。,解决办法是找出混杂因素,按混杂因素进行分层分析,控制混杂因素的影响,以避免有偏比较。,如例,5.8文化程度与死亡率分析中,,“,年龄,”,是混杂因素,通过按,“,年龄,”,分层,避免了有偏比较。,高维列联表的独立性,独立性的定义可以使用概率方式,也可以采用期望频数来定义。三维列联表独立性的定义与二维列联表类似。,在三维列联表中,令m,ijk,为期望频数,若存在,i,j,k,使任意格(ijk)都有:,则称A、B、C相互独立。,其中m,ijk,的估计为:,高维列联表的独立性,若存在,i,jk,使任意格都有:,则称A和(B,C)相互独立。,其中m,ijk,的估计为:,与A和(B,C)相互独立的情况类似,可以得到B和(A,C)以及C 和(A,B)相互独立的期望频数的定义。,若存在,ij,ik,使任意格都有:,则称A给定后B和C条件独立。,其中m,ijk,的估计为:,高维列联表的独立性,与给定A后B和C条件独立类似,可以得到给定B后A和C条件独立、给定C后A和B条件独立的期望频数定义。,根据三维列联表独立性的三种情况下不同的期望频数的估计,可以构造出似然比检验统计量:,高维列联表的相关性,在三维列联表中,前面所有的独立性问题讨论完后,可以进一步分析三个变量之间的相关关系。,相关关系有两种情况:,一种是饱和模型,表示为,(ABC),即期望频数不能分解,三个属性之间不仅两两存在交互作用,而且三个之间也有交互作用;其期望频数的估计就是实际频数n,ijk,。,另一种是齐次关联模型,表示为(AB,AC,BC),,即期望频数可分解,两两之间存在交互作用,但三个之间没有交互作用;其期望频数的估计需要使用迭代算法。,对相关关系的分析,还可以通过对数线性模型和统计软件进行分析。,高维列联表的相关性,对期望频数的迭代估计类似于二维不完备列联表中的迭代算法。,对仅有两两交互作用模型检验的原假设应为:,采用的似然比检验统计量与独立性检验的统计量完全相同;,当检验统计量的卡方值较小时,不拒绝原假设;当卡方值较大时,拒绝原假设。,高维列联表的优比,期望频数除用来描述列联表的独立性、相关性外,还可以描述优势比。,优比不仅可以用于四格表,还可推广到一般的二维列联表。,可以取二维表的两行两列来构造一个四格表计算优比,二维表有若干个优比。,三维列联表可以按某一属性分层后形成若干二维列联表再进行优比分析。,高维列联表的优比,对于属性A,B,C相互独立时,不论按哪个属性分层,各层二维表的优比总等于1;,对于A与(B,C)相互独立时,按属性A分层后第i层二维ct列联表的优比与i无关,故各层B与C的相合程度相同;无论按B,或C分层,这些二维列联表上的优比总等于1;,对于A给定后B和C条件独立时,按A分层的二维列联表上的优比总等于1;且按B分层各层A与C相合程度相同,按C分层各层A与B相合程度相同。,对于齐次关联模型,各层二维列联表的优比都与在第几层没有关系。,不完备高维列联表,对不完备列联表独立性的定义与完备列联表的情形类似,不同的仅仅是定义在非空格上;,以上独立性之间的关系也与完备列联表类似;,除独立性外,不完备列联表还有拟相关问题,也与完备列联表类似;,与独立性、相关性有关的检验统计量与完备列联表相类似,不同的是自由度,有的需要相应减去空格数m,有的要具体问题具体分析。,感谢观看,
展开阅读全文