1、社会统计学第十章4、列联表的一般形式Nij:x=xi y=yj时所具有的频次学生上网调查(统计各项比例,能发现什么问题?)男生女生聊天2020玩游戏5050网恋1515学习15152、列联表中变量的分布*1)联合分布*关于二变量来说,为了明白分布,集合中的变量值,必须同时具有X和y 两个变量的取值。*(Xi yi Nii)*(X2 y2 N12)*(XI yr Nir)-此称联合分布*(Xi yj Nij)*(Xc yr Ncr)*Nij-表示频次时 联合频次分布表*Pljf示概率时最合概率分布表c*后者能够通过前者求出凡=?n=此 sPi.=7z=1 7=1 i j)*2)边缘分布:*对联合
2、分布进行简比,只研究其中某一 变量的分布,而不管另一变量的取值,如此就得到边缘分布。*按行加总y的边缘分布:y 了/)二尸1r+尸2/+,+Per=P*r*按列加总X的边缘分布:PX X Pc;P2cA Per Pc*3)条件分布:*将其中一个变量控制起来取 一变量的分布,即条件分布。定值,再看另*控制x时,条件分布中的每一项都以边缘分布 的N*N“.Nc*为分母*控制y时,条件分布中的每一项都以边缘分布 的N*N*2.N*r为令母3、列联表中的相互独立性:*1)列联表研究定类变量之间的关系,实际上 是通过条件分布的比较进行的。*假如两个变量之间没有关系,则称变量之间 是相互独立的。*2)假如
3、两个变量之间是相互独立的,则必定 存在变量的条件分布与其边缘分布相同。*条件分布=边缘分布是列联表检验的基础:(控制X时)Nii N 21 _ N*i _._Ni*N 2*NNij N*jNi*NNij N N*j _x_=_N N i*NPij=Pi*P*j第二节列联表的检验*一、原假设:*将总体中变量间无关系或相互独立作为检验 的原假设。H o:pij=pt*p*j*总体p*和P*/未知时,用样本p*和P代替目。n*ninn22c r2 2*UijEijTli*Tl*jE=np*7n统计量的讨论*1、关于2x2列联表,由于格数过少,为 减少作为离散观测值与作为连续型变量x 值之间的偏差,可
4、作连续性修正:%|I 22 I及*2、二项总体Ex Eip。为总体成数12男女休闲喜好男女泡吧8030逛商店20703、对多项总体:*统计量:gni-E:)Az-/=1 hiX(I)EiRi。24、使用统计量X对列联表通行检验,每一格值的E 要保持在一定数目上。假如有的格值及过小,那么在计算r值时 m 值的波励就会较大。及*每格要求:E ij 5处理方法:将期望值偏小的格值合并。右例,做检验。120 30 31nij 18 29 4 2列联表就其检验内容来看是双边检验,但从 形式上看,却又特别像单边检验。其判断的内 容仅是变量间是否存在关系。至于方向,由 于列联表属定类变量,因此是不存在的。列
5、联表检验步骤*1、Ho H、-*2、统计量:*八包/xr I Ei*3、Ct*4、比较例:以下是老、中、青三代对某影片的抽 样,能否认为三代人对该影片评价有显 著差异老中青特别高453921一般472622第三节列联强度*一、变量间的相关*1、列联表中的频次分布情况,不仅是检验是否存 在关系的依据,同时也是度量变量间关系强弱的依 据。相关性程度越高,说明社会现象与社会现象间 的关系愈紧密。*2、列联表中变量间的关系的强度分析,能够将频 次转化为条件分布,然后比较自变量取不同值时,因变量条件分布的不同。*例右表中,男生上网玩游 戏的比例高于女生;而 上网聊天的比例低于女 生;想一想,当X取值大于
6、2 时,如何比较?八x 男生女生玩游戏乙0 67%10 25%聊天 3 0 33%30 75%*列联表中两个变量都只有二种取值时,就是2x 2表一系数和Q系数VXX1%2斗a b字c dZ*当变量间无关系时(独立)-=即:ad=be a+c b+d*关于2x2表,不管系数或Q系数,都以差值ad-be 为基础进行的讨论,同时,也把关系强度的取值范围定义 在依间。*Is系数 ad-beJ(q+b)(c+d)(+c)(/?+d)*=0 当两变量相互独立*I=/-b、c为零,值最大1*a、d为零,值最小-1*|/.一般情况*前例中计算*2、Q系数Q=ad-be ad+be*当a、b、cs d中有一个是
7、零时,则Q/1*对应的实际情况是配对样本研究*3、Q系数的选择*当自变量的不同取值都会影响因变量时,曲 系数系数。当存在控制组时,用Q4.r x c列联表2*22Ey*期望契次是基于无相关前提下计量出来的,因X巅大,表示变量间距离无相关性愈远。2,*X值构成系数/_=-yjx2 h*其与2x2表中 系数是一致,2x2表中是KXC 表中系数的特例。*由于rX C表的数增多后,值增加,没 有上限,无法比较,因此以c系数修正。*C值在0,1但永远小于1,又出现了v系数:v=I/V min(r-7),(c-7)*V的取值:O V/2)以减少误差比例为基础的相关性测量*PRE不受变量层次的限制,通过现象
8、之间的关 系研究,从一个现象预测另一个现象。pre=E-E 2*Ei:不知y与x有关系时,预测y的全部误差*2:明白y与x有关系后,用x去预测y的全部误 差*勺星表示所减少的相对误差,越大表示y与x关 系越紧密。*PRE的取值范围:*PRE=O:两变量是无相关(明白x与否无 助于y的预测,石 2误差不变)*PRE=1:两变量是完全相关的(明白x与y 有关系后,能够消除预测的全部误差)*0 PRE m*j*明白X与y有关后:用y的条件分布来猜y值 当乂=男生而随机10人,猜对聊天的人数:10*10/50猜错的人数:10-10 x10/50随机40人,猜对游戏的人数:40 x40/50猜错的人数:40-40 x40/50才青错二者相力口:=(10-10 x 10/50)+(40-40 x40/50)=50-1/50 x(102+402)同理:当乂=女生时?*E2即为全部误差之和。推广:1 rE 2 (m*、n 2ij)+(n 2*)+,cni*二n 一n2ijn i*感谢您的聆听!