ImageVerifierCode 换一换
格式:DOC , 页数:7 ,大小:247.50KB ,
资源ID:7545371      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/7545371.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(第十二章相关与回归分析.doc)为本站上传会员【pc****0】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

第十二章相关与回归分析.doc

1、第十二章 相关与回归分析 社会学研究不满足于对单变量的分析,往往要求进一步分析双变量之间的关系,然后再拓展到分析多变量之间的关系。第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是,客观事物间的关联性开始披露出来。 第一节 变量之间的相互关系 1.相关程度与方向 从一定意义上讲,函数关系是相关关系的一个特例,即变量间严格一一对应,这是相关程度最强的一种相关关系,称为完全相关(perfect association)。而变量相关程度的另一个极端值是无相关(no association)或零相关(zero as

2、sociation),即变量之间不存在任何数量上的依存关系。相关程度介于两个极端值之间的则是不完全相关,相关关系大多指的是这种情况,这时变量间在数量关系上有着不很严格的相互依存关系。 在统计中,对于线性相关,采用相关系数(记作r)这一指标来量度相关关系程度或强度。就线性相关来说,当=l时,表示为完全相关;当r=0时,表现为无相关或零相关;当0<<1时,表现为不完全相关。但在采用相关系数r这一指标时必须注意到,存在着完善曲线而r=0的情况。当然,变量在其他测量层次的关系强度,也可以用同样的思路加以考虑。 当变量间相关时,还可以探讨其相关方向,可以分正和负两个方向。所谓正相关关系是指一

3、个变量的值增加时,另一变量的值也增加。而负相关关系是指一个变量的值增加时,另一变量的值却减少要强调的是,只有定序以上测量层次的变量才能分析相关方向,因为只有这些变量的值有高低或多少之分。至于定类变量,由于变量的值并无大小、高低之分,故定类变量与其他变量相关时就没有正负方向了。 2.因果关系 除了相关程度与方向这两种性质外,还应注意两个变量的相关关系是否具有因果性。只有当两个变量之间的关系同时满足以下三个条件时,才能断定这种关系是因果关系: (1)两个变量有共变关系,即一个变量的变化会伴随着另一个变量的变化。 (2)两个变量之间的关系不是由其他因素形成的,即因变量的变化是由自

4、变量的变化引起的。 (3)两个变量的产生和变化有明确的时间顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量。 因果关系是一种非对称关系(asymmetrical relationship),这时只是自变量影响因变量,因变量不会反过来影响自变量。如果不能确定或无法区分变量的作用方向,这种情况就称为对称关系(symmetrical relationship)。 第二节 定类变量的相关分析 1.列联表 列联表,是按品质标志把两个变量的频数分布进行交互分类,由于表内的每一个频数都需同时满足两个变量的要求,所以列联表又称条件频数表。2×2列联表,是最简单的交互分类表,r ×

5、c频数分布列联表则是一般形式。 条件频数表中各频数因基数不同不便作直接比较,因此有必要将频数化成相对频数,使基数标准化。这样,我们就从频数分布的列联表得到了相对频数分布的列联表(或称频率分布的列联表)。 在相对频数分布列联表中,各数据为各分类出现的相对频数(或者频率)。将频数化成相对频数有两种做法:①如果= ,我们得到的是联合分布的列联表,此时也可以称为联合频率;②如果= 或者= ,我们得到的是关于X或者关于Y的相对频数的条件分布,此时也可以称为条件频率 通过列联表研究定类变量之间的关联性,实际上是通过相对频数条件分布的比较进行的。如果不同的X,Y的相对频数条件分布不同,且和Y的相对

6、频数边际分布不同,则两变量之间是相关的。而如果变量间是相互独立的话,必然存在着Y的相对频数条件分布相同,且和它的相对频数边际分布相同。 2.削减误差比例 在社会统计中,表达相关关系的强弱,削减误差比例PRE(Proportionate Reductionin Error)的概念是非常有价值的。削减误差比例的原理是,如果两变量间存在着一定的关联性,那么知道这种关联性,必然有助于我们通过一个变量去预测另一变量。其中关系密切者,在由一变量预测另一变量时.其盲目性必然较关系不密切者为小。因此,变量间的相关程度,可以用不知Y与X有关系时预测Y的误差E0,减去知道Y与X有关系时预测Y的

7、误差E1,再将其化为比例来度量。将削减误差比例记为PRE,得 PRE = 削减误差比例PRE适用于各测量层次的变量,但公式中E1、E2的具体定义,不仅对不同测量层次的变量有所不同,而且对同一测量层次的变量也有所不同。系数和τ系数便是在定类测量的层次上以削减误差比例PRE为基础所设计的两种相关系数。 3.系数 (1)对称的系数(假设X是自变量,Y是因变量) (2)不对称的系数(假设X是自变量,Y是因变量)

8、 系数有PRE意义,其统计值域是[0,1]。系数的缺点是比较粗略,不够灵敏,因为它以众数作为预测的准则,对条件频数分布列联表中众数频数以外的条件频数不予理会。另外,如果众数频数集中在条件频数分布列联表的同一行中,系数便会等于0,从而无法显示两变量之间的相关性。 3.系数 系数的统计值域是[0,1],其特点是在计算时考虑所有的边际频数和条件频数。先求出不知X,预测Y时全部误差E0;然后求出知道X,以X预测Y时的全部误差E1;最后求出消减误差比例作为其相关系数值。公式是 =

9、系数有PRE意义,它比系数灵敏。 第三节 定序变量的相关分析 如果变量不仅可以区分类,而且可排出序(或秩),那么我们就得面对定序变量的相关分析了。定序变量是只能排列高低次序、而无法确定其精确数量的变量。故在分析定序变量的X与Y相关时,只能考虑X与Y两变量变化的顺序是否一致及其等级之间的差距,并以此来求算两变量相关关系之相关系数。 1. 同序对、异序对、同分对 社会学研究常用的两定序变量的相关测量法,有一类是以同序对、异序对、同分对的概念为基础的,如Gamma系数,肯得尔系数、系数等。所以我们在讨论这几种相关系数之前,先要掌握这三个概念。 (1)同序

10、对 在观察X序列时如果我们看到<,在Y序列中看到的是<,则称这一配对是同序对。同序对只要求X变化方向和Y变化方向相同,并不要求X变化大小和Y变化大小相等。同序对的总数用符号表示。 (2)异序对 在观察X序列时如果我们看到<,在Y序列中看到的是>,则称这一配对是异序对。同样,异序对只要求X变化方向和Y变化方向相同,并不要求X变化大小和Y变化大小相等。异序对的总数用符号表示。 (3)同分对 如果在X序列中,我们观察到=,则这个配对为X同分对;X同分对的总数用符号表示。如果在Y序列中,我们观察到=,则称这个配对为Y同分对,Y同分对的总数用符号表示。如果我

11、们观察到=时,也观察到=,则称这两个配对为X与Y同分对,以代表。 对于列联表的资料,计算同序对,要用“右下余子式”法;计算异序对,要用 “左下余子式”法。五种不同配对的总的数目是。 2.Gamma系数 Gamma系数适用于测量两对称的定序变项的相关系数,计算公式是 。Gamma系数同样具有削减误差比例PRE性质。 3.肯德尔等级相关系数 对于求等级相关系数,统计学家肯德尔(Kendall)提出了多种方案:(1) 系数; (2) 系数;(3) 系数。 4. 萨默斯(d系数) 与G系数、系数、系数不同,系数的值依赖于将哪一个变

12、量作为自变量,哪一个变量作为因变量,是一种不对称测量。具体地说, 测量,用于以X预测Y;测量,用于以Y预测X。两者的值域是[–1,1],公式是 5. 斯皮尔曼等级相关系数 第一位推导等级之间相关系数的人是英国心理学家查尔斯·斯皮尔曼。他创造的一个等级相关的公式,可以用来计算两个定序变量之间的相关程度。斯皮尔曼系数通常以代表,即 6.肯

13、德尔和谐系数() 前面我们谈的都是对双变量求等级相关系数。对于多变量求等级相关系数,肯德尔运用数理分析方法,提出了一个计算公式 第四节 定距变量的相关分析 两个定距变量之间的相关测量,最常用的就是所谓积差系数.它是由英国统计学家皮尔逊(Pearson)用积差方法推导出来,所以也称皮尔逊相关系数,用符号r表示。而在本章一开头,关于相关程度与方向,我们谈到了定距—定距变量线性相关的问题。其实,积差系数表达的是两定距变量之间的线性相关关系。不仅如此,我们根据两变量之间的这种线性关系,可以进一步建立代数公式,以

14、一个自变量X的值去预测一个因变量Y的值,这就是下一节讲的回归分析。 1.相关表和相关图 在社会统计学中,由于变量之间的测量层次不同,研究相关关系的方法也有所不同。相关表是在定距测量的层次上,反映两变量之间对应关系的数据表,它是积差系数计算的依据。将相关表所示的各个有对应关系的数据在直角坐标系上画出来,以直观地观察X和Y之间的相互关系,即得相关图。相关图又称散点图。如果数据足够多,从散点图上可以直观地看出两变量之间存在着何种相关关系。 2.积差系数的导出和计算 皮尔逊相关系数用来测量两个定距变量相关强度和方向,即 r=

15、 不难看出,在r系数的计算公式中,变量X和Y是对等关系。引入协方差,积差系数又可以表达为 r= 不难看出,积差系数是协方差与两个随机变量X、Y的标准差乘积的比率。实际计算时,一般采用以下简化 r= 3.积差系数的性质 (1)皮尔逊相关系数是线性相关系数。 (2) r的取值在-1和-1之间。绝对值越大,相关程度越高;绝对值越小,相关程度越小。 (3)皮尔逊相关系数具有PRE性质,但这要通过r2加以反映。 (4)积差系数不解释两变量间的因果

16、关系。 (5) r公式中的两个变量都是随机的,因而改变两者的位置并不影响r的数值。 第五节 回归分析 积差系数并不能表明X和Y之间的因果关系,要明确一个变量的变化能否由另一个变量的变化来解释,或通过已知变量精确地预测未知变量,就要进行回归分析。 1.线性回归 线性回归分析,一般是先依据相关表做出散点图,直观地估计X和Y关联性。如果两变量的确呈现出一定的线性相关趋势,便可以设所要求的回归直线方程为 = 运用最小平方法可得

17、 = =-=- 在回归方程中,b有十分重要的意义,被称为回归系数。b值的大小,反映了X对Y有多大的影响,即b值就是当X增加一个单位时Y值的增量。b的绝对值越大,表示X对Y的影响也越大,等于零则表示X对Y没有影响。也就是说,b与积差系数一样也可以反映X和Y之间的关系强度。而且b与一样也具有方向性,即b也有正负之分,正值表示X对Y有正向影响,即X增加,Y也增加;负值则是负向影响,即X增加,Y却减少。 不过,b也有与不同之处:首先,b的大小不限于-1至+1之间,而是取决于回归直线的斜

18、率;b的的单位取决于变量X和Y的测量单位。这点与不同,的取值范围在-1到1之间,它也没有量纲,是个纯数。其次,计算r时,公式中X与Y是对等的,即将二者位置互换,的值不变,这表明是一种对称关系的测量。但在估算b时,X与Y位置不能互换。b系数和前面的系数、系数、系数一样,具有非对称性。只能用X预测Y,不能反过来用Y预测X。再次,r公式中的两个变量都是随机的。而回归方程要表示因果关系,因而自变量不是随机的,只有因变量才是随机的。 2. 积差系数的PRE性质 =+ 如果将称为总变差,将称为回归变差,将称为剩余变差(即称残差),于是上式又可以写成

19、 总变差 = 回归变差 + 剩余变差 决定系数也可以表达为回归变差在总变差中所占比例 = 就测量变量之间相关关系而言,上式具有独立的意义,就是它不仅适用于线性相关,也适用于非线性相关。于是,统计上引入相关指数这个概念,用符号R表示,即 R = 相关指数R,对于直线相关来说,等同于,即R=。但对于非线性相关来说,就只能用相关指数R来加以测量

20、了。 第六节 曲线相关与回归 一些非线性关系,有可能通过适当的变量变换,将非线性函数转化为线性函数,从而把非线性相关和回归问题转化为线性相关和回归问题来处理。而且,这些比较简单的非线性方程对于社会研究中产生的许多非线性关系来说,通常还是足以胜任的。例如: (1)二次曲线 = 二次曲线的回归方程中有三个待定参数,运用最小平方法求得标准方程为 =n = = 有了标准方程,二次曲线的回归方程及相关指数的计算都迎刃而解了。 (2)指数曲线 = 若令=1g,=1g,=1g,再利用最小平方法,可以得到如下标淮方程 = = 有了标准方程,指数曲线的回归方程及相关指数的计算都迎刃而解了。 -7-

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服