收藏 分销(赏)

直线回归分析直线回归分析介绍的相关.doc

上传人:a199****6536 文档编号:7128571 上传时间:2024-12-26 格式:DOC 页数:13 大小:760.54KB
下载 相关 举报
直线回归分析直线回归分析介绍的相关.doc_第1页
第1页 / 共13页
直线回归分析直线回归分析介绍的相关.doc_第2页
第2页 / 共13页
直线回归分析直线回归分析介绍的相关.doc_第3页
第3页 / 共13页
直线回归分析直线回归分析介绍的相关.doc_第4页
第4页 / 共13页
直线回归分析直线回归分析介绍的相关.doc_第5页
第5页 / 共13页
点击查看更多>>
资源描述

1、(完整版)直线回归分析直线回归分析介绍的相关第十四章 直线回归分析 第十三章介绍的相关系数可用来说明两变量之间相伴随而呈线性变化的趋势和关联强度,并不能用其中一个变量来预测另一个变量的值。在实际工作中,研究者常常需要通过易测的变量对另一难测的变量进行估测,如用腰围、臀围、体重指数(BMI)等简易体脂参数来估测腹腔内脂肪含量,此时可采用回归分析。本章仅介绍最简单的直线回归分析。第一节 直线回归方程的建立一、直线回归的概念直线回归(linear regression)方法可用来研究两个连续型变量之间数量上的线性依存关系,也称简单回归(simple regression)。在回归分析中估测的随机变量

2、称为因变量(dependent variable)或反应变量(response variable),常用表示;所依存的变量称为自变量(independent variable)或解释变量(explanatory variable),常用x表示.例14.1 某研究欲探讨男性腰围与腹腔内脂肪面积的关系,对20名男性志愿受试者测量其腰围(cm),并采用磁共振成像法测量其腹腔内脂肪面积(cm2),结果如表14。1所示。试建立腹腔内脂肪面积()和腰围()的直线回归方程。表14.1 20名男性志愿受试者腰围和腹腔内脂肪面积的测量值编号腰围(cm)腹腔内脂肪面积(cm2)181。369。8285.661.2

3、385。980.3487.875。5579.075.7682.585.4795。2102.5896.199.6994。497.81090。6100。91193。5108。212103。8129.01397。5110.41498。3123。31599。7105。51687。283.11784。172.01888.0100.019101.0105.02088.3127。7腹腔内脂肪面积 (cm2)腰围 (cm)以腰围为横坐标,腹腔内脂肪面积为纵坐标绘制散点图,如图14。1所示,可见散点大致呈直线趋势。图14。1 两变量直线回归关系散点图即假设有一条潜在的直线可用来刻画两变量之间的关系,这样的直线称

4、为回归直线。通常用来表示回归直线上各点的纵坐标,其数值是当取某一值时因变量的平均估计值.与单变量问题类似,由于个体观察值不一定总等于其均数,所以散点图中各点不会恰好都在回归直线上,故两变量的直线关系并非是一一对应的函数关系。描述随的变化而变化的方程称为直线回归方程(linear regression equation),也称为直线回归模型,可表示为 (14。1)式中,a为回归直线的截距(intercept)或常数项,表示等于0时,的平均估计值;b为回归直线的斜率(slope)或回归系数(regression coefficient),表示改变一个单位时的平均改变量。,表示回归直线从左下方走向右

5、上方,即y随x增大而增大;,表示回归直线从左上方走向右下方,即y随x增大而减小;,表示回归直线平行于x轴,即y与x无线性依存关系。由此可见,直线回归就是通过回归系数与自变量的线性组合来描述因变量的均数是如何随自变量的改变而变化。二、回归方程的估计(一) 回归方程估计的最小二乘法从散点图来看,不同的a和b对应于不同的直线,求解a、b实际上就是如何能合理地找到一条能最好的代表数据点分布趋势的直线,使得每个实测值与这条“理想”的回归直线的估计值最接近。由于各点的()有正有负,故通常取()平方和最小,统计学上将各点距回归直线的纵向距离平方和最小这一原则称为最小二乘法(least square meth

6、od)。(二) 回归系数的估计方法按照最小二乘法,当取得最小值时所对应a和b的计算公式如下: (14.2) (14.3)式中为与的离均差交叉乘积和,简称离均差积和,可按公式(14。4)计算: (14。4)下面以例14。1资料说明建立直线回归方程的具体步骤.1绘制两变量之间的散点图,如图14。1所示,观察到二者存在直线趋势,故可进行直线回归分析。2由样本数据计算如下统计量:, 3计算回归系数b及截距a由式(14。2)可得,由式(14.3)可得,4得回归方程为:在的实测值范围内,任取相距较远且易读数的两个值,代入方程得到两个值,连接两点即可绘制回归直线。本例分别取值79和88,得到分别为70。34

7、0和89.335,连接点(79, 70.340)和(88, 89.335)即得回归直线。第二节 直线回归的统计推断一、总体回归系数的假设检验类似单变量问题中常需用样本均数对总体均数进行推断,在得到样本回归方程后,研究者还需推断相应总体中这种回归关系是否确实存在,也即推断的总体条件均数是否随的变化而呈线性变化。总体回归方程形式如下: (14。5) 式中,和是前述a和b所对应的总体参数;为对应于各值的的总体均数,即总体条件均数;为误差项或残差。由式(14.5)可见,当总体回归系数时,的总体均数为常数,此时两变量无直线回归关系,但由于抽样误差的存在,样本回归系数不一定为零,故推断总体中两变量是否存在

8、回归关系,还须对总体回归系数是否等于0进行统计推断. (一) 方差分析理解回归中方差分析的基本思想,需要对应变量的离均差平方和作分解,如图14。2所示。PP图14.2 应变量的离均差平方和分解示意图图14。2中,任意一点的纵坐标被回归直线与均数截成三段,其中:。由于点是散点图中任取的一点,若将全部数据点都按上法处理,并将等式两端平方后再求和则有: (14。6)上式也可表示为: (14。7)即,称为总离均差平方和,即不考虑y与x的回归关系时y的总变异。即,称为回归平方和。在其成分()中,由于无论回归关系如何,特定样本的均数不变,故此部分变异是由于直线上的不同造成的,而的不同正是由于假设两变量存在

9、回归关系所导致的。因此反映了在y的总变异中由于y与x的回归关系而使y的总变异减少的部分,也即在y的总变异中可以用y与x的回归关系所解释的部分。越大,说明回归效果越好。即,称为残差平方和。它反映了除x对y的回归关系影响之外的一切因素对y的变异的作用,也即在总平方和中无法用回归关系解释的部分,表示考虑回归关系之后y的随机误差。在散点图中,各实测点离回归直线越近,越小,说明直线回归的估计误差越小.上述3个平方和相应的自由度之间的关系为:,, (14。8) (14.9)由式(14.7)及式(14.9)离均差平方和及其自由度的分解可见,当时,更可能出现较小的和较大的(极端情况为=,而=0,回归线与横坐标

10、平行);而时,更可能得到较大的和较小的(极端情况为=,而=0,所有数据点都在回归线上).故相对于随机误差而言,回归的变异越大,越有理由认为,或者可认为不考虑回归时,随机误差是y的总变异,而考虑回归后,由于回归的贡献使原来的随机误差减小为。如果两变量间总体回归关系确实存在,回归的贡献应大于随机误差,大到何种程度时可以认为具有统计学意义,可根据与的关系构造统计量,对回归系数进行假设检验: (14.10)式中,为回归均方,为残差均方。在为的假设下,统计量服从自由度为、的分布。实际计算时,也可以利用公式(14.11)直接求得: (14.11)例14.2 试用方差分析对例14。1资料的样本回归方程作假设

11、检验.(1) 建立检验假设,确定检验水准:,即腹腔内脂肪面积与腰围之间无直线回归关系:,即腹腔内脂肪面积与腰围之间有直线回归关系(2) 计算检验统计量由式(14.11)可得, 由式(14.7)可得,由式(14.10)可得,(3) 确定P值,作出统计推断,,查F界值表(附表4),得。按水准拒绝,回归方程有统计学意义,可以认为腹腔内脂肪面积与腰围之间有直线回归关系.上述计算结果可列成方差分析表,如表14。2所示。表14。2 直线回归的方差分析表变异来源SSMSFP回归4235。086 14235。08624.924残差3058.56418169.920总变异7293.65019(二) t检验 ,

12、(14.12) (14。13) (14.14)式中,为样本回归系数b的标准误;为剩余标准差(residual standard deviation),是指扣除x对y的影响后,y对于回归直线的离散程度。例14.3 试用t检验对例14.1资料的样本回归方程作假设检验。检验假设同例14。2。由式(14.14) 由式(14。13) 由式(14。12) 由,查t界值表(附表3),得,按水准拒绝,回归方程有统计学意义。结论同例14。2。由例14.1资料可验证。因此,对同一资料作总体回归系数是否为0的假设检验,方差分析和t 检验是一致的,且。二、总体回归系数的置信区间由例14。1计算得到的样本回归系数,只是

13、总体回归系数的一个点估计值.类似于总体均数的置信区间的估计,的双侧置信区间可由公式(14.15)计算: (14.15)式中,为样本回归系数b的标准误;是自由度的双侧t界值。例14。4 试估计例14。1资料的总体回归系数的95置信区间。 由例14。1、例14.3得,,查t界值表(附表3)得。按式(14.15)求得的95置信区间为:该区间不包括0,按水准同样可得到总体回归系数不为0的结论,即用区间估计回答假设检验的问题.三、决定系数回归平方和与总离均差平方和之比称为决定系数(coefficient of determination),记为。 (14。16)取值在0到1之间,无单位。它反映了回归贡献

14、的相对程度,即在应变量y的总变异中用y与x回归关系所能解释的比例。在实际应用中,常用决定系数来反映回归的实际效果。如例14.1,=0.581,说明男性的腰围信息可以解释其腹腔内脂肪面积变异的58.1,还有剩余41.9%的信息需通过腰围以外的其它因素来加以解释。决定系数除了作为反映回归拟合效果的统计量,还可用来对回归拟合效果作假设检验。此拟合优度检验等价于对总体回归系数的假设检验,检验统计量为: (14.17)第三节 直线回归分析的应用一、应变量总体条件均数的置信区间给定数值,由样本回归方程算出的只是总体条件均数的一个点估计值。由于存在抽样误差,会因样本而异,反映其抽样误差大小的标准误可按公式(

15、14.18)计算: (14.18)式中,由式(14.14)计算,其条件总体均数的双侧置信区间为: (14.19)例14。1中,观测值,,,代入式(14.18)获得第一观测点对应的的标准误为当置信度为95%时,,代入式(14。19)可得: 75.193972。1015。0276(64.63, 85.76)用同样的方式,可计算出对应于所有x值的y的总体均数的95%置信区间,以x为横坐标,y为纵坐标,将置信区间的上下限分别连起来形成的两条弧形线间的区域,称为回归直线的置信带(confidence band),见图14。3中离回归直线较近的两条弧线所确定的区域。腹腔内脂肪面积 (cm2)腰围 (cm)

16、 图14.3 总体均数的置信区间和个体值的预测区间当时,应变量总体均数的标准误达到最小值,其对应的置信带最窄.离越远,其标准误越大,对应的置信带越宽.二、应变量个体y值的预测区间利用回归方程进行统计预测,就是将自变量代入回归方程中,对应变量的个体值进行估计。给定数值,对应的个体y预测值也存在一个波动范围,其标准差可按公式(14.20)计算: (14.20)因此,时个体值的双侧预测区间为 (14。21)应注意的是,当时,其条件总体均数的置信区间与个体值的预测区间其含义是不同的:前者表示在固定的处,反复抽样100次,可算出100个相应的总体均数的置信区间,有个置信区间包含总体均数;而后者表示预测值

17、的取值范围,即在固定的处,随机抽取100个个体,平均将有个个体值在求出的范围内。仍然以观测点数据为例,利用上例计算结果,该点预测值的标准差为代入式(14。21),得第一数据点值的95预测区间为75。193972。10113.9713(45.84, 104。55)用同样的方法,可计算出所有值对应的值的95%预测区间,以为横坐标,为纵坐标,将预测区间的上下限分别连起来形成的两条弧形线间的区域,称为值的预测带,见图14.3中离回归直线较远的两条弧线所确定的区域.同样,值的预测带也是中间窄、两头宽,在处最窄。第四节 直线回归分析需注意的问题一、回归分析前应绘制散点图除了从专业角度考虑两变量之间可能的关

18、系,观察散点图也能给出很重要的提示,因此回归分析的第一步就是绘制散点图。只有散点图呈现直线趋势时,两变量呈直线回归关系的假定才是有据可依的。当变量间散点呈现明显的曲线关系时,若采用简单直线回归分析,即使得到有统计学意义的直线方程也是不恰当的。图中明显远离主体数据的观测点,称之为离群点(outlier),这些点很可能对正确评价两变量间关系有较大影响.对离群点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误,需要改变模型形式,也可能是抽样误差造成的一次偶然结果,甚至是过失误差.需要强调的是,实际工作中不能通过简单剔除离群值的方式来提高拟合效果,只有认真核对原始数据

19、,并检查其原因,才可谨慎剔除或采用其他估计方法,如加权回归等。二、用残差图考察模型假设条件直线回归模型通常采用最小二乘法来估计回归系数,并在此基础上作进一步推断。其应用条件为:因变量与自变量关系为线性、误差服从正态分布、各观测值独立等。如果实际数据在不满足假设的情况下进行直线回归分析,将影响回归系数估计的精度与假设检验的值,以至于可能得到专业上无法解释的结论。对这些假设条件的检查较为简单有效的方法是考察回归模型的残差图(residual plot)。残差图是以现有模型求出的各点残差即()作为纵坐标,相应的预测值或者自变量取值作为横坐标来绘制的。如果数据符合模型的基本假定,残差与回归预测值的散点

20、图应均匀分布在直线两侧,如图14。4(a)为较为理想的残差图,说明此数据用于拟合直线回归方程是较恰当的。图14。4(b)为某农药厂工人的工龄与全血胆碱酯酶活性进行直线回归分析得到的残差图,可以看出其中一个点的残差绝对值相对其它点明显大很多。仔细检查这一数据,发现样品发生了溶血,从而严重影响测定结果,因此该点为过失误差导致的离群点,可以考虑删除或改用其它可减小离群点影响的回归分析方法。图14。4(c)为13岁儿童年龄与其锡克氏反应阳性率经直线回归得到的残差图,图中的残差与回归预测值呈曲线关系,提示在目前的直线回归模型中加入自变量的二次项将改善拟合效果。图14。4(d)为女童年龄与舒张压之间直线回

21、归的残差图,图中的残差呈喇叭口形状,说明误差的方差不齐,应考虑采用加权回归等方法。图14。4(e)表示残差之间不独立的情况,可以看到残差与各个观测的测量时间之间存在较强的相关,也不适用直线回归方法处理. 时间(a) (b) (c) (d) (e)图14.4 残差示意图三、结果的解释及正确应用反映自变量对应变量数量上影响大小的统计量是回归系数,而不是假设检验的值。值越小只能说明越有理由认为变量间的直线回归关系存在,而不能说明影响越大或关系越强。另外,直线回归用于预测时,其适用范围一般不应超出样本中自变量的取值范围,在正常范围内求得的预测值称为内插(interpolation),而超过自变量取值范

22、围所得预测值称为外推(extrapolation)。若无充足理由证明超出自变量取值范围之外两变量间仍呈直线回归关系,应尽量避免不合理的外推。第五节 直线回归与直线相关分析的区别与联系一、区别1. 资料要求 直线相关分析要求、服从双变量正态分布,二者无主次之分;直线回归分析要求在给定某个值时服从正态分布,的均数随变化而变化,而是可以精确测量和严格控制的变量.2. 应用 说明两变量间的相互关系用直线相关分析,此时两变量的关系是平等的;而说明两变量的数量依存关系用直线回归分析,表明如何依赖于而变化。3. 意义 相关系数说明具有直线关系的两变量间相互关系的方向与密切程度;回归系数表示每改变一个单位所引

23、起的的平均改变量。4。 计算公式 ,。5. 取值范围 ,。 6. 单位 没有单位,有单位。二、联系1. 对于服从双变量正态分布的同一组数据,既可作直线相关分析又可作直线回归分析,计算出的与正负号一致。2。 相关系数与回归系数的假设检验等价,即对于同一样本,。由于相关系数的假设检验可以方便地查表得到值,所以可用相关系数的假设检验来回答回归系数的假设检验问题。3。 对于服从双变量正态分布的同一组资料,其相关系数r和回归系数b可以相互换算:。4。 用回归可以解释相关。决定系数,为相关系数的平方。它反映了回归贡献的相对程度,即在y的总变异中能用y与x的回归关系所能解释的比例。故当固定时,的大小决定了相

24、关的密切程度。越接近,则相关系数和决定系数都越接近1,说明引入回归效果越好。小 结1。 直线回归是研究两个连续型变量之间数量上的线性依存关系的方法,常用于预测和危险因素筛选等问题的研究。2. 直线回归要求个体观察值间相互独立、不同取值条件下各误差项的总体方差相等且服从正态分布、变量间关系为线性,这些条件可通过对残差的分析做出判断。3。 应用直线回归分析时,首先须从专业上进行变量的选择,应用前需绘制散点图观察变量间是否有线性趋势,直观地检查模型的基本假设条件.4. 应用直线回归进行预测时,一般以自变量的取值范围为限,若无充足理由证明超出自变量范围之外两变量仍呈直线关系,应尽量避免不合理的外推。5. 应用时需注意直线回归与相关的区别与联系。(王彤)14-13

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服