收藏 分销(赏)

事物间的因果关系回归分析教育课件.ppt

上传人:精*** 文档编号:2997848 上传时间:2024-06-12 格式:PPT 页数:36 大小:407.50KB
下载 相关 举报
事物间的因果关系回归分析教育课件.ppt_第1页
第1页 / 共36页
事物间的因果关系回归分析教育课件.ppt_第2页
第2页 / 共36页
事物间的因果关系回归分析教育课件.ppt_第3页
第3页 / 共36页
事物间的因果关系回归分析教育课件.ppt_第4页
第4页 / 共36页
事物间的因果关系回归分析教育课件.ppt_第5页
第5页 / 共36页
点击查看更多>>
资源描述

1、事物事物间间的因果关系的因果关系回回归归分析分析PPT讲讲座座内容提要10.1 回归分析概述回归分析概述u为确定变量之间的联系,用一些变量的变化说明另一个变量的变化,并进一步对另一个变量的取值进行预测,这就是回归分析。u回归分析研究的是变量之间的相互关系,但这种关系不仅是相关关系,而且是因果关系。因此回归分析要明确区分因变量与自变量。如年龄对收入的影响。u因变量(因变量(dependent variable):要说明其变化的、对其进行:要说明其变化的、对其进行预测的变量。预测的变量。u自变量自变量(independent variable):用以说明或预测因变量的:用以说明或预测因变量的变量变

2、量回归模型的类型10.2 一元线性回归(一)一元线性回归的统计原理u两个定距变量的回归是用函数y=f(x)来分析的。我们最常用的是一元回归方程y=a+bx。u其中x为自变量,y为因变量,a为截距,b为回归系数。(二)一元线性回归涉及概念u常量:a为x等于零时,y的平均估计量。u回归部分:它刻画因变量y的取值中,由因变量y与自变量x的线性关系所决定的部分,即可以直接由x估计的部分。b为回归系数,也是回归线的斜率。u残差:估计值和每一个实测值之间的差称为残差。残差表示因变量y除了自变量x以外的其他所有未进入模型或未知但可能与y有关的随机和非随机因素共同引起的变异,即不能由x估计的部分。u最小二乘原

3、理即残差的平方和最小。最小二乘原理即残差的平方和最小。(四)一元线性回归分析u第一步:考察因变量的正态性。例:根据数据“儿童.sav”,建立回归模型,考察儿童对电视的接触时间与儿童的知识量之间是否有因果关系。(四)一元线性回归分析u第二步:考察因变量与自变量的线性关系。添加回归趋势添加回归趋势线的方法:线的方法:双击图形,进双击图形,进入图表编辑入图表编辑窗口下的窗口下的ElementsFit Line at Total选中选中Linear(四)一元线性回归分析u第三步:进行回归分析。因因变量量自自变量量Pearson相相关系数关系数回回归方程的确定系方程的确定系数数R2:表示自:表示自变量量

4、能解能解释因因变量量变化化的的46.8%。进入模型的自入模型的自变量量u确定系数确定系数R2是是测定回定回归直直线拟合合优度的重要度的重要指指标。u总变差(差(TSS)是)是估估计 时所所产生的生的误差差平方和平方和u回回归变差(差(RSS)是)是 和之和之间产生的生的变差平差平方和。方和。u剩余剩余变差是和差是和之之间产生的生的变差平方和。差平方和。TSS=RSS+ESS对回归模型的显著性检验回归平方和回归平方和RSSRSS残差平方和残差平方和ESSESS如果如果p值小于小于0.05,说明明R2在在统计上是上是显著的,著的,即有足即有足够的把握的把握认为总体的回体的回归斜率不斜率不为0。通常

5、只关心回通常只关心回归方程的斜率在方程的斜率在统计上是不是上是不是显著的,而不关心截距的著的,而不关心截距的值以及它的以及它的显著性水平。主要因著性水平。主要因为:u斜率斜率b b不不仅表达了表达了线性关系的方向,也表达了性关系的方向,也表达了线性关系的性关系的强度,度,这也是也是对解解释因因变量最有用的信息。截距量最有用的信息。截距a a对解解释因因变量量y y的的变化起不到任何作用。化起不到任何作用。u从从实际应用的角度来用的角度来说,截距是在,截距是在x x0 0时y y的取的取值,这是一种特殊的情况,一般是一种特殊的情况,一般不加以考不加以考虑。u截距截距a a只表示直只表示直线在坐在

6、坐标平面中的起点,如果把所有回平面中的起点,如果把所有回归系数都系数都进行行标准化,准化,这时直直线是是过原点的,即截距原点的,即截距为0 0。所以,通常不关心截距所以,通常不关心截距a a的的值是否是否显著。即使不著。即使不显著,也保留在方程中。著,也保留在方程中。回归系数如果如果p值小于小于0.05,说明明该自自变量的回量的回归系数在系数在统计上是上是显著的,著的,即有足即有足够的把握的把握认为b不不为0。常数项即常数项即a自变量的回自变量的回归系数即归系数即b b建立回归方程:建立回归方程:y=1.935+0.021x其中其中y表示儿童的知识量评分表示儿童的知识量评分x表示儿童接触电视的

7、时间。表示儿童接触电视的时间。10.3 多元线性回归多元线性回归u将一元线性回归进行推广,引入多个自变量,以利用更多的信息来解释因变量的变化,即可得多元线性回归方程ub0,b1,b2,bk是参数,称为偏回归系数ubi 表示假定其他变量不变,当 xi 每变动一个单位时,y 的平均平均变动值ue是被称为误差项的随机变量,说明了包含在y里面但不能被k个自变量的线性关系所解释的变异性u y 是x1,,x2,xk 的线性函数加上误差项e 例:某面向年轻人制作肖像的公司计划在国内开设几家分店,收集了目前已设分店的销售数据(y,万元)以及分店所在城市的16岁以下人数(X1,万人)、人均可支配收入(X2,万元

8、)数据见“销售收入.sav”,试建立多元线性回归模型。u第一步:考察因变量与自变量的线性关系从散点图矩阵可从散点图矩阵可以看出,销售收以看出,销售收入与年轻人人数、入与年轻人人数、人均可支配收入人均可支配收入呈线性关系。呈线性关系。多元线性回归u第二步:考察因变量的正态性在因变量的正态在因变量的正态性不理想的情况性不理想的情况下,回归方程可下,回归方程可以体现因变量与以体现因变量与自变量的因果关自变量的因果关系,不能用于预系,不能用于预测因变量。测因变量。多元线性回归多元线性回归u第三步:根据设想建立回归方程:y=b0+b1x1+b2x2u进行多元回归,回归线性选入回入回归方程方程中的自中的自

9、变量量选入回入回归方程方程中的因中的因变量量本例采用本例采用强制制纳入回入回归模型的方模型的方法。法。多元回多元回归常使用常使用调整的确定整的确定系数系数R2:此:此时说明明x1和和x2两两个自个自变量能共同解量能共同解释90.7%的因的因变量的量的变化。化。对回归模型的显著性检验如果如果p值小于值小于0.05,说明,说明至少至少一个自变量的回归系数不为一个自变量的回归系数不为0,所建立的回归模型有统计意,所建立的回归模型有统计意义。义。回归系数如果如果p值小于值小于0.05,说明,说明该自变量的回归系数在统该自变量的回归系数在统计上是显著的,即有足够计上是显著的,即有足够的把握认为的把握认为

10、b不为不为0。自变量自变量的回归的回归系数系数建立回归方程:建立回归方程:y=-6.886+1.455x1+0.009x2标准化回归系数标准化回归系数表明年轻人人数表明年轻人人数对销售收入的影对销售收入的影响更大。响更大。多元回归纳入自变量的方法u强制回归法:所有自变量强制纳入回归模型u向前回归法:将自变量按顺序选入回归模型。首先选入的是与因变量有最大相关性的自变量,同时必须满足选入条件,然后再考虑下一个自变量。u向后回归法:与向前法相反。首先将所有变量纳入模型,然后按顺序移除,最先移除的是与因变量相关性最小的自变量,直至方程中没有满足移除条件的变量。u逐步回归法:将向前回归与向后回归结合起来

11、。每向模型引入一个新变量,均要考察原来在模型中的自变量是否还有统计意义,是否可以被剔除。较合理。u移除法:建立回归模型前设立条件,根据条件删除自变量。10.4 引入虚拟变量进行回归(一)虚拟变量u以上所列回归分析,其因变量和自变量都为定距变量或定比变量,即数量型的变量;u而在社会科学的研究中,会大量地涉及到名义型的变量即定类变量。如性别、职业、学历等;u对于定类变量,可以引入虚拟变量来进行回归分析。u虚拟变量都是虚拟变量都是0、1变量,变量,1代表属于该类别,即代表属于该类别,即“是是”;0代代表不属于该类别,即表不属于该类别,即“否否”。u0、1变量的均值含义为属于该类别的样本占总样本的比例

12、,变量的均值含义为属于该类别的样本占总样本的比例,因此可以进行回归。因此可以进行回归。(二)建立虚拟变量u当定类变量有k个类型时,需设置k-1个虚拟变量。u剩下的1个为参照类。u当k-1个虚拟变量都取值为0时,该样本就属于参照类。例:将数据“社团.sav”中的sex、grade转换为虚拟变量。原变量编码值代表的类别虚拟变量的赋值sex=1男(参照类)sex=2女xusex=1,else=0grade=1本科新生(参照类)grade=2其他高年级本科生xugrade1=1,else=0grade=3硕士研究生xugrade2=1,else=0grade=4博士研究生xugrade3=1,else

13、=0(二)建立虚拟变量u用recode命令建立新的虚拟变量。(二)建立虚拟变量转换后,增加了转换后,增加了4个虚拟变量个虚拟变量(三)引入虚拟变量进行回归分析以参加社团活动的时间为因变量,以新建的四个虚拟变量为自变量,进行回归分析。设想的回归方程为:time=b0+b1 xusex+b2 xugrade1+b3 xugrade2+b4 xugrade3四个虚拟变四个虚拟变量全部纳入量全部纳入回归方程回归方程调整的确定系数调整的确定系数R2:四个虚拟变量共:四个虚拟变量共同解释了同解释了93.9%的的因变量变化。因变量变化。对回归模型的显著性检验说明:对回归模型的显著性检验说明:回归方程的参数在

14、总总体水平上回归方程的参数在总总体水平上是显著的,即有足够的把握认为是显著的,即有足够的把握认为总体的回归斜率不为总体的回归斜率不为0。建立回归方程:建立回归方程:Time=23.87-1.63xusex-1.96xugrade1-17.35xugrade2-18.77xugrade3自变量的回归系数自变量的回归系数p值小于值小于0.05,说明该自变量的,说明该自变量的回归系数在统计上是显著的,回归系数在统计上是显著的,即有足够的把握认为即有足够的把握认为b不为不为0。所有自变量的所有自变量的p值均小于值均小于0.05,因此没有剔除自变,因此没有剔除自变量,全部纳入回归方程。量,全部纳入回归方

15、程。回归方程的含义:回归方程的含义:Time=23.87-1.63xusex-1.96xugrade1-17.35xugrade2-18.77xugrade3u就性别而言,男生是参照类就性别而言,男生是参照类女生比男生每周参加社团活动的时间少女生比男生每周参加社团活动的时间少1.63小时;小时;u就年级而言,大一新生是参照类就年级而言,大一新生是参照类其他高年级本科生比大一新生每周参加社团活动的时间少其他高年级本科生比大一新生每周参加社团活动的时间少1.96小时;小时;硕士研究生比大一新生少硕士研究生比大一新生少17.35小时;小时;博士研究生比大一新生少博士研究生比大一新生少18.77小时。小时。本章练习u1、针对数据“千人成本.sav”建立回归方程,分析电视机拥有率对千人成本的影响。u2、针对数据“人均食品支出.sav”建立回归方程,分析影响人均食品支出的主要因素。u3、针对数据“公司改革.sav”建立回归方程,分析影响公司改革进度的主要因素。

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服