收藏 分销(赏)

第5章-回归分析.ppt

上传人:精**** 文档编号:1792020 上传时间:2024-05-09 格式:PPT 页数:185 大小:3.21MB
下载 相关 举报
第5章-回归分析.ppt_第1页
第1页 / 共185页
第5章-回归分析.ppt_第2页
第2页 / 共185页
第5章-回归分析.ppt_第3页
第3页 / 共185页
第5章-回归分析.ppt_第4页
第4页 / 共185页
第5章-回归分析.ppt_第5页
第5页 / 共185页
点击查看更多>>
资源描述

1、1 第五章 相关和回归分析n第一节 相关的意义和种类 n第二节 相关图表和相关系数 n第三节 一元线性回归分析 n第四节 多元线性回归分析 n第五节 非线性回归分析1.2 相相关关和和回回归归分分析析是是研研究究事事物物的的相相互互关关系系,测测定定它它们们联联系系的的紧紧密密程程度度,揭揭示示其其变变化化的的具具体体形形式式和和规规律律性性的的统统计计方方法法,是是构构造造各各种种经经济济模模型型、进进行行结结构构分分析析、政政策策评评价价、预测和控制的重要工具。预测和控制的重要工具。2.3 本章学习目的n1.理解相关的意义、主要形式、以及相关分析的基本内容。n2.掌握相关系数的设计原理,以

2、及相关关系显著性检验。n3.回归和相关的区别和联系 n4.普通最小二乘法的原理以及回归参数的意义。n5.估计标准误差的分析等。3.4 第一节 相关的意义和种类 一、问题的提出一、问题的提出 二、相关关系的概念二、相关关系的概念 三、相关关系的种类三、相关关系的种类 四、相关关系的主要内容四、相关关系的主要内容 4.5 一、问题的提出相关5.6 6.7 7.8 一、相关关系的概念一、相关关系的概念客观现象之间的数量联系存在着两种不同的类型:函数关系和相关关系 函数关系函数关系:即当一个(或一组)变量每取一个值时,相应的另一个变量必然有一个确定值一个确定值与之对应。n 8.9(函数关系)(1)是一

3、一对应的确定关系(2)设有两个变量 x 和 y,变量 y 随变量 x 一起变化,并完全依赖于 x,当变量 x 取某个数值时,y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y=f(x),其中 x 称为自变量,y 称为因变量(3)各观测点落在一条线上 x xy y9.10 自变量与因变量自变量与因变量 如果变量之间有因果关系,那么原因变量就叫作自变量自变量,而受自变量影响的变量就称因变量因变量。自变量通常发生在因变量之前。(不是所有先发生的变量都是自变量)一般自变量记为X,因变量记为Y。10.11【例】【例】某某种种商商品品的的销销售售额额(y)与与销销售售量量(x)之之间间的的关关

4、系系可可表表示为示为 y=p x(p 为单价为单价)圆的面积圆的面积(S)与半径之间的关系可表示为与半径之间的关系可表示为S=R2 企企业业的的原原材材料料消消耗耗额额(y)与与产产量量(x1)、单单位位产产量量消消耗耗(x2)、原材料价格、原材料价格(x3)之间的关系可表示为之间的关系可表示为y=x1 x2 x3 11.12 停下来 想一想?在下面的几对变量中,哪一个是自变量哪一个是因变量?1.产品产量与总成本。2.销售税的总量与商品总成本。3.电影院里爆米花的销售率与垃圾袋的使用率。4.发电量与热天的天数。12.13 相关关系(相关关系(correlation analysiscorrel

5、ation analysis):相关关系:变量之间存在有依存关系,但这种关系是不完全确定的随机关系随机关系,即当一个(或一组)变量每取一个值时,相应的另一个变量可能有多个不同值与之对应。13.14 因果关系因果关系相关关系相关关系互为因果关系互为因果关系共变关系共变关系随机性依存关系随机性依存关系确定性依存关系确定性依存关系函数关系变量之变量之 间关系间关系14.15 相关关系(1)变量间关系不能用函数关系精确表达;(2)一个变量的取值不能由另一个变量唯一确定;(3)当变量 x 取某个值时,变量 y 的取值可能有几个;(4)各观测点分布在曲线周围。x xy y15.16【例】【例】商品的消费量

6、商品的消费量(y)与居民收入与居民收入(x)之间的关系之间的关系 商品销售额商品销售额(y)与广告费支出与广告费支出(x)之间的关系之间的关系 粮食亩产量粮食亩产量(y)与施肥量与施肥量(x1)、降雨量、降雨量(x2)、温度、温度(x3)之之间的关系间的关系 收入水平收入水平(y)与受教育程度与受教育程度(x)之间的关系之间的关系 父母亲身高父母亲身高(y)与子女身高与子女身高(x)之间的关系之间的关系 身高与体重的关系身高与体重的关系 16.17 停下来 想一想?下列变量之间存在相关关系吗?1 抽烟与肺癌之间的关系 2 怀孕期妇女的饮酒量与婴儿出生体重之间的关系 3 纳税者年龄和他们交纳税款

7、的数量之间的关系 4 采光量与植物的生产量之间的关系 5 一个人的投票倾向性与其年龄之间的关系 17.18 p相关关系与函数关系的关系相关关系与函数关系的关系:在一定的条件下互相转化在一定的条件下互相转化.具有函数关系的变量具有函数关系的变量,当当存在观测误差和随机因素影存在观测误差和随机因素影响时响时,其函数关系往往以相关的形式表现出来其函数关系往往以相关的形式表现出来.具有相关关系的变量之间的联系具有相关关系的变量之间的联系,如果我们对它们有如果我们对它们有了深刻的规律性认识了深刻的规律性认识,并且能够把影响因变量变动的因素并且能够把影响因变量变动的因素全部纳入方程全部纳入方程,这时相关关

8、系也可转化为函数关系这时相关关系也可转化为函数关系.相关关系也具有某种变动规律相关关系也具有某种变动规律,所以所以,相关关系也经相关关系也经常可以用一定的函数形式去近似地描述常可以用一定的函数形式去近似地描述.18.19 二、相关关系的种类1.按相关的程度分:完全相关完全相关不完全相关不完全相关 不相关不相关(或零相关或零相关)例:完全相关完全相关:在价格P不变的情况下,销售收入Y与销售量X 的关系;不相关不相关:股票价格的高低与气温的高低是不相关的;19.20 2.按相关的方向分:正相关正相关负相关负相关正相关:两个变量之间的变化方向一致,都是增长趋正相关:两个变量之间的变化方向一致,都是增

9、长趋 势或下降趋势。势或下降趋势。例例:收入与消费的关系收入与消费的关系;工人的工资随劳动生产率的提高而提高。工人的工资随劳动生产率的提高而提高。负相关:两个变量变化趋势相反,一个下降而另一负相关:两个变量变化趋势相反,一个下降而另一 个上升,或一个上升而另一个下降。个上升,或一个上升而另一个下降。例例:物价与消费的关系物价与消费的关系;商品流转的规模愈大商品流转的规模愈大,流通费用水平则越低。流通费用水平则越低。20.21 3.按相关的形式分:线性相关线性相关非线性相关非线性相关线性相关(直线相关):当一个变量每变动一个单位时,线性相关(直线相关):当一个变量每变动一个单位时,另一个变量按一

10、个大致固定的增另一个变量按一个大致固定的增(减减)量变动。量变动。例例:人均消费水平与人均收入水平人均消费水平与人均收入水平非线性相关(曲线相关):当一个变量变动时,非线性相关(曲线相关):当一个变量变动时,另一另一 个变量也相应发生变动,但这种变动是不均等的。个变量也相应发生变动,但这种变动是不均等的。例例:产品的平均成本与总产量产品的平均成本与总产量;农产量与施肥量农产量与施肥量.21.22 4.按相关的影响因素多少分:单相关单相关复相关复相关偏相关偏相关 单相关单相关(一元相关一元相关):只有一个自变量。:只有一个自变量。复相关复相关(多元相关多元相关):有两个及两个以上的自变量。:有两

11、个及两个以上的自变量。如如:居民的收入与储蓄额;成本与产量如如:某种商品的需求与其价格水平以及收入水平 之间的相关关系便是一种复相关。22.23 偏相关偏相关:在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。如:在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关。23.24 真实相关真实相关虚假相关虚假相关真实相关是现象的内在联系所决定.虚假相关:如某人曾观察过某一国家历年的国内生产总值与精神病患者人数的关系,呈相当高的正相关.24.25 讨论下面的关系是因果关系还是伪关系?讨论下面的关系是因果关系还是伪关系?讨论下面的

12、关系是因果关系还是伪关系?讨论下面的关系是因果关系还是伪关系?1.冰淇淋的销量与儿童出事故次数之间 2.街上警察数量与犯罪数量之间 3.历史上,妇女裙子的长度与经济的好坏有关系:裙子越短,经济越景气。4.鹳的数量与丹麦乡间婴儿出生率的关系25.26 不相关不相关不相关不相关不相关不相关 负线性相关负线性相关负线性相关负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关正线性相关正线性相关正线性相关 非线性相关非线性相关非线性相关非线性相关非线性相关非线性相关 完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关

13、完全正线性相关完全正线性相关完全正线性相关 图示26.27 三、相关分析的主要内容n根据研究目的,搜集有关资料 n编制相关图表 n计算相关系数 n建立回归方程 n进行统计检验27.28 第二节 相关图表和相关系数n一、相关表和相关图 n二、简单相关系数28.29 相关分析相关分析:就是用一个指标来表明现象就是用一个指标来表明现象间相互依存关系的密切程度。广义的相间相互依存关系的密切程度。广义的相关分析包括相关关系的分析(狭义的相关分析包括相关关系的分析(狭义的相关分析)和回归分析。关分析)和回归分析。29.30 定性分析定性分析是依据研究者的理论知识和实践经是依据研究者的理论知识和实践经验,对

14、客观现象之间验,对客观现象之间是否存在相关是否存在相关关系,以及何种关系关系,以及何种关系作出判断。作出判断。定量分析定量分析在定性分析的基础上,通过编制相在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方等方法,来判断现象之间相关的方向、形态及密切程度。向、形态及密切程度。相关关系的判断相关关系的判断30.31 一、相关表和相关图 相关表和相关图是研究相关关系的直观工具,在进行详细的定量分析之前,可以先利用它们对现象之间存在的相关关系的方向、形式、和密切程度作大致的判断。31.n简单相关表:简单相关表:将自变量x的数值按照

15、从小到大的顺序,并配合因变量y的数值一一对应而平行排列的表。消费支出消费支出 y15203040425360657870可支配收可支配收入入x18254560627588929899居民消费和收入的相关表居民消费和收入的相关表单位:百元单位:百元32.33 相关图相关图:又称散点图。将x置于横轴上,y置于纵轴上,将(x,y)绘于坐标图上。用来反映两变量之间相关关系的图形。33.34 例例 :国家教育部决定将各高校的后勤社会化。国家教育部决定将各高校的后勤社会化。某从事饮食业的企业家认为这是一个很好某从事饮食业的企业家认为这是一个很好的投资机会,他得到十组高校人数与周边的投资机会,他得到十组高校

16、人数与周边饭店的季销售额的数据资料,并想根据高饭店的季销售额的数据资料,并想根据高校的数据决策其投资规模。校的数据决策其投资规模。34.35 二、简单相关系数n(一)简单相关系数的概念(一)简单相关系数的概念 是度量两个变量两个变量之间线性线性相关密切程度密切程度和相关方向的统计指标。包括简单相关系数、复相关系数、偏相关系数、曲线相关系数(相关指数).n简单相关系数又称皮尔逊(1890年,英国)相关系数,或积矩相关系数或动差相关系数。n若相关系数是根据总体全部数据计算的,称为总体 相关系数,记为 .n n若是根据样本数据计算的,则称为样本相关系数,记为 r.样本相关系数是总体相关系数的一致估计

17、量.35.36 n 样本简单相关系数的计算公式(积差法积差法)(二)简单相关系数的计算公式(二)简单相关系数的计算公式式中:(1)1.用计算器计算协方差Sxy 36.37(1)式可化简为如下公式:或:或:37.38 n用计算机计算 n选取“工具”-“数据分析”n选“相关系数”n选“确定”n输入“输入区域”n输入“输出区域”n在“分组方式”中选“逐列”n选“标志位于第一行”n确定 n出现结果如下:38.39 1.r 的取值范围是-1,1|r|=1,为完全相关 r=1,为完全正相关 r=-1,为完全负相关 2.r=0,不存在线性相关线性相关线性相关线性相关关系 3.-1r0,为负相关 4.0t(1

18、0-2)=2.306,拒绝H0,总体人均消费支出与人均可支配收入之间的线性相关关系显著.例:例:48.n为了简化检验的过程,有人根据t统计量和r的关系,编成相关系数临界值表,相关系数的显著性检验可直接查表进行。n检验方法:对于给定的显著性水平 若IrI r (n-2),变量x与y之间有显著显著的线性相关关系。若IrI r (n-2),变量x与y之间不存在线性相关关系。n 前例中:r=0.9878 r0.05(10-2)=0.632 ,所以所以总体人均总体人均 消费支出与人均可支配收入之间的线性相关关系显著。消费支出与人均可支配收入之间的线性相关关系显著。49.50 相关系数检验表的使用 1.若

19、IrI大于表上的=5%相应的值,小于表上1%相应的值,称变量x与y之间有显显著著的线性关系 2.若IrI大于表上=1%相应的值,称变量x与y之间有十分显著十分显著的线性关系 3.若IrI小于表上=5%相应的值,称变量x与y之间没有明显明显的线性关系 4.根据前例的r0.9987=5%(n-2)=0.553,表明人均消费金额与人均国民收入之间有十分显著的线性相关关系50.51 第三节 一元线性回归分析n一、回归分析概念 n二、回归分析的种类 n三、一元线性回归分析 51.2008-1-4 52 回归方程一词是怎么来的 52.53 一、回归分析的概念 是指对具有相关关系的现象,根据其是指对具有相关

20、关系的现象,根据其相关关系的具体形态,选择一个合适的数相关关系的具体形态,选择一个合适的数学模型(称为回归方程式),用来近似地学模型(称为回归方程式),用来近似地表达变量间的平均变化关系的一种统计分表达变量间的平均变化关系的一种统计分析方法。析方法。53.54 二、回归分析的内容p从一组样本数据出发,确定变量之间的数学关系式。p对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著。p利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。54.55 n回归分析和相关分析的区别 1.相关分析

21、中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化.2.相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x则作为研究时给定的非随机变量。3.4.相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制 55.56 相关分析与回归分析的联系n相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归

22、分析则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。简单说:1.相关分析是回归分析的基础和前提;2.回归分析是相关分析的深入和继续。56.57 三、回归分析的种类1.按自变量的个数分:一元回归一元回归多元回归多元回归2.按回归方程的形式分:线性回归线性回归非线性回归非线性回归本章主要介绍一元线性回归。57.例5.1 合金的强度y(107Pa)与合金中碳的含量x(%)有关。为研究两个变量间的关系。首先是收集数据,我们把收集到的数据记为(xi,yi),i=1,2,n。本例中,我们收集到12组数据,列于表5.1中 58.表5.

23、1 合金钢强度y与碳含量x的数据 序号x(%)y(107Pa)序号x(%)y(107Pa)10.1042.070.1649.020.1143.080.1753.030.1245.090.1850.040.1345.0100.2055.050.1445.0110.2155.060.1547.5120.2360.059.为找出两个量间存在的回归函数的形式,可以画一张图:把每一对数(xi,yi)看成直角坐标系中的一个点,在图上画出n个点,称这张图为散点图,见图5.1 60.从散点图我们发现12个点基本在一条直线附近,这说明两个变量之间有一个线性相关关系,这个相关关系可以表示为 y=0+1x+(5.1

24、)这便是y关于x的一元线性回归的数据结构式。通常假定 E()=0,Var()=2 (5.2)在对未知参数作区间估计或假设检验时,还需要假定误差服从正态分布,即 y N(0+1x,2)(5.3)显然,假定(5.3)比(5.2)要强。61.由于 0,1均未知,需要我们从收集到的数据(xi,yi),i=1,2,n,出发进行估计。在收集数据时,我们一般要求观察独立地进行,即假定y1,y2,yn,相互独立。综合上述诸项假定,我们可以给出最简单、常用的一元线性回归的数学模型:62.由数据(xi,yi),i=1,2,n,可以获得0,1的估计 ,称为y关于x的经验回归函数,简称为回归方程,其图形称为回归直线。

25、给定x=x0后,称 为回归值(在不同场合也称其为拟合值、预测值)。63.4.1一元线性回归方法1.一般形式一元回归模型的一般形式记为:并设观察值为y,则:,是未知的待定系数,称其为回归系数 64.2.模型分析:假设 ,即是相互独立的rv,则随机变量假设有一组试验数据并假设其中是相互独立的随机变量,且若用分别表示的估计值,则称为y关于x的一元线性回归方程65.下面我们要研究的问题是(2)如何检验回归方程的可信度?解决第一个问题采用最小二乘估计解决第二个问题采用统计检验的方法(1)如何根据来求的估计值?66.随机误差的平方和达到最小4.1.2 参数的最小二乘估计最小二乘法估计,即取的估计值使若记为

26、使 与 的拟合最佳,则显然,且关于可微,67.则由多元函数存在极值的必要条件得:此方程为正规方程组,求解可得到:称 为 的最小二乘估计,其中即68.69.的性质:(1)(2)(3)三者相互独立(4)(5)70.4.1.3 回归方程的显著性检验 前面是根据回归方程 求出了估计值 ,现在的问题是:y与x之间是否存在这种关系?即回归方程是否一定有意义?即当x变化时,y是否为这就需要对回归方程作出显著性检验,实际上,只要统计量。从而有一常数,也就是说这里 是否为0?检验 是否为真,这就需要建立一个检验的71.之间的差异回归变量x的变化所引起的误差,它的大小反映了x的重要程度。先考虑总偏差平方和 ,表示

27、其中 是残差平方和,表示由随即误差和其它未加控制的因素所引起的误差,是回归平方和,表示由72.事实上,由正规方程组知73.由于每一个平方和都有一个自由度(free)(即相互独立的不受约束随机变量的个数),用 表示则总偏差平方和的自由度回归平方和的自由度残差平方和的自由度可以证明74.在 的假设下,给定一个模型的显著性水平通过查表得到F分布的值,记为,若是显著的,反之是不显著的。则表明 是小概率事件确实算出 ,说明 不成立,说明 必不可少。换言之,模型对水平 而言75.4.1.4 回归方程的拟合检验通过对回归方程的显著性检验,在显著的情况,即说明x对y的影响是显著的但不能肯定y与x的关系一定是线

28、性的,也可能还存在其他的影响因素。为此,就需要在同一个xi下进行重复试验,检验回归方程的拟合问题。假设对同一个 ,进行 次试验,得到观测数据 ,76.即,共有 组独立观测数据检验是否为真。为建立统计量,考虑相应的残差平方和其中为第 i 组试验数据的平均值 77.这有两种可能:y不是x的线性关系。回归变量的个数不够,需要增加新的变量,究竟属于哪一种需要找出原因作进一步的改进。若 ,模型拟合是好的,其它因素所产生的误差不明显,不显著。若 ,模型拟合不好,说明其它因素所产生的误差超过了试验误差,是显著的,需要进一步改进模型78.4.2 多元线性回归方法4.2.1多元线性回归模型(4.2)(4.3)令

29、其中 为随机误差,均为实际问题的解释变量,是已知函数。假设作了n次试验得到n组观测值为:79.代入(4.3)中可得(4.4)(其中 为第i次试验时随机误差)该模型关于回归系数 是线性的,u为一般向量,若用矩阵形式,(4.4)变为:80.即 其中X是模型设计矩阵,Y与 是随机向量且 ,(I为n阶单位阵)是不可观测的随机误差向量,是回归系数构成的向量,是未知、待定的常数向量。81.4.2.2 回归系数 的最小二乘估计选取 的一个估计值 使随机误差 的平方和达到最小82.由上式(正规方程组)记系数矩阵 ,常数矩阵 是非负二次式,是可微的,由多元函数取得极值的必要条件可得:如果 存在,称其为相关矩阵8

30、3.1.可以证明:对任意给定的X,Y,正规方程组总有解,虽然当X不满秩时,其解不唯一,但对任意一组解 都能是残差平方和最小,即3.性质2.当X满秩时,即则正规方程组的解为 ,即为回归系数的估计值84.4.2.3 回归分析模型的显著性检验主要是检验模型是否一定与解释变量有密切的关系类似一元情形,考虑总变差平方和总变差平方和 SST=总变差平方和总变差平方和 SSR+残差平方和残差平方和 SSE85.86 离差平方和的分解(三个平方和的意义)p总平方和总平方和(SST)反映因变量的 n 个观察值与其均值的总离差。p回归平方和回归平方和(SSR)反映自变量 x 的变化对因变量 y 取值变化的影响,或

31、者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和。p残差平方和残差平方和(SSE)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和。86.回归分析表来源平方和自由度均方和F值回归平方和m-1残差平方和n-m总平方和n-1,回归与响应关系越密切定义:负相关系数87.对于给定显著水平,模型显著则拒绝 成立,即 与u存在明显的函数关系;当 ,模型不显著,是成立的,即 与u不存在明显的函数关系。88.4.2.4 回归模型的拟合性检验 在在模模型型的的检检验验显显著著的的情情况况下下,需需要要进进一一步步地地做做拟拟合合性性检检验验,目

32、的是检验是否一定为(4.2)所给的形式,即是否还存在其他的影响因素没有考虑到。将回归变量u的n个观测值 按相同值分为k组,每组个数为 ,显然 ;相应 也可以分为k组,即第i组观测值为89.为建立统计量,考虑相应的残差平方和其中为第 i 组试验数据的平均值 90.当 ,说明模型拟合比较好,是不显著的,省略所造成误差不大。当 ,模型拟合不好,是显著的,省略所造成的误差影响不可忽略,需要增加新的变量。这有两种可能:y不是x的线性关系。回归变量的个数不够,需要增加新的变量,究竟属于哪一种需要找出原因作进一步的改进。91.4.3 回归模型的选择方法由上面拟合性检验结果:引入新的解释变量从模型中去掉 模型

33、拟合性检验是显著的,即未考虑到的因素的影响不可忽略。模型拟合性检验是不显著的,即模型中的解释变量已经足够了,但是并不足说明模型中所有的变量都是必须的,有可能有多余的变量。92.p引入,去掉都涉及到模型的选择 模型选择的基本原则:即不遗漏一个重要的解释变量,但也不把一个无用的解释变量保留在模型中。用偏回归平方和的大小来衡量一个解释变量在模型中的重要性。假设给定一组解释变量,它的残差平方和为:93.4.3.1 去掉解释变量假设把一个无用的解释变量去掉(不妨去掉 ,即 )相应的计算 ,如果则称:为解释变量 的偏回归平方和,其大小反映了 在模型中的贡献的大小,即是衡量一个解释变量的重要性的定量指标,其

34、大小决定了能否去掉这个解释变量。94.4.3.2 增加解释变量 设引进 ,记为 在试验观测点的值为:m个变量的回归系数的估计值取为:相应的残差平方和为:95.而可以证明:的偏回归平方和为96.4.4 回归模型的正交设计法由前面几节知:多元线性回归有两个基本缺点:一是计算复杂,其复杂程度随着自变量个数的增加而迅速增加。二是由于回归系数之间存在相关性,当剔除某个自变量后,还必须重新计算回归系数。多元线性回归的两个基本缺点是由于系数矩阵A不是对角阵造成的,因此如何使A为对角矩阵是问题的关键所在。97.98.4.4.1 正交的概念设 是m个解释变量,如果对于 满足1)对角线上的元素不为02)除对角线上

35、都为0则称 是正交的99.p如何构造正交函数系呢?通常情况下,正交函数都为正交多项式,首先对于一维回归变量u来说明构造正交多项式的方法。设有点列 ,取 ,其中其中100.由此可以构造出任意阶的正交多项式我们可以得到正交回归101.且第k个解释变量的偏回归平方和为:所以残差平方和为:102.4.5 多重线性与有偏估计我们先引进评价一个估计优劣的标准均方误差(MSE)(Mean Squared Errors)设Q未知参数向量,为 的一个估计,定义 的均方误差为它度量了估计 与未知参数向量 平均偏离的大小,故一个好的估计应该有较小的均方误差。定理1.这里trA表示方阵A的迹,即A的对角元素和103.

36、由于最小二乘估计 为无偏估计,在均方差中,第二项值为0,又因为由于 是对称正定阵,于是存在mxm正交阵使 对角化,即这里 为 的特征值记 ,则 分别为对应于的标准正交化特征向量,所以容易验证104.故从这里可以看出 为 的特征值,再利用 ,以及得所以105.为病态方程。从这个表达式中我们可以看出,如果 至少有一个特征根非常小,即非常接近于零 那么 就会很大,这时,从均方误差的标准来看,这时的最小二乘估计 就不是一个好的估计,并且称正规方程组当 很大时,此时m个解释变量之间具有多重共线性,即也就是说设计矩阵X的列向量之间有近似的线性关系,但非绝对的线性关系。106.衡量多重共线性程度量用来表示1

37、)k100时,则不存在多重共线性2)100k1000时,则存在较强的多重共线性3)当k1000时,则存在严重的多重共线性107.4.5.2 回归系数的有偏估计从上面讨论我们知道,当设计矩阵存在复共线关系时,最小二乘估计的性质不理想,有时甚至很坏。在这种情况下我们就需要些新的估计方法,近三十年来,人们提出了许多种新估计,其中在理论上最有影响并且得到广泛应用的就是岭估计。回归系数的岭估计定义为:108.这里k0是可选择参数,称为岭参数或偏参数,当k取不同值时,我们就得到不同的估计,因此岭估计 是一个估计量。主成份估计的方法:1)做正交变换Z=XP,获得新的自变量,称为主成份2)做回归自变量选择,剔

38、除对应的特征值比较小的那些主成份3)将剩余的主成份对Y做最小二乘回归,再返回到原来的参数,使得到因变量到原始自变量的主成份回归109.本章例题:(1)问题研究学者,得到如下数据(i为学者序号)(见表8.1)。某类研究学者的年薪工薪阶层关心年薪与哪些因素有关,以此可制定出它们自己的奋斗目标。某科学基金会希望估计从事某研究的学者的年薪Y与他们的研究成果(论文、著作等)的质量指标X1、从事研究工作的时间X2、能成功获得资助的指标X3之间的关系,为此按一定的实验设计方法调查了24位110.i123456789101112xi13.55.35.15.84.26.06.85.53.17.24.54.9xi

39、29201833311325305472511xi36.16.47.46.77.55.96.04.05.88.35.06.4yi33.240.338.746.841.437.539.040.730.152.938.231.8i131415161718192021222324xi18.06.56.63.76.27.04.04.55.95.64.83.9xi223353921740352333273415xi37.67.05.04.45.57.06.03.54.94.38.05.8yi43.344.142.533.634.248.038.035.940.436.845.235.1表4.1 从事某种

40、研究的学者的相关指标数据111.试建立Y与X1,X2,X3之间关系的数学模型,并得出有关结论和作统计分析。(2)作出因变量Y与各自变量的样本散点图作散点图的目的主要是观察因变量Y与各自变量间是否有比较好的线性关系,以便选择恰当的数学模型形式。图4.1分别为年薪Y与成果质量指标x1、研究工作时间x2、获得资助的指标x3之间的散点图,从图4.1可以看出这些点大致分布在一条直线旁边,因此,有比较好的线性关系,可以采用线性回归。112.Y与x1的散点图Y与x2的散点图Y与x3的散点图图8.1 因变量Y与各自变量的样本散点图113.(3)利用Matlab统计工具得到初步的回归方程设回归方程为:建立m-文

41、件输入如下程序数据:x1=3.5 5.3 5.1 5.8 4.2 6.0 6.8 5.5 3.1 7.2 4.5 4.9 8.0 6.5 6.5 3.7 6.2 7.0 4.0 4.5 5.9 5.6 4.8 3.9;x2=9 20 18 33 31 13 25 30 5 47 25 11 23 35 39 21 7 40 35 23 35 39 21 7 40 35 23 33 27 34 15;114.x3=6.1 6.4 7.4 6.7 7.5 5.9 6.0 4.0 5.8 8.3 5.0 6.4 7.6 7.0 5.0 4.0 5.5 7.0 6.0 3.5 4.9 4.3 8.0

42、5.0;Y=33.2 40.3 38.7 46.8 41.4 37.5 39.0 40.7 30.1 52.9 38.2 31.8 43.3 44.1 42.5 33.6 34.2 48.0 38.0 35.9 40.4 36.8 45.2 35.1;n=24;m=3;X=ones(n,1),x1,x2,x3 ;b,bint,r,rint,s=regress(Y,X,0.05);b,bint,r,rint,s,115.运行后即得到结果如表4.2所示。表4.2 对初步回归模型的计算结果回归系数回归系数的估计值回归系数的置信区间018.015713.9052 22.126211.08170.390

43、0 1.773320.32120.2440 0.398431.28350.6691 1.8979R2=0.9106 F=67.9195 p0.0001 s2=3.0719116.计算结果包括回归系数m-1)计算。因此我们得到初步的回归方程为:统计变量stats,它包含四个检验统计量;相关系且置信区间均不包含零点;残差及置信区间;p,的值7.0以前版本 也可由程序sum(r.2)/(n-数的平方 ,假设检验统计量F,与F对应的概率117.由结果对模型的判断表明线性相关性较强。有较强的线性相关性。本例中R的绝对值为0.9542,值在0.81范围内,可判断回归自变量与因变量具相关系数R的评价:一般地

44、,相关系数绝对验统计量R、F、p的值判断该模型是否可用。残差在零点附近也表示模型较好,接着就是利用检回归系数置信区间不包含零点表示模型较好,F检验法:当 ,即认为因变118.查F分布表或输入命令finv(0.95,3,20)计算。系;否则认为因变量y与自变量 之间线量y与自变量 之间显著地有线性相关关性相关关系不显著。本例p值检验:若 (为预订显著水平),线性相关关系。本例输出结果,显然满则说明因变量y与自变量 之间显著地有足 。119.以上三种统计推断方法推断的结果是一致的,(4)模型的精细分析和改进在模型改进时作为参考。说明因变量y与自变量之间显著地有线性相关关系,所得线性回归模型可用。当

45、然越小越好,这主要残差分析。残差 ,是各种观测值 与回归方程所对应得到的拟合值之差,实际上,它是线性回归模型中误差 的估计值。即有零均值和常值方差,利用残差的120.这种特性反过来考察模型的合理性就是残差分析的基本思想。利用Matlab进行残差分析则是通过残差自变量的高次项及交叉项等问题给出直观的检验。差的等方差性以及回归函数中是否包含其他自变量、观察残差图,可以对奇异点进行分析,还可以对误变量的观测值;c.横坐标为因变量的拟合值。通过坐标为观测时间或观测值序号;b.横坐标为某个自其他指定的量为横坐标的散点图。主要包括:a.横图或时序残差图。残差图是指以残差为纵坐标,以121.以观测值序号为横

46、坐标,残差为纵坐标所得到模型为如果作为奇异点看待,去掉后重新拟合,则得回归第4、12、19这三个样本点的残差偏离原点较远,差大多分布在零的附近,因此还是比较好的,不过语句为rcoplot(r,rint)(见图4.2)。可以清楚看到残的散点图称为时序残差图,画出时序残差图的Matlab122.图8.2 时序残差图123.且回归系数的置信区间更小,均不包含原点,统计得到改进。115.5586,0.0000,比较可知R,F均增加,模型变量stats包含的三个检验统计量:相关系数的平方 ,假设检验统计量F,概率P,分别为0.9533,变量间的交互作用讨论。变量间的交互作用包括:不同自变量之间的交互作用

47、以及同一变量的自相关性。a.不同自变量之间的交互作用。有时,在实验124.中不仅单因素对指标有影响,而且因素间还会联合项则为:入这两个自变量的乘积项。本文案例如果加入交互用。处理两个因素间交互作用的一个简单办法是加起来对指标产生影响,常称这种联合作用为交互作用表8.2的数据,利用Matlab统计工具箱得到回归系数分别为:27.0727,1.1147,-0.0215,-0.1843,0.0033,-0.0054,0.0511。但它们的置125.信区间均包含原点,其他指标也不理想,因此,本b.自相关性的诊断和处理。若数据以时间为序,去意义。自相关的诊断主要有图示检验法、相关系的回归模型直接处理,将

48、产生不良后果,使预测失一旦数据中存在这种自相关序列,如果仍采用普通量的顺序观测值之间出现的相关现象称为自相关。则称为时间序列数据。在时间序列数据中,同一变型好。例中其交互作用并不显著,该模型不如前面两个模数法和DW检验法。图示检验法是通过绘制残差126.编程计算统计量:负的序列相关。对DW检验法可以利用Matlab软件关;如果大部分点落在第,象限,表明存在着部分点落在第,象限,表明存在着正的序列相散点图观察,如果散布点 大然后查阅DW检验上下界表,以决定模型的自相关状态。127.当一个回归模型存在序列相关性时,首先要查明序内容可参见相关概率统计参考文献。关性,则需要采用差分法、迭代法等处理,更

49、详细则应增加自变量;如果以上方法都不能消除序列相应该用适当的回归模型;如果是缺少重要的自变量,列相关产生的原因。如果是回归模型选用不当,则128.129(三三)回归方程的显著性检验回归方程的显著性检验1.回归模型检验的种类回归模型检验的种类 回归模型的检验包括理论意义检验、一级检验和二级检验。理论意义理论意义:检验主要涉及参数估计值的符号和取值区间.如食品支出的恩格尔函数中,b的取值区间应在0-1之间;129.130 一级检验一级检验又称统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体又可分为拟合程度评价和显著性检验.一级检验对所有的现象进行回归分析时都必须通过的检验.二

50、级检验二级检验又称经济计量学检验,它是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验序列相关检验,异方差性检验异方差性检验等.130.131 2.显著性检验包括两方面的内容显著性检验包括两方面的内容:(1)对整个回归方程的显著性检验-F检验 回归方程的显著性检验即对自变量和因变量之间线性关系整体上是否显著进行检验。(2)对回归系数的显著性检验:-t检验131.132 (1)对整个回归方程的显著性检验 -即拟合程度的评价即拟合程度的评价 所谓拟合程度,是指样本观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度优劣最常用的数量尺度是样样本本可可决决系系数数(又又称称

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服