1、第六章第六章 相关与回归分析相关与回归分析 第一节第一节 相关分析相关分析 第二节第二节 一元线性回归分析一元线性回归分析第一节第一节 相关分析相关分析一、相关关系的概念和种类一、相关关系的概念和种类二、相关分析二、相关分析一、相关关系的概念和种类一、相关关系的概念和种类一、函数关系与相关关系一、函数关系与相关关系(一一)函数关系函数关系1.定义定义当一个或几个变量取一定的值时,当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,另一个变量有确定值与之相对应,我们称这种关系为确定性的函数我们称这种关系为确定性的函数关系。关系。1.定义:定义:当一个或几个相互联系的变量当一个或几个相互联
2、系的变量取一定数值时,与之相对应的另一变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在的值虽然不确定,但它仍按某种规律在一定的范围内变化。变量间的这种关系一定的范围内变化。变量间的这种关系称为具有不确定性的相关关系。称为具有不确定性的相关关系。现象之间客观存在的不严格、不确现象之间客观存在的不严格、不确定的数量依存关系。定的数量依存关系。(二)相关关系(二)相关关系2.相关关系特点相关关系特点(1)变量间关系不能用函数关系精确表达;)变量间关系不能用函数关系精确表达;(2)一一个个变变量量的的取取值值不不能能由由另另一一个个变变量量唯唯一一确确定定;当当变变量量 x 取
3、取某某个个值值的的时时候候,变变量量 y 的的取取值值可能有几个;可能有几个;(3)各观测点()各观测点(x,y)分布在某条线的周围。)分布在某条线的周围。x xy y 相关关系的例子相关关系的例子商品的消费量商品的消费量(y)与居民收入与居民收入(x)之间的关系之间的关系商品的消费量商品的消费量(y)与物价与物价(x)之间的关系之间的关系商品销售额商品销售额(y)与广告费支出与广告费支出(x)之间的关系之间的关系粮粮食食亩亩产产量量(y)与与施施肥肥量量(x1)、降降雨雨量量(x2)、温温度度(x3)之间的关系之间的关系收入水平收入水平(y)与受教育程度与受教育程度(x)之间的关系之间的关系
4、3.相关关系举例相关关系举例二、相关关系的种类二、相关关系的种类相关关系相关关系按相关程度分类按相关程度分类按相关方向分类按相关方向分类按相关形式分类按相关形式分类按所研究变量多少分类按所研究变量多少分类(1)完全相关:当一种现象的数量变化完全由)完全相关:当一种现象的数量变化完全由另一种现象的数量变化所确定时,称这两种另一种现象的数量变化所确定时,称这两种现象间的关系为完全相关。现象间的关系为完全相关。(2)不相关:当两种现象互不影响,其数量变)不相关:当两种现象互不影响,其数量变化各自独立时,称为不相关现象。化各自独立时,称为不相关现象。(3)两种现象之间的关系介于完全相关和不相)两种现象
5、之间的关系介于完全相关和不相关之间,称为不完全相关。关之间,称为不完全相关。1.按相关的程度可划分为按相关的程度可划分为:完全相关,不完全相关和不相关完全相关,不完全相关和不相关(1)当两种相关现象之间的关系大致呈现为线)当两种相关现象之间的关系大致呈现为线性关系时,称之为线性相关。性关系时,称之为线性相关。(2)当两种相关现象之间的关系不表现为直线)当两种相关现象之间的关系不表现为直线关系,而是近似于某种曲线方程的关系,则关系,而是近似于某种曲线方程的关系,则这种相关关系称为非线性相关。这种相关关系称为非线性相关。2.按相关的形式可划分为按相关的形式可划分为:线性相关,非线性相关线性相关,非
6、线性相关(1)正相关:两个相关现象间,当一个变量的)正相关:两个相关现象间,当一个变量的数值增加(或减少)时,另一个变量的数值也数值增加(或减少)时,另一个变量的数值也随之增加(或减少),即同方向变化。随之增加(或减少),即同方向变化。例如收入与消费的关系。例如收入与消费的关系。(2)负相关:当一个变量的数值增加(或减少)负相关:当一个变量的数值增加(或减少)时,而另一个变量的数值相反地呈减少(或增时,而另一个变量的数值相反地呈减少(或增加)趋势变化,即反方向变化。加)趋势变化,即反方向变化。例如物价与消费的关系。例如物价与消费的关系。3.按相关的方向可划分为按相关的方向可划分为:正相关,负相
7、关正相关,负相关(1)当只研究两个变量时,它们之间的相关,)当只研究两个变量时,它们之间的相关,称为单相关。称为单相关。(2)当所研究的是一个变量对两个或两个以)当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。上其他变量的相关关系时,称为复相关。例如,某种商品的需求与其价格水平以及收入水平之例如,某种商品的需求与其价格水平以及收入水平之间的相关关系便是一种复相关。间的相关关系便是一种复相关。4.按相关关系涉及的变量多少可划分为按相关关系涉及的变量多少可划分为:单相关,复相关单相关,复相关相关关系的图示 不相关不相关不相关不相关不相关不相关 负线性相关负线性相关负线性相关负
8、线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关正线性相关正线性相关正线性相关 非线性相关非线性相关非线性相关非线性相关非线性相关非线性相关 完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关 (1)确定现象之间有无相关关系,以及相)确定现象之间有无相关关系,以及相关关系的表现形态。关关系的表现形态。(2 2)确定相关关系的密切程度。)确定相关关系的密切程度。(3 3)确定相关关系的数学表达式,即回归)确定相关关系的数学表达式,即回归方程方程(4 4)确定估计值的误
9、差。)确定估计值的误差。之间相关密切程度与相关方向的一种统计分析方法。之间相关密切程度与相关方向的一种统计分析方法。是研究一个变量(设为是研究一个变量(设为y y)与其它变量)与其它变量相关分析:相关分析:二、相关分析二、相关分析主主要要内内容容包包括括定性分析定性分析是依据研究者的理论知识和实践经是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关验,对客观现象之间是否存在相关关系,以及关系,以及何种何种关系作出判断。关系作出判断。定量分析定量分析在定性分析的基础上,通过编制在定性分析的基础上,通过编制相相关表关表、绘制、绘制相关图相关图、计算、计算相关系数相关系数等方法,来判断现象
10、之间相关的方等方法,来判断现象之间相关的方向、形态及密切程度。向、形态及密切程度。相关关系的判断相关关系的判断(一)相关表(一)相关表相关表是一种反映变量之间相关关系的统相关表是一种反映变量之间相关关系的统计表。计表。将自变量将自变量x的数值按照从小到大的顺序的数值按照从小到大的顺序排排列列,然后再将与其相关的然后再将与其相关的因变量因变量y的的对应对应数值数值平行排列,便可形成简单的相关表平行排列,便可形成简单的相关表。例:为了研究分析某种产品完成量与其单位产品成本例:为了研究分析某种产品完成量与其单位产品成本之间的关系,调查之间的关系,调查30个同类公司得到的原始数据如表。个同类公司得到的
11、原始数据如表。整理后有整理后有(二)相关图(二)相关图相关图也称散点图,是在平面直角坐标系相关图也称散点图,是在平面直角坐标系中,以横轴表示变量中,以横轴表示变量 x,纵轴表示变量,纵轴表示变量y,将两者对应的数值形成的坐标点,将两者对应的数值形成的坐标点(x,y)在图中标出,即可看出变量之间)在图中标出,即可看出变量之间关系密切程度。如下图关系密切程度。如下图(销售收入与广告费相关图)(销售收入与广告费相关图)销售收入与广告费相关图销售收入与广告费相关图(三)相关系数及其计算(三)相关系数及其计算1.相关系数相关系数早在早在1890年,英国统计学家皮尔生(年,英国统计学家皮尔生(Pearso
12、n)便提出了一个测定两个变量线性关系的计算公便提出了一个测定两个变量线性关系的计算公式,通常称为积距相关系数。式,通常称为积距相关系数。计算公式:计算公式:式中:分子是两个变量式中:分子是两个变量x和和y的协方差;分母是两的协方差;分母是两个变量的标准差。个变量的标准差。2.相关关系的测度相关关系的测度(相关系数)(相关系数)v 样本相关系数的计算公式样本相关系数的计算公式或化简为或化简为计算相关系数计算相关系数的的“积差法积差法”例例1.某企业某企业10名工人的工龄和年工资资料如下:名工人的工龄和年工资资料如下:职工编号职工编号职工编号职工编号1 2 3 4 5 6 7 8 9 101 2
13、3 4 5 6 7 8 9 10工龄工龄工龄工龄X(X(年年年年)4 4 5 6 7 8 8 9 9 104 4 5 6 7 8 8 9 9 10工资工资工资工资Y Y(百元)(百元)(百元)(百元)42 46 50 60 64 68 74 72 80 8442 46 50 60 64 68 74 72 80 84要求:计算相关系数,已知条件如下要求:计算相关系数,已知条件如下例例2.某企业某企业200名工人的工龄和年工资资料如下,名工人的工龄和年工资资料如下,计算两者的相关系数,已知条件如下:计算两者的相关系数,已知条件如下:表表1 我国人均国民收入与人均消费金额数据我国人均国民收入与人均消
14、费金额数据 单位单位:元元年份年份人均人均国民收入国民收入人均人均消费金额消费金额年份年份人均人均国民收入国民收入人均人均消费金额消费金额1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148【例例例例】在在在在研研研研究究究究我我我我国国国国人人人人均均均均消消消消费费费费水水水水平平平平的的的的问问问问题题题题
15、中中中中,把把把把全全全全国国国国人人人人均均均均消消消消费费费费额额额额记记记记为为为为y y,把把把把人人人人均均均均国国国国民民民民收收收收入入入入记记记记为为为为x x。收收收收集集集集到到到到1981198119931993年年年年的样本数据的样本数据的样本数据的样本数据(x xi i ,y yi i),i i=1,2,=1,2,,1313,计算相关系数。,计算相关系数。,计算相关系数。,计算相关系数。v解:解:根据样本相关系数的计算公式有根据样本相关系数的计算公式有 v人人均均国国民民收收入入与与人人均均消消费费金金额额之之间间的的相相关关系系 数为数为 0.99873.相关系数取
16、值及其意义相关系数取值及其意义(1)r 的取值范围是的取值范围是-1,1(2)|r|=1,为完全相关为完全相关r=1,为完全正相关,为完全正相关r=-1,为完全负正相关,为完全负正相关(3)r=0,不存在不存在线性相关线性相关关系关系(4)-1 r0,为负相关;为负相关;0r 1,为正相关为正相关(5)|r|越越趋趋于于1表表示示关关系系越越密密切切;|r|越越趋趋于于0表表示示关系越不密切关系越不密切4.相关程度评价标准相关程度评价标准vv0|r|0.30.3为微弱相关微弱相关vv0.3|r|0.50.5为低度相关低度相关vv0.5|r|0.80.8为显著相关著相关vv0.8t0.025(5
17、-2)=3.1824,所以拒绝,所以拒绝H0,接,接受受H1,即说明居民人均收入与,即说明居民人均收入与商品销售额商品销售额之间的相之间的相关关系显著。关关系显著。求一元线性回归方程,解释回归系数的意义求一元线性回归方程,解释回归系数的意义 的含义是人均收入每增加1元,商品销售额平均增加约0.6万元。计算判定系数,并解释其意义计算判定系数,并解释其意义 r2(0.9507)20.9038 说明在商品销售额的总变差中有说明在商品销售额的总变差中有90.38可以可以由人均收入与商品销售额之间的线性关系来由人均收入与商品销售额之间的线性关系来解释,或者说,在商品销售额取值的变动中,解释,或者说,在商
18、品销售额取值的变动中,有有90.38%是由人均收入所决定的。说明二者是由人均收入所决定的。说明二者之间有较强的线性关系。之间有较强的线性关系。计算估计标准误差计算估计标准误差 说明根据说明根据人均收入人均收入预测预测商品销售额商品销售额时,平均时,平均的预测误差为的预测误差为1.3871.387百万元百万元。检验回归系数的显著性检验回归系数的显著性(=0.05)1)1)提出假设提出假设H0:b b1=0 人均收入与商品销售额之间无人均收入与商品销售额之间无线性关系线性关系H1:b b1 0 人均收入与商品销售额之间有人均收入与商品销售额之间有线性关系线性关系2)2)计算检验的统计量计算检验的统
19、计量3)t=4.4789t0.025(5-2)=3.1824,拒绝,拒绝H0,接受,接受H1,表明表明人均收入与商品销售额之间有线性关系人均收入与商品销售额之间有线性关系估计人均收入为估计人均收入为40百元时商品销售额百元时商品销售额95%的置的置信区间和预测区间信区间和预测区间t(5-2)t0.025(3)=3.1824置信区间:置信区间:人均收入为人均收入为4000元时商品销售额元时商品销售额平均值平均值95%的的置信区间为置信区间为区间为区间为17112337万元。万元。预测区间:预测区间:人均收入为人均收入为4000元的年份商品销售额元的年份商品销售额95的预测区间为的预测区间为142
20、22626万元。万元。练习题:以下为练习题:以下为10家商店销售额和利润率的资家商店销售额和利润率的资料料编号编号每人月平均销售额每人月平均销售额(千元千元千元千元)利润率利润率(%)12345678910658147633712.610.418.538.116.312.36.26.616.8要求根据上述资料要求根据上述资料 计算两变量的相关系数,并进行显著性检验计算两变量的相关系数,并进行显著性检验(=0.05)求出估计的一元线性回归方程,并解释回归求出估计的一元线性回归方程,并解释回归系数的意义系数的意义 计算判定系数,并解释其意义计算判定系数,并解释其意义 计算估计标准误差计算估计标准误差 检验回归系数的显著性检验回归系数的显著性(=0.05)估计月平均每人销售额为估计月平均每人销售额为5000元时利润率元时利润率95%的置信区间和预测区间的置信区间和预测区间