资源描述
单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,一元线性回归,1 变量间关系的度量,2 一元线性回归,3 利用回归方程进展预测,4 案例讨论及软件应用,1 变量间关系的度量,1.1 变量间的关系,1.2 相关关系的描述与测度,1.3 相关系数的显著性检验,1.1 变量间的关系,函数关系,1是确定的关系,2设有两个变量 x 和 y,变量 y 随变量 x 一起变化,并完全依赖于 x,当变量 x 取某个数值时,y 依确定的关系取相应的值,那么称 y 是 x 的函数,记为 y=f(x),其中 x 称为自变量,y 称为因变量,3各观测点落在一条曲线上,x,y,函数关系,(几个例子),函数关系的例子,某种商品的销售额,y,与销售量,x,之间的关系可表示为,y,=,px,(,p,为单价),圆的面积,S,与半径之间的关系可表示为,S,=,R,2,相关关系,(,correlation,),1变量间关系不能用函数关系准确表达,2一个变量的取值不能由另一个变量唯一确定,但当一个或假设干个变量X取一定值时,与之相对应的另一个变量Y的值虽然不确定,但却按某种规律在一定范围内变化。,3当变量 x 取某个值时,变量 y 的取值可能有几个,4各观测点分布在直线或曲线周围,x,y,相关关系,(几个例子),相关关系的例子,父亲身高,y,与子女身高,x,之间的关系,收入水平,y,与受教育程度,x,之间的关系,大气臭氧含量,y,与温度,x,之间的关系,商品销售额,y,与广告费支出,x,之间的关系,等等,相关关系,(类型),散点图,(scatter diagram),不相关,负线性相关,正线性相关,非线性相关,完全负线性相关,完全正线性相关,相关关系的描述与测度,散点图,(例题分析),【例】一家大型商业银行在多个地区设有分行,其业务主要是进展根底设施建立、国家重点工程建立、固定资产投资等工程的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,这给银行业务的开展带来较大压力。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的方法。下面是该银行所属的25家分行2002年的有关业务数据,散点图,(例题分析),散点图,(例题分析),相关关系的描述与测度,相关系数,(correlation coefficient),1对变量之间关系密切程度的度量,2对两个变量之间线性相关程度的度量称为简单相关系数,3假设相关系数是根据总体全部数据计算的,称为总体相关系数,记为,4假设是根据样本数据计算的,那么称为样本相关系数,记为 r,样本相关系数,(计算公式),样本相关系数的计算公式,或化简为,协方差covx,y,VarxVary,相关系数,(取值及其意义),r,的取值范围是-1,1,|,r,|=1,,为完全相关,r,=1,为完全正相关,r,=-1,为完全负正相关,r,=0,,不存在,线性,相关关系,-1,r,0,,为负相关,0,t,拒绝H0,假设t,t,(25-2)=2.069,拒绝,H,0,,不良贷款与贷款余额之间存在着显著的正线性相关关系,相关系数的显著性检验,(例题分析),各相关系数检验的统计量,回归系数的检验,2.在一元线性回归中,等价于线性关系的显著性检验,检验,x,与,y,之间是否具有线性关系,或者说,检验自变量,x,对因变量,y,的影响是否显著,回归系数的检验,(检验步骤),提出假设,H,0,:,1,=0(没有线性关系),H,1,:,1,0(有线性关系),计算检验的统计量,确定显著性水平,并进展决策,tt,拒绝H0;tt=2.201,拒绝H0,说明不良贷款与贷款余额之间有显著的线性关系,回归系数的检验,(例题分析),P,值的应用,P,=0.000000F,拒绝H0;假设FF,拒绝H0,线性关系显著,线性关系的检验,(方差分析表),输出的方差分析表,三种检验的关系,其实,三种检验对于一元线性回归问题来说是等价的,在实际问题处理时,采取一种检验方式即可。,F检验是检验回归方程的显著性,t检验是检验回归系数是否为显著,r检验是检验相关关系是否显著,课堂练习,1、假设X表示在一家分店工作的售货人数,Y表示这家分店的年销售额千元,已经求出Y对X的回归方程的估计结果如下表,预测量,系数,标准差,T值,常数,80,11.333,7.06,X,50,5.482,9.12,离差来源,平方和,自由度,方差,回归,6828.6,1,6828.6,残差,2298.8,28,82.1,总离差,9127.4,29,答复以下几个问题,1、写出估计的回归方程,2、在研究中涉及多少家分店,3、计算F统计量,在0.05显著性水平下检验线性关系的显著性,4、说明各回归系数的含义并预测估计有12名售货员的某分店的年销售收入。,在年销售收入的变差中,有百分之多少的变差可以由销售收入与销售员之间的线性关系来解释?,3,一元线性相关回归分析预测法,概念,一元线性相关回归分析预测法,是根据自变量x和因变量y的相关关系,建立x与y的线性关系式,其关系式中求解参数的方法是统计回归分析法,所以x与y的关系式就称回归方程,一元线性相关回归方程的一般形式为,:,y,t,a,b,x,t,第t期因变量值,回归参数,回归直线的斜率,回归参数,y轴上的截距,第t期自变量值,预测种类,一元相关回归分析预测法,也称简单相关回归分析预测法,是用相关回归分析法对一个自变量与一个因变量之间的相关关系进展分析,建立一元回归方程作为预测模型,对随机现象进展预测的方法,多元相关回归预测法,也称复相关回归分析预测法,是用相关回归分析法对多个自变量与一个因变量之间的相关关系进展分析,建立多元回归方程作为预测模型,对随机现象进展预测的方法,自相关回归分析预测法,是对某一时间序列的因变量序列,与向前推移假设干观察期的一个或多个自变量时间序列进展相关分析,并建立回归方程作为预测模型,对某一随机现象进展预测,这是利用随机现象时间序列对它自身进展预测的方法,步骤,根据预测的目的,选择和确定自变量和因变量,确定回归方程,建立预测模型,对回归模型进展检验,用预测模型计算预测值,并对预测值作区间估计,利用回归方程进展估计和预测,根据自变量 x 的取值估计或预测因变量y 的取值,这是两个不同的问题,当x=x0,寻求E(y0)=0+1x0的点估计与区间估计,注意E(y0)是期望,是常数参数。,当x=x0,y0的值以一定的概率在什么范围内,注意此处y0是随机变量,为此,只能求一个区间,即预测区间。,点估计,对于自变量,x,的一个给定值 ,根据回归方程得到,因变量,y,的一个估计值,,y,的点估计,利用估计的回归方程,对于自变量 x 的一个给定值 x0,求出因变量 y 的的一个估点估计值y0。,在前面的例子中,假设我们要估计贷款余额为100亿元时,所有分行不良贷款点估计。根据估计的回归方程得,区间估计,点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进展区间估计,区间估计有两种情况,其一,求总体条件均值E(Y|X=X0)的置信区间,其二,对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 个值预测值的预测区间,对于一元线性回归模型,给定样本以外的解释变量的观测值X0,可以得到被解释变量的预测估计值0,,可以此作为其条件均值E(Y|X=X0)或个别值Y0的一个近似估计。,注意:,严格地说,0只是被解释变量Y0的预测值的点估计值,而不是预测值。,原因:1参数估计量不确定;,2随机项的影响,一、,f,是条件均值,E(Y|X=X,0,),或个值,Y,0,的一个无偏估计,对,总体回归函数,E(Y|X=X,i,)=,0,+,1,X,i,,X=X,0,时,E(Y|X=X,0,)=,0,+,1,X,0,于是,可见,,0,是条件均值,E(Y|X=X,0,),的无偏估计。,二、总体条件均值与个值预测值的置信区间,1、总体均值预测值的置信区间,由于,所以,因此,有:,故,其中,将未知的 用它的无偏估计量 代替,可构造统计量:,这样,,在,1-,的置信度下,,总体均值,E(Y|X,0,),的置信区间为,:,展开有:,2,、总体个值预测值的预测区间,如果已经知道实际的预测值,那么预测误差为:,于是,:,有:,从而在,1-,的置信度下,当x=x0 时,,Y,0,的置信区间,为,:,置信区间,、,预测区间,、,回归方程,x,p,y,x,x,预测上限,置信上限,预测下限,置信下限,估计标准误差,(standard error of estimate),实际观察值与回归估计值离差平方和的均方根,反映实际观察值在回归直线周围的分散状况,通常情况下,总体标准差是未知的,我们要用样本标准差来代替,对误差项回归残差的标准差的样本估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量,称为回归标准差或者估计标准差。,斜率与截距的估计会给数据加上两个约束条件,因此自由度为n2,计算公式为,预测区间估计,(例题分析),【例】求出贷款余额为100亿元的那个分行,不良贷款95%的预测区间,解:根据前面的计算结果,n=25,,=1.9799,t(25-2)=2.069,预测区间为,贷款余额为100亿元的那个分行,其不良贷款的预测区间在-2.2766亿元到6.1366亿元之间,影响区间宽度的因素,置信水平(1-,),区间宽度随置信水平的增大而增大,数据的样本容量,样本容量越大,预测精度越高,3.用于预测的,x,p,与,x,的差异程度,区间宽度随,x,p,与,x,的差异程度的增大而增大,课堂练习,EX,:,根据某地区10年农民人均收入年纯收入的资料,和该地区相应年份的销售额资料,预测该地区市场销售额。观察期资料见表1,人均收入 销售额,400136,520152,560156,640164,720172,820182,940190,1040202,1160216,1280226,课堂练习,根据表1中x与y观察期十年资料绘制散点图,散点图说明,x与y存在相关关系,且散点根本集中在一条直线上,说明相关程度较高,农民年人均纯收入x与销售额y表现较高程度的直线正相关。可以采用一元线性相关回归分析预测模型,课堂练习,应用最小平方法求回归方程中的参数,建立预测模型,求解a、b值:,那么回归方程为:,99.1210.1x,0.1,99.121,3、对方程进展检验:,课堂练习,利用回归方程作为预测模型进展预测,确定t值:本例中取预测区间置信度为95,即195,50.05,/20.025,n10,查t分布表,t0.025,82.306,计算可得第11期14期各期的预测区间,课堂练习,课堂练习,
展开阅读全文