资源描述
相关分析和回归分析
目的:散点图可以初步分析过程中的变量A与B有关(正相关、负相关、无关),但我们更希望能够量化出这种相关性的程度,相关分析会给出答案;更进一步,如果在一定范围内,对于给定变量A的值能够预测变量B的值,那将是更有用途的,回归分析将会解决这个问题。
手段:相关分析;回归分析;
一、相关系数
:诸的偏差与诸的偏差的乘积和;
:诸的偏差平方和;
:诸的偏差平方和。
的取值范围:();
的取值意义: (1),表示点都在一条直线上,两个变量完全线性相关;
(2) ,表示负相关。
越靠近 ,各点越靠近直线,线性关系越明显;
越靠近,各点越远离直线,呈现非常分散的状况;
(3) ,表示正相关。
越靠近,各点越靠近直线,线性关系越明显;
越靠近,各点越远离直线,呈现非常分散的状况;
结论:肯定地说,总体相关系数为,的值很小的时候,与无线性相关关系 ;
,,与有相关关系;,,与有相关关系。
二、一元回归模型
假定与有直线关系,构造如下结构式子:
,
1.回归系数的最小二乘估计
最小二乘估计法求得:
回归直线总是经过:(, )和(,)这两点。
2.回归方程的显著性检验
(1)求相关系数。对于给定的显著性水平,当的绝对值大于临界值,认为两个变量间存在线性关系;
(2)方差分析法。
总偏差平方和(总波动):;
回归平方和(回归效应):;
残差平方和(随即误差):;
平方和分解式:;
自由度分解式:,,(自变量个数),; 计算比: ;
对于给定的显著水平,当,认为回归方程是有意义的。
3.利用回归方程作预测
预测值的估计值: ,要求,为事先给定的一个比较小的数(),称为的概率为的置信区间,其中,其中 。
当较大,分布可以用正态分布来近似,且当与相差不大时:
4.残差分析——证实模型假定(residuals,残差)
残差:在处的残差是因变量的观测值()与因变量的估计值()之差,即
模型假定:;的方差全相同;的值相互独立;服从正态概率分布;
通过分析残插图来证实回归模型假定(所有散点随机落在以0为中心的水平带中间):
(1)按观测顺序的残差图(Residuals Versus the Order of the Data)
(2)关于因变量的预测值的残差图(Residuals Versus the Fitted Values)
(3)残差的正态性检验(Normal Probability Plot of the Residuals,正态概率图;Histogram of the Residuals,直方图)
(4)关于自变量的的残差图
结论:(1)证明;(2)(4)证明的方差全相同(图形不允许有“喇叭口”)
三、多元回归模型
(与多元回归相似,略)
展开阅读全文