资源描述
1.1 回归分析的基本思想及其初步应用
1.相关关系是一种非确定性关系,回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,函数关系是一种确定性关系.
2.在线性回归模型y=bx+a+e中,最小二乘法估计和就是未知参数a和b的最好估计,其计算公式如下:
=,=,其中,=i,=i.另外,称为样本点的中心,回归直线一定过样本点中心.
3.衡量模型拟合效果.
(1)残差:对于样本点(x1,y1),(x2,y2),…,(xn,yn)而言,它们的随机误差为ei=yi-bxi-a,i=1,2,3,…,n,其估计值为i=yi-i=yi-xi-,i=1,2,…,n,i称为相应于点(xi,yi)的残差.
(2)残差图:我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号、身高数据或体重估计值等,这样作出的图形称为残差图.
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高.
(3)残差分析:可以通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果.
(4)相关指数:计算公式是R2=.其中残差平方和为 总偏差平方和为R2的值越大说明残差平方和越小,也就是说模型的拟合效果越好,R2的值表示解释变量对预报变量变化的贡献率,R2的值越接近于1,表示回归的效果越好.,
1.下列结论正确的是(C)
①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
A.①② B.①②③ C.①②④ D.①②③④
解析:根据函数关系、相关关系、回归分析的概念可知选C.
2.下列有关回归直线方程=x+的叙述:
①反映与x之间的函数关系;②反映y与x之间的函数关系;③表示与x之间不确定关系;④表示最接近y与x之间真实关系的一条直线.
其中正确的是(D)
A.①② B.②③ C.③④ D.①④
解析:=bx+表示与x之间的函数关系,而不是y与x之间的函数关系,但它反映的关系最接近y与x之间的真实关系.故选D.
3.已知回归方程=2x+1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是(C)
A.0.01 B.0.02
C.0.03 D.0.04
解析:(4.9-5)2+(7.1-7)2+(9.1-9)2=0.03.故选C.
4.有下列数据:
x
1
2
3
y
3
5.99
12.01
下列四个函数中,模拟效果最好的为(A)
A.y=3×2x-1 B.y=log2x
C.y=3x D.y=x2
解析:当x=1,2,3时,分别代入求y值,离y最近的值模拟效果最好,知A模拟效果最好.故选A.
通过实际操作进一步理解建立两相关变量的线性回归模型的思想,求线性回归方程,判断回归模型拟合的好坏.
残差变量的解释与分析及指标R2的理解.
(1)求回归直线方程的一般方法.
①作出散点图,将问题所给的数据在平面直角坐标系中描点,这样表示出的具有相关关系的两个变量的一组数据的图形就是散点图,从散点图中我们可以看出样本点是否呈条状分布,从而判断两个变量是否线性相关.
②求回归系数,,其中
称为残差平方和,残差平方和在一定程度上反映了所选回归模型的拟合效果.残差平方和越小,说明模型的拟合效果越好;残差平方和越大,说明拟合效果越差.
③通过残差分析判断模型拟合效果:先计算出残差i=yi-i=yi-xi-,i=1,2,…,n,然后横坐标选取为样本编号、解释变量或预报变量,纵坐标为残差,作出残差图.通过图形分析,如果样本点的残差较大,就要分析样本数据的采集是否有错误;另一方面,可以通过残差点分布的水平带状区域的宽窄说明模型拟合效果,反映回归方程的预报精度.带状区域的宽度越窄,说明模型的拟合精度越高,回归方程的预报精度越高.
(3)相关指数R2.
①相关指数的计算公式是R2=其中为残差平方和.相关指数用来刻画回归模型拟合的效果,R2的值越大,说明模型的拟合效果越好;R2的值越小,说明拟合效果越差.
②如果某组样本数据可以采取几种不同的回归模型进行回归分析,则可以通过比较R2的值来作出选择,即选择R2值大的模型作为这组数据的回归模型.
③在线性回归模型中R2是刻画回归效果的量,即表示回归模型的拟合效果,也表示解释变量和预报变量的线性相关关系.R2表示解释变量对预报变量变化的贡献率.
1.建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).
(3)由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程).
(4)按一定规则(如最小二乘法)估计回归方程中的参数.
(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.
2.分析两个变量相关关系的常用方法有:
(1)利用散点图进行判断:把样本数据表示的点在平面直角坐标系中作出,从而得到散点图,如果这些点大致分布在通过散点图中心的一条直线附近,那么就说这两个变量之间具有线性相关关系.
(2)利用相关指数R2进行判断.
3.对具有相关关系的两个变量进行统计分析时,首先进行相关性检验,在确认具有线性相关关系后,再求回归直线方程.
对于非线性回归问题,可以转化为线性回归问题去解决.
1.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是(B)
A.总偏差平方和 B.残差平方和
C.回归平方和 D.相关指数R2
2.下列说法正确的有(C)
①回归方程适用于一切样本和总体;②回归方程一般都有时间性;③样本取值的范围会影响回归方程的使用范围;④回归方程得到的预报值是预报变量的精确值.
A.①② B.①③ C.②③ D.③④
解析:①回归方程只适用于我们研究的样本和总体.②我们所建立的回归方程一般都有时间性.③样本取值的范围会影响回归方程的适用范围.④回归方程得到的预报值是预报变量的可能取值的平均值,并非准确值,故②③正确.
3.已知回归直线方程中斜率的估计值为1.23,样本点的中心(4,5),则回归直线方程为(A)
A.=1.23x+0.08 B.=0.08x+1.23
C.=1.23x+4 D.=1.23x+5
解析:回归直线方程过样本点的中心,把点(4,5)代入A项成立.
4.某调查者从调查中获知某公司近年来科研费用支出(xi)万元与公司所获得利润(yi)万元的统计资料如下表:
序号
科研费用支出xi
利润yi
xiyi
x
1
5
31
155
25
2
11
40
440
121
3
4
30
120
16
4
5
34
170
25
5
3
25
75
9
6
2
20
40
4
合计
30
180
1 000
200
则利润(yi)对科研费用支出(xi)的线性回归方程为________.
解析:把表中数据代入公式求解得线性回归方程为=2x+20.
展开阅读全文