1、1回顾-一元一次线性回归步骤:1.观察散点图2.判断是什么关系;3.回归参数计算;4.判断系数;5.显著性检验(注意H0)6.失拟合检验(注意需要的条件)指标评价相关系数,判断系数回归公式显著性检验H0假设的含义;方差分析表;F(1,n-2)失拟合检验条件?F(m-2,n-m)2回归分析内容一元线性步骤:1.观察散点图,2.判断是什么关系,3.回归,4.判断系数;5。显著性检查(注意H0),6.失拟合检验(注意需要的条件)一元非线性带虚拟变量多元线性多元非线性和逐步回归Logistic回归3炼钢厂出钢水时用的钢包,在使用过程中由于钢水炼钢厂出钢水时用的钢包,在使用过程中由于钢水及炉渣对耐火材料
2、的浸蚀,其容积不断增大。现在钢及炉渣对耐火材料的浸蚀,其容积不断增大。现在钢包的容积用盛满钢水时的重量包的容积用盛满钢水时的重量y(kg)表示,相应的试表示,相应的试验次数用验次数用x表示。数据见表,要找出表示。数据见表,要找出y与与x的定量关系的定量关系表达式。表达式。一次非线性回归一次非线性回归4钢包的重量钢包的重量y与试验次数与试验次数x数据数据序号序号xy序号序号xy12106.42811110.5923108.20914110.6034109.581015110.9045109.501116110.7657110.001218111.0068109.931319111.2071011
3、0.49下面我们分三步进行。5确定可能的函数形式确定可能的函数形式为对数据进行分析,首先描出数据为对数据进行分析,首先描出数据的散点图,判断两个变量之间可的散点图,判断两个变量之间可能的函数关系,图是本例的散点能的函数关系,图是本例的散点图。图。观测这观测这13个点构成的散点图,我个点构成的散点图,我们可以看到它们并不接近一条直们可以看到它们并不接近一条直线,用曲线拟合这些点应该是更线,用曲线拟合这些点应该是更恰当的,这里就涉及如何选择曲恰当的,这里就涉及如何选择曲线函数形式的问题。线函数形式的问题。6首先,如果可由专业知识确定回归函数形式,则应首先,如果可由专业知识确定回归函数形式,则应尽可
4、能利用专业知识。当若不能有专业知识加以确尽可能利用专业知识。当若不能有专业知识加以确定函数形式,则可将散点图与一些常见的函数关系定函数形式,则可将散点图与一些常见的函数关系的图形进行比较,选择几个可能的函数形式,然后的图形进行比较,选择几个可能的函数形式,然后使用统计方法在这些函数形式之间进行比较,最后使用统计方法在这些函数形式之间进行比较,最后确定合适的曲线回归方程。为此,必须了解常见的确定合适的曲线回归方程。为此,必须了解常见的曲线函数的图形,。曲线函数的图形,。7本例中,散点图呈现呈现一个明显的向上且上本例中,散点图呈现呈现一个明显的向上且上凸的趋势,可能选择的函数关系有很多,比如,凸的
5、趋势,可能选择的函数关系有很多,比如,我们可以给出如下四个曲线函数:我们可以给出如下四个曲线函数:1)1/y=a+b/x2)y=a+blnx3)4)在初步选出可能的函数关系在初步选出可能的函数关系(即方程即方程)后,我们必后,我们必须解决两个问题:如何估计所选方程中的参数?须解决两个问题:如何估计所选方程中的参数?如何评价所选不同方程的优劣?如何评价所选不同方程的优劣?8对上述非线性函数,参数估计最常用的方法对上述非线性函数,参数估计最常用的方法是是“线性化线性化”方法。方法。以以1/y=a+b/x为例,为了能采用一元线性回归为例,为了能采用一元线性回归分析方法,我们作如下变换分析方法,我们作
6、如下变换u=1/x,v=1/y则曲线函数就化为如下的直线则曲线函数就化为如下的直线v=bu这是理论回归函数。对数据而言,回归方程为这是理论回归函数。对数据而言,回归方程为 vi=a+bui+i于是可用一元线性回归的方法估计出于是可用一元线性回归的方法估计出a,b。9参数估计计算表参数估计计算表10用类似的方法可以得出其它三个曲用类似的方法可以得出其它三个曲线回归方程,它们分别是:线回归方程,它们分别是:11曲线回归方程的比较曲线回归方程的比较我们上面得到了四个曲线回归方程,通常可采用如我们上面得到了四个曲线回归方程,通常可采用如下二个指标进行选择。下二个指标进行选择。(1)决定系数决定系数R2
7、:类似于一元线性回归方程中相关系:类似于一元线性回归方程中相关系数,决定系数定义为:数,决定系数定义为:R2越大,说明残差越小,回归曲线拟合越好越大,说明残差越小,回归曲线拟合越好,R2从从总体上给出一个拟合好坏程度的度量。总体上给出一个拟合好坏程度的度量。12(2)剩余标准差剩余标准差s:类似于一元线性回归中标准差的估计:类似于一元线性回归中标准差的估计公式,此剩余标准差可用残差平方和来获得,即公式,此剩余标准差可用残差平方和来获得,即 s为诸观测点为诸观测点yi与由曲线给出的拟合值与由曲线给出的拟合值间的平均偏离程间的平均偏离程度的度量,度的度量,s越小,方程越好越小,方程越好。13在观测
8、数据给定后,不同的曲线选择不会影响在观测数据给定后,不同的曲线选择不会影响的取值,但会影响到残差平方和的取值,但会影响到残差平方和的取值。因此,对选择的曲线而言,决定系数和剩的取值。因此,对选择的曲线而言,决定系数和剩余标准差都取决于残差平方和余标准差都取决于残差平方和,从,从而,而,两种选择准则是一致的,只是从两个不同侧面两种选择准则是一致的,只是从两个不同侧面作出评价作出评价。14表给出第一个曲线回归方程的残差平方和的计算过程,由于n=13,故其决定系数及剩余标准差分别为:其它三个方程的决定系数及剩余标准差可同样计算,我们将它们列在表中。15 四种曲线回归四种曲线回归决定系数及剩余标准差决
9、定系数及剩余标准差模型编号模型编号(1)(2)(3)(4)R20.97290.87730.78510.9623s0.22850.48640.64370.2696可以看出,第一个曲线方程的决定系数最大,剩余标准差最小,在这四个曲线回归方程中,不论用哪个标准,都是第一个方程拟合得最好。因此,近似得比较好的定量关系式就是16例子17例子 18例子19例子20例子 由于商品零售额增加,流通费用率呈下降趋势,二者之间为负由于商品零售额增加,流通费用率呈下降趋势,二者之间为负相关关系,故相关系数取负值为:相关关系,故相关系数取负值为:0.9898。说明两者高度相关,。说明两者高度相关,用双曲线回归模型配合
10、进行预测是可靠的。用双曲线回归模型配合进行预测是可靠的。21例子22本章小节回归分析和相关分析目的不同在回归分析中,寻找的是变量之间的关系,代表这种关系的方程可能就是所期望的结果,也可能是所期望预测的均值。23 虚拟变量回归预测24虚拟变量回归预测虚拟变量品质变量不像数量变量那样表现为具体的数值。它只能以品质、属性、种类等形式来表现。要在回归模型中引入此类品质变量,必须首先将具有属性性质的品质变量数量化。通常的做法是令某种属性出现对应于1,不出现对应于0。这种以出现为,未出现为形式表现的品质变量,就称为虚拟变量。带虚拟变量的回归模型 常见的带虚拟变量的回归模型有以下二种形式:25虚拟变量回归预测26其中的趋势变化如右图所示其中的趋势变化如右图所示虚拟变量回归预测27虚拟变量回归预测28虚拟变量的回归模型应用举例 例例 某省农业生产资料购买力和农民货币收入统计数据,某省农业生产资料购买力和农民货币收入统计数据,根据上述统计数据,试建立一元线性回归模型和带虚拟变量根据上述统计数据,试建立一元线性回归模型和带虚拟变量的回归模型,并将两模型对比分析的回归模型,并将两模型对比分析 29虚拟变量回归模型的应用举例30虚拟变量回归模型的应用举例