1、2024/6/25 周二概率论与数理统计1第第9章章 方差分析及回归分析方差分析及回归分析 n9.1 一元方差分析一元方差分析n9.2 一元线性回归一元线性回归n9.3 一元线性回归中的假设检验和预测一元线性回归中的假设检验和预测 2024/6/25 周二概率论与数理统计2第第9章章 方差分析及回归分析方差分析及回归分析n在科学实验和生产实践中,影响一些事物的因素往往在科学实验和生产实践中,影响一些事物的因素往往很多很多。在众多影响因素中,有的影响较大,有的影响。在众多影响因素中,有的影响较大,有的影响较小。为了解决这类问题,一般需要做两步工作。第较小。为了解决这类问题,一般需要做两步工作。第
2、一步是设计一个实验,使得这个实验一方面能很好地一步是设计一个实验,使得这个实验一方面能很好地反映我们所感兴趣的因素的作用,另一方面实验的次反映我们所感兴趣的因素的作用,另一方面实验的次数要尽可能地少,尽可能地节约人力、物力和时间。数要尽可能地少,尽可能地节约人力、物力和时间。其次是如何充分地利用实验结果的信息,对我们所关其次是如何充分地利用实验结果的信息,对我们所关心的事物心的事物(因素的影响因素的影响)作出合理的推断。方差分析和作出合理的推断。方差分析和回归分析都是数理统计中具有广泛应用的内容,本章回归分析都是数理统计中具有广泛应用的内容,本章介绍的是最基本的内容。介绍的是最基本的内容。20
3、24/6/25 周二概率论与数理统计39.1 一元方差分析一元方差分析n一一项项试试验验中中,若若只只有有一一个个因因素素在在改改变变,称称为为单单因因素素试试验;多于一个因素在改变的试验称为多因素试验。验;多于一个因素在改变的试验称为多因素试验。n因因素素(即即影影响响试试验验指指标标的的条条件件)可可分分为为两两类类:一一类类是是可可控控因因素素,如如温温度度、比比例例、浓浓度度等等;一一类类是是不不可可控控因因素素,如如测测量量误误差差、气气象象条条件件等等。这这里里所所说说的的因因素素是是可可控控因因素,且称因素所处的不同状态为该因素的不同水平。素,且称因素所处的不同状态为该因素的不同
4、水平。2024/6/25 周二概率论与数理统计49.1 一元方差分析一元方差分析n例例 为了比较四种不同肥料对某农作物产量的影响,选为了比较四种不同肥料对某农作物产量的影响,选用一块肥沃程度和水利灌溉比较均匀的土地,将其分用一块肥沃程度和水利灌溉比较均匀的土地,将其分成成16小块,如下表所示小块,如下表所示(按下表划分土地是为了尽可能按下表划分土地是为了尽可能减少土地原有肥沃程度及灌溉条件差异的影响,只分减少土地原有肥沃程度及灌溉条件差异的影响,只分析肥料这个因素对产量的影响析肥料这个因素对产量的影响)。n 表表9.1 9.1 A1A2A3A4A2A3A4A1A3A4A1A2A4A1A2A32
5、024/6/25 周二概率论与数理统计59.1 一元方差分析一元方差分析n在表在表9.1中,中,表示在一小块土地上施第表示在一小块土地上施第i i种肥料。显然种肥料。显然施每种肥料的各有四小块土地,所得产量由表施每种肥料的各有四小块土地,所得产量由表9.2给出。给出。问施肥对该作物的产量有无显著影响,若影响显著,问施肥对该作物的产量有无显著影响,若影响显著,施哪种肥料为好?施哪种肥料为好?n 表表9.2 9.2 肥料种类(Ai)收获量(xi)平均收获量()A19896919695.25A26069503553.50A37964817073.50A49070798881.752024/6/25
6、周二概率论与数理统计69.1 一元方差分析一元方差分析n例例1是一个单因素试验,这个因素就是肥料,不同的肥是一个单因素试验,这个因素就是肥料,不同的肥料料A1,A2,A3,A4就是这个因素的就是这个因素的4个水平。在因素的个水平。在因素的每一水平下进行独立试验,所得数据如表每一水平下进行独立试验,所得数据如表9.2所示。可所示。可以看出,虽然所施肥料相同,其他生产条件也一样,以看出,虽然所施肥料相同,其他生产条件也一样,但相同面积土地的收获量是不相等的。这说明产量也但相同面积土地的收获量是不相等的。这说明产量也是一个随机变量。从表是一个随机变量。从表9.2右边所示的平均收获量又可右边所示的平均
7、收获量又可以看出,施不同的肥料对收获量是有影响的。现在判以看出,施不同的肥料对收获量是有影响的。现在判断肥料对作物产量的影响问题,就是要辨别收获量之断肥料对作物产量的影响问题,就是要辨别收获量之间的差异主要是由抽样误差造成的还是由肥料的影响间的差异主要是由抽样误差造成的还是由肥料的影响造成的。造成的。2024/6/25 周二概率论与数理统计79.1 一元方差分析一元方差分析n表表9.2中的数据可看成来自中的数据可看成来自4个不同的总体个不同的总体(每一个水平每一个水平对应一个总体对应一个总体)的容量为的容量为4的样本值。我们假设各总体的样本值。我们假设各总体均为正态变量,即均为正态变量,即 分
8、别服从分别服从 ,。是从总体是从总体 中抽得的简单随机样本中抽得的简单随机样本 按题意,即要检验假设按题意,即要检验假设 。故故这这是是一一个个检检验验方方差差相相等等的的多多个个正正态态总总体体均均值值是是否否相相等等的的问问题题。方方差差分分析析法法就就是是解解决决这这类类问问题题的的一一种种统统计计方法。方法。2024/6/25 周二概率论与数理统计89.1 一元方差分析一元方差分析n下面来推导更一般的问题。下面来推导更一般的问题。n设有设有r r个正态总体个正态总体 ,这里假定这里假定r r个个总体的方差相等,都为总体的方差相等,都为 ,做假设,做假设 n现独立地从各总体上取出一个样本
9、,现独立地从各总体上取出一个样本,用用r r个样本检验上个样本检验上述假设是否成立。述假设是否成立。采采用用直直观观的的离离差差分分解解的的方方法法来来处处理理上上述述问问题题。将将每每个个样样本看成一组,则本看成一组,则组内平均组内平均 2024/6/25 周二概率论与数理统计99.1 一元方差分析一元方差分析n总平均总平均n总离差平方和为总离差平方和为 称为离差分解。称为离差分解。n下面通过比较下面通过比较 和和 的数值来检验假设的数值来检验假设 。2024/6/25 周二概率论与数理统计109.1 一元方差分析一元方差分析n可可以以证证明明,在在假假设设 成成立立时时,和和 相相互互独独
10、立立且且服服从从分布分布 和和 。n由由F F分布定义知分布定义知n所以所以 2024/6/25 周二概率论与数理统计119.1 一元方差分析一元方差分析n为方便计算为方便计算F的数值,常用下面的方差分析表来计算,的数值,常用下面的方差分析表来计算,见表见表9.3。方差来源平 方 和自由度均 方F值因素的影响(组间)误 差(组内)总和2024/6/25 周二概率论与数理统计129.2 一元线性回归一元线性回归 n一般来讲,客观世界中存在的变量之间的关系可分为一般来讲,客观世界中存在的变量之间的关系可分为两大类,一类是变量之间为确定关系,另一类是非确两大类,一类是变量之间为确定关系,另一类是非确
11、定关系。确定关系指变量之间的关系可用函数关系表定关系。确定关系指变量之间的关系可用函数关系表示。自变量取确定值时,因变量也随之确定。如示。自变量取确定值时,因变量也随之确定。如 ,这是在高等数学中所研究的函数关系。而,这是在高等数学中所研究的函数关系。而另一类非确定关系即所谓的相关关系,具有统计规律另一类非确定关系即所谓的相关关系,具有统计规律性。下面举一些例子来说明。性。下面举一些例子来说明。2024/6/25 周二概率论与数理统计139.2 一元线性回归一元线性回归n(1)人人的的身身高高X X与与Y Y体体重重之之间间存存在在一一定定的的变变量量关关系系。一一般般来来说说人人高高一些,体
12、重也重一些。但同样高度的人,体重往往不一定相同。一些,体重也重一些。但同样高度的人,体重往往不一定相同。n(2)人人们们的的收收入入水水平平X X与与消消费费水水平平Y Y之之间间也也有有一一定定的的关关系系。人人们们的的收收入入水水平平X X越越高高,相相应应的的消消费费水水平平Y Y也也越越高高,但但收收入入水水平平相相同同的的人人消费水平却不一定相同。消费水平却不一定相同。n(3)人人的的血血压压X X与与年年龄龄Y Y之之间间也也存存在在着着这这种种关关系系,一一般般年年龄龄大大的的人人血压也高,然而相同年龄的人血压往往各不相同。血压也高,然而相同年龄的人血压往往各不相同。n(4)化工
13、产品的产量化工产品的产量Y Y与温度与温度 、压力、压力 及催化剂及催化剂 有关,但有关,但即使上述即使上述 、相同,产量相同,产量Y Y也不一定相同。也不一定相同。2024/6/25 周二概率论与数理统计149.2 一元线性回归一元线性回归n上面这些例子中,当自变量上面这些例子中,当自变量X X取确定值时,因变量取确定值时,因变量Y Y的的值是不确定的。我们称变量间的这种非确定关系为相值是不确定的。我们称变量间的这种非确定关系为相关关系。回归分析是研究相关关系的一种数学工具,关关系。回归分析是研究相关关系的一种数学工具,它能帮助我们从一个变量取得的值去估计另一个变量它能帮助我们从一个变量取得
14、的值去估计另一个变量所取得的值。把只有一个自变量的回归分析称为一元所取得的值。把只有一个自变量的回归分析称为一元回归,多于一个自变量的回归分析称为多元回归。本回归,多于一个自变量的回归分析称为多元回归。本节只介绍一元回归。节只介绍一元回归。2024/6/25 周二概率论与数理统计159.2.1 一元线性回归方程的概念一元线性回归方程的概念 n设随机变量设随机变量Y Y与普通变量与普通变量X X之间存在某种相关关系:对之间存在某种相关关系:对X X的每一确定值,的每一确定值,Y Y都有自己的分布。都有自己的分布。n设设n其中,其中,a a,b b及及 都是不依赖于都是不依赖于X X的未知参数,称
15、上式为的未知参数,称上式为一元线性回归模型。一元线性回归模型。2024/6/25 周二概率论与数理统计169.2.1 一元线性回归方程的概念一元线性回归方程的概念n在直角坐标系中,画出坐标为在直角坐标系中,画出坐标为()的的n n个点,这种图称为散点个点,这种图称为散点图。若图。若n n很大时,散点图中的很大时,散点图中的n n个点大致在一条直线附近,其形式个点大致在一条直线附近,其形式为为 若由上面样本得到若由上面样本得到a,b的估计的估计 则对给定的则对给定的x,用用 作为作为 的估计,方程的估计,方程 称为称为y y对对x x的线性回归方程或回归方程。的线性回归方程或回归方程。2024/
16、6/25 周二概率论与数理统计179.2.2 对对a,ba,b的估计的估计 n对对x x的的n n个不同的取值个不同的取值 做独立试验做独立试验,做独立试验做独立试验,得样本得样本 。下面用最小。下面用最小二乘法求二乘法求a,ba,b的估计值。的估计值。n选选择择a,b使使Q达达到到最最小小,故故Q需需对对分分别别a,b求求偏偏导导,并并令令偏导等于零。即偏导等于零。即n 2024/6/25 周二概率论与数理统计189.2.2 对对a,ba,b的估计的估计n解解此此以以a,ba,b为为未未知知数数的的方方程程组组,即即得得a,ba,b的的估估计计值值分分别别为为n于是所求线性回归方程为于是所求
17、线性回归方程为2024/6/25 周二概率论与数理统计199.2.3 的估计的估计n由于由于 ,而,而 可用可用 做估计,做估计,又因为又因为n其中其中a,b可用可用 代替,故代替,故 有有 的估计量如下的估计量如下n将将 代入得代入得n 2024/6/25 周二概率论与数理统计209.3 一元线性回归中的假设检一元线性回归中的假设检验和预测验和预测 n9.3.1 线性假设的显著性检验线性假设的显著性检验n在在第第九九章章第第二二节节中中假假定定一一元元线线性性回回归归模模型型具具有有以以下下的的形式形式n其其中中a,ba,b是是未未知知参参数数,。一一般般来来说说,求求得得的的线线性性回回归
18、归方方程程是是否否具具有有实实用用价价值值,需需经经过过假假设设检检。即即b b不不应应为为零零,因因为为若若b b=0=0,则则y y就就不不依依赖赖x x了了。因因此此我我们们需需要要检验假设检验假设2024/6/25 周二概率论与数理统计219.3.1 线性假设的显著性检验线性假设的显著性检验 可以证明可以证明 当当 为真时为真时b=0 ,故故 给定显著水平给定显著水平 ,查表确定,查表确定 ,抽样后计算,抽样后计算T T值值若若 ,则拒绝,则拒绝 ,认为回归效果显著;,认为回归效果显著;若若 ,则接受,则接受 ,认为回归效果不显著。,认为回归效果不显著。2024/6/25 周二概率论与
19、数理统计229.3.2 预测预测 n回归方程的一个重要应用是,对于给定的点回归方程的一个重要应用是,对于给定的点 可以用一定的置信度预测对应的可以用一定的置信度预测对应的Y Y 的观察值的取值范围,的观察值的取值范围,即预测区间。即预测区间。设设 是是 处随机变量处随机变量Y的观察值,则有的观察值,则有 取取 处的回归值处的回归值 作为作为 的预测值,还可以证明的预测值,还可以证明2024/6/25 周二概率论与数理统计239.3.2 预测预测n且且n由由T分布定义知分布定义知n对给定的置信度对给定的置信度 ,有,有2024/6/25 周二概率论与数理统计249.3.2 预测预测 故得的故得的 置信度为置信度为 预测区间预测区间(置信区间置信区间)为为 其中,其中,于是在处,置信下限为于是在处,置信下限为n 2024/6/25 周二概率论与数理统计259.3.2 预测预测n置信上限为置信上限为n当当x x变化时这两条曲线形成包含回归直线变化时这两条曲线形成包含回归直线n的的带带域域。当当 时时,带带域域最最窄窄,估估计计最最精精确确。x x离离 其均值越远其均值越远,带域越宽,估计精确性越差。带域越宽,估计精确性越差。