收藏 分销(赏)

食品实验分析与设计·第八章-直线回归与相关.ppt

上传人:快乐****生活 文档编号:2046031 上传时间:2024-05-14 格式:PPT 页数:52 大小:1.01MB
下载 相关 举报
食品实验分析与设计·第八章-直线回归与相关.ppt_第1页
第1页 / 共52页
食品实验分析与设计·第八章-直线回归与相关.ppt_第2页
第2页 / 共52页
食品实验分析与设计·第八章-直线回归与相关.ppt_第3页
第3页 / 共52页
食品实验分析与设计·第八章-直线回归与相关.ppt_第4页
第4页 / 共52页
食品实验分析与设计·第八章-直线回归与相关.ppt_第5页
第5页 / 共52页
点击查看更多>>
资源描述

1、第八章第八章 直线回归与相关直线回归与相关 一类是变量间存在着完全确定性的关系,可以用精一类是变量间存在着完全确定性的关系,可以用精确的数学表达式来表示。确的数学表达式来表示。如长方形的面积如长方形的面积(S)与与 长(长(a)和)和 宽(宽(b)S=ab。它们之间的关系是确定性的,只要知道了其中两个变它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为量间的关系称为函数关系函数关系。变变 量量 间间 的的 关关 系系 另一类是另一类是 变变 量量 间不存在完全的确定性关系,间不存在完全的确定性

2、关系,不能用精确的数学公式来表示。不能用精确的数学公式来表示。如人的身高与体重的关系,作物种植密度如人的身高与体重的关系,作物种植密度与产量的关系,食品价格与需求量的关系等等与产量的关系,食品价格与需求量的关系等等特点:这些变量间都存在着十分密切的关系,特点:这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一但不能由一个或几个变量的值精确地求出另一个变量的值。个变量的值。像这样一类关系在生物界中是大量存在的,像这样一类关系在生物界中是大量存在的,统计学中把这些变量间的关系称为统计学中把这些变量间的关系称为相关关系相关关系,把存在相关关系的变量称为把存在相关关系的变量称为

3、相关变量相关变量。相关变量间的关系一般分为两种相关变量间的关系一般分为两种:一种是一种是因果关系因果关系,即一个变量的变化受另一个或几个变量的影响。,即一个变量的变化受另一个或几个变量的影响。如小麦的生长速度受遗传特性、营养水平、管理条件等因素如小麦的生长速度受遗传特性、营养水平、管理条件等因素的影响。的影响。子代的体高受亲本体高的影响;子代的体高受亲本体高的影响;另一种是另一种是平行关系平行关系,它们互为因果或共同受到另外因素的影响。,它们互为因果或共同受到另外因素的影响。如人的身高和胸围之间的关系属于平行关系。如人的身高和胸围之间的关系属于平行关系。同胞间的身高或体重同胞间的身高或体重XY

4、1Y2Y3结果结果原因原因XYYX1X2X3原因原因结果结果 统计学上采用回归分析统计学上采用回归分析(regression analysis)研究呈因果关系的相关变量间的关)研究呈因果关系的相关变量间的关系。系。表示原因的变量称为自变量,表示结果的表示原因的变量称为自变量,表示结果的变量称为依变量。变量称为依变量。回归分析的任务就是揭示出呈因果关系回归分析的任务就是揭示出呈因果关系的相关变量间的联系形式,建立它们之的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制依变量由自变量(原因)来预测、控制依变量(结果

5、)。(结果)。回归分析主要包括:找出回归方程;检回归分析主要包括:找出回归方程;检验回归方程是否显著;通过回归方程来验回归方程是否显著;通过回归方程来预测或控制另一变量。预测或控制另一变量。统计学上采用相关分析统计学上采用相关分析 (correlation analysis)研究呈平行关系的相关变量之间的关研究呈平行关系的相关变量之间的关系。系。对两个变量间的直线关系进行相关分析称为对两个变量间的直线关系进行相关分析称为简单相关分析简单相关分析(也叫(也叫直线相关分析直线相关分析););对多个变量进行相关分析时,研究一个变量对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为与多个

6、变量间的线性相关称为复相关分析复相关分析;研;研究其余变量保持不变的情况下两个变量间的线究其余变量保持不变的情况下两个变量间的线性相关称为性相关称为偏相关分析偏相关分析。函数关系 有精确的数学表达式(确定性的关系)直线回归分析曲线回归分析一元回归分析简单相关分析 直线相关分析因果关系(回归分析)变量间的关系多元非线性回归分析多元线性回归分析 相关关系 平行关系(相关分析)多元相关分析 复相关分析偏相关分析多元回归分析 非确定性的关系第一节第一节 直线回归直线回归 一、直线回归方程的建立一、直线回归方程的建立 对于两个相关变量,一个变量用对于两个相关变量,一个变量用x表示,另表示,另一个变量用一

7、个变量用y表示,如果通过试验或调查获得两表示,如果通过试验或调查获得两个变量的个变量的n对观测值:对观测值:(x1,y1),(),(x2,y2),),(,(xn,yn)为了直观地看出为了直观地看出x和和y间的变化趋势,可将间的变化趋势,可将每一对每一对 观观 测测 值值 在在 平平 面直角坐标系描点,作面直角坐标系描点,作出散点图出散点图直线回归分析二维散点图 作为相关分析最直观的表达形式莫过于用两变量值绘制的散点分布图 从散点图可以看出:从散点图可以看出:两个变量间直线关系的性质(是正相关还是两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);负相关)和程度(是相关

8、密切还是不密切);散点图散点图直观地、定性地直观地、定性地表示了两个变量之表示了两个变量之间的关系。为了探讨它们之间的规律性,还必间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系须根据观测值将其内在关系定量地定量地表达出来。表达出来。两个变量间有关或无关两个变量间有关或无关;若有关若有关,两个变量两个变量间关系类型,是直线型还是曲线型;间关系类型,是直线型还是曲线型;如果把变量如果把变量y与与x内在联系的总体直线回归方程记内在联系的总体直线回归方程记为为y=x 依变量依变量y的实际观测值总是带有随机误差,因的实际观测值总是带有随机误差,因而依变量而依变量y的实际观测值的实际观测

9、值yi可用自变量可用自变量x的实际的实际观测值观测值xi表示为:表示为:(i=1,2,n)直线回归的直线回归的数学模型数学模型总体线性回归模型的图示YX观察值观察值总体线性回归模型总体线性回归模型依变量依变量自变量自变量参数参数随机误差随机误差y y y y条件平均数条件平均数条件平均数条件平均数 在在x、y直角坐标平面上可以作出无数直角坐标平面上可以作出无数 条直条直线,我们线,我们把所有直线中最接近散点图中全部散点把所有直线中最接近散点图中全部散点的直线用来表示的直线用来表示x与与y的直线关系的直线关系,这条直线称为,这条直线称为回归直线回归直线。设回归直线的方程为设回归直线的方程为:其中

10、,其中,是是的估计值,的估计值,b是是的估计值。的估计值。、b应使回归估计值应使回归估计值 与实际观测值与实际观测值y的偏差平方和最小的偏差平方和最小,即:,即:总的离回归平方总的离回归平方和,即剩余平方和和,即剩余平方和 根据微积分学中的求极值的方法,令根据微积分学中的求极值的方法,令 Q对对a、b的一阶偏导数等于的一阶偏导数等于0,即:,即:最小最小 整理得关于整理得关于、b的的正规方程组正规方程组:解正规方程组,得解正规方程组,得:分子是自变量分子是自变量x的离均差的离均差 与与 依依 变变 量量 y 的的 离离 均均 差差 的的 乘乘 积和积和 ,简,简 称称 乘积和乘积和,记作,记作

11、分母是自变量分母是自变量x的的离均差离均差 平方和平方和 ,记作记作SSX。b叫做样本叫做样本回归系数回归系数,表表 示示 x 改改 变一个变一个单位,单位,y平均改变的数量平均改变的数量。b 的符号反映了的符号反映了x影响影响y的性质,的性质,b的绝对值大小反映了的绝对值大小反映了 x 影响影响 y 的的 程度程度 叫做叫做回归估计值回归估计值,是当,是当x在在其研究在在其研究 范范 围围 内内取某一个值时取某一个值时y值平均数值平均数 的估计值。的估计值。叫做样本叫做样本回归截距回归截距,是回归直线与,是回归直线与y轴交点的纵坐标,轴交点的纵坐标,当当x=0时,时,=;回归方程的基本性质:

12、回归方程的基本性质:如果将如果将 式代入式代入 式,式,得到回归方程的另一种形式得到回归方程的另一种形式(中心化形式中心化形式):性质性质1最小;最小;性质性质2;性质性质3 回回 归归 直直 线线 通通 过过 点点。【例【例8-1】食品感官评定时,测得食品甜度与蔗】食品感官评定时,测得食品甜度与蔗糖浓度的关系如表糖浓度的关系如表8-1所示,试建立所示,试建立y与与x的直线的直线回归方程。回归方程。蔗糖质量分数蔗糖质量分数x%1.03.04.05.57.08.09.5甜度甜度 y1518192122.623.826表表表表8-1 8-1 食品甜度与蔗糖浓度的关系食品甜度与蔗糖浓度的关系食品甜度

13、与蔗糖浓度的关系食品甜度与蔗糖浓度的关系(1)作散点图)作散点图 以蔗糖质量分数以蔗糖质量分数(x)为横坐标,)为横坐标,甜度(甜度(y)为纵坐)为纵坐标作散点图,如标作散点图,如图图8-2所示。所示。图图8-28-2(2)计算回归截距)计算回归截距a,回归系数,回归系数b,建立直线,建立直线回归方程回归方程下一张 主 页 退 出 上一张 首先根据实际观测值计算出下列数据:首先根据实际观测值计算出下列数据:首先根据实际观测值计算出下列数据:首先根据实际观测值计算出下列数据:所以,甜度所以,甜度所以,甜度所以,甜度y y对蔗糖质量分数对蔗糖质量分数对蔗糖质量分数对蔗糖质量分数x x的直线回归方程

14、为:的直线回归方程为:的直线回归方程为:的直线回归方程为:然后计算出然后计算出然后计算出然后计算出b b、a a:根据直线回归方根据直线回归方程可作出回归直线,程可作出回归直线,见图。从图看出,见图。从图看出,并不是所有的散点并不是所有的散点都恰好落在回归直都恰好落在回归直线上,这说明线上,这说明用用 去估计去估计y是有偏差是有偏差的。的。下一张下一张 主主 页页 退退 出出 上一张上一张 附:直线回归的偏离度估计附:直线回归的偏离度估计 偏差平方和偏差平方和 的大小表示了实测点与回归的大小表示了实测点与回归直线偏离的程度,因而此偏差平方和又称为直线偏离的程度,因而此偏差平方和又称为离回归平离

15、回归平方和方和。统计学证明:在直线回归分析中离回归平方和。统计学证明:在直线回归分析中离回归平方和的自由度为的自由度为n-2。那么,。那么,离回归均方离回归均方为:为:离回归均方的平方根叫离回归均方的平方根叫离回归标准误离回归标准误,记为,记为 ,离回归标准误离回归标准误Syx的大小表示了回归直线与的大小表示了回归直线与实测点偏差的程度实测点偏差的程度,即回归估测值,即回归估测值 与实与实 际际观测值观测值y偏离(差)的程度,所以,用偏离(差)的程度,所以,用离回归标离回归标准误准误Syx来表示回归方程的偏离度。来表示回归方程的偏离度。下一张下一张 主主 页页 退退 出出 上一张上一张 对于【

16、例对于【例对于【例对于【例8.18.1】有】有】有】有 所以,离回归标准误为所以,离回归标准误为所以,离回归标准误为所以,离回归标准误为以后我们将证明以后我们将证明,离回归平方和:离回归平方和:由上式先计算出由上式先计算出由上式先计算出由上式先计算出 ,然后求出离回归标准误然后求出离回归标准误然后求出离回归标准误然后求出离回归标准误SyxSyx。二、直线回归的显著性检验二、直线回归的显著性检验1、直线回归的变异来源、直线回归的变异来源图图8-4 的分解图的分解图P(x,y)从图从图8-4看到:看到:上式两端平方,然后对所有的上式两端平方,然后对所有的n点求和,则有点求和,则有 由由 于于所所

17、以以 所以有所以有 反映了由于反映了由于y与与x间间存在直线关系所引存在直线关系所引起的起的y的变异程度,的变异程度,称为称为回归平方和回归平方和,记为记为SSR 反映了反映了y的总变异程的总变异程度,称为度,称为y的总平方的总平方和和,记为,记为SSy反映了除反映了除y与与x存在存在直线关系以外的原直线关系以外的原因,包括随机误差因,包括随机误差所引起的所引起的y的变异的变异程度,称为程度,称为离回归离回归平方和或剩余平方平方和或剩余平方和和,记为,记为SSr总变异又可表示为总变异又可表示为y y的总自由度的总自由度dfdfy y也划分为回归自由度也划分为回归自由度dfdfR R与离与离回归

18、自由度回归自由度dfdfr r两部分,即两部分,即 1、建立假设、建立假设 无效假设无效假设HO:=0,备择假设备择假设HA:0。2、计算检验统计量、计算检验统计量3、显著性推断、显著性推断 2、回归关系显著性检验、回归关系显著性检验F检验检验 根据根据df1=1,df2=n-2查表,得到临界查表,得到临界F值,并作出值,并作出显著性推断。显著性推断。【例【例8.2】检验例检验例8-1中求得的回归方程是中求得的回归方程是否显著(否显著(a=005)方差分析方差分析方差分析方差分析 列出方差分析表进行回归关系显著性检验。列出方差分析表进行回归关系显著性检验。列出方差分析表进行回归关系显著性检验。

19、列出方差分析表进行回归关系显著性检验。下一张下一张 主主 页页 退退 出出 上一张上一张 表表表表8-4 8-4 蔗糖浓度与甜度回归关系方差分析表蔗糖浓度与甜度回归关系方差分析表蔗糖浓度与甜度回归关系方差分析表蔗糖浓度与甜度回归关系方差分析表 变异来源变异来源偏差平方和偏差平方和SS自由度自由度df均方均方MSF值值显著性显著性回归回归83.8161183.81611922.39*剩余剩余0.218250.0436总变异总变异84.03436因为因为 ,表明甜度与蔗糖浓度间存在着极显著的直线关表明甜度与蔗糖浓度间存在着极显著的直线关系。系。3、回归系数的显著性检验、回归系数的显著性检验t检验检

20、验1、建立假设、建立假设 HO:0,HA:0。回归系数回归系数回归系数回归系数标准误标准误标准误标准误t t 检验的计算公式为:检验的计算公式为:检验的计算公式为:检验的计算公式为:离回归标准误离回归标准误 对于对于 【例【例8.1】资资 料料,已计算得,已计算得 故有故有 下一张下一张 主主 页页 退退 出出 上一张上一张 当当 ,查,查t值表,得值表,得 因因 ,否定否定HO:0,接受,接受HA:0,即直线回归系数,即直线回归系数b=1.2550是极显著的,表明蔗糖浓度与甜度大小存在是极显著的,表明蔗糖浓度与甜度大小存在极显著的直线关系,可用所建立的直线回归方程来进极显著的直线关系,可用所

21、建立的直线回归方程来进行行 预测和控制。预测和控制。在直线回归假设检验中,在直线回归假设检验中,F检验的结果与检验的结果与t检检验的结果是一致的。验的结果是一致的。第二节第二节 直线相关直线相关 进行直线相关分析的基本任务在于根据进行直线相关分析的基本任务在于根据x、y的实际观测值,计算表示两个相关变量的实际观测值,计算表示两个相关变量x、y间间线性线性相关程度和性质的统计量相关程度和性质的统计量相关相关系数系数r,并进行显著性检验。并进行显著性检验。我们把我们把 叫叫 做做 x 对对 y的的决定系决定系数数 (coefficient of determination)记为记为 r2:一、决定

22、系数和相关系数一、决定系数和相关系数 决定系数的大小表示了回归方程估测可靠程度决定系数的大小表示了回归方程估测可靠程度的高低的高低,或者说表示了回归直线拟合度的高低。,或者说表示了回归直线拟合度的高低。显然有显然有0r21。因为。因为决定系数表示了决定系数表示了 两个互为因果关系的相关两个互为因果关系的相关变量间直线相关的程度变量间直线相关的程度统计学上把决定系数统计学上把决定系数r2的平方根称为的平方根称为x与与y的相关系数的相关系数(coefficient of correlation),记为),记为r:既可表示既可表示y与与x的直线相关的程度,也可表示直线相的直线相关的程度,也可表示直线

23、相关的性质关的性质二、相关系数的计算二、相关系数的计算 【例【例8.2】计算计算10只绵羊的胸围(只绵羊的胸围(cm)和)和体重体重(kg)的相关系数。的相关系数。表表8-3 10只绵羊胸围和体重资料只绵羊胸围和体重资料 根据表根据表8-3所列数据先计算出:所列数据先计算出:代入(代入(8-25)式得:)式得:即绵羊胸围与体重的相关系数为即绵羊胸围与体重的相关系数为0.8475。根据实际观测值计算得来的相关系数根据实际观测值计算得来的相关系数r是是样本相关系数,样本相关系数,它是双变量正态总体中的它是双变量正态总体中的总体相关系数总体相关系数的估计值。样本相关系数的估计值。样本相关系数r是是否

24、来自否来自0的总体,还须对样本相关系数的总体,还须对样本相关系数r 进行显著性检验。进行显著性检验。此此 时无时无 效效 假假 设、备择设、备择假设为假设为HO:=0,HA:0。与直线回归关系。与直线回归关系显著性检验一样,可采用显著性检验一样,可采用t检验法与检验法与F检验法检验法对相关系数对相关系数r的显著性进行检验。的显著性进行检验。3.3 相关系数的显著性检验相关系数的显著性检验 其中,其中,叫做相关系数标,叫做相关系数标准误。准误。F检验:检验:F=,df1=1,df2=n-2 t 检验:检验:t=,df=n-2下一张下一张 主主 页页 退退 出出 上一张上一张 统计学家已根据相关系

25、数统计学家已根据相关系数r显著性显著性t检验法计算出了临检验法计算出了临界界r值并列出了表格。值并列出了表格。所以可以直接采用查表法对相关所以可以直接采用查表法对相关系数系数r进行显著性检验。进行显著性检验。具体作法是:具体作法是:先根据先根据 自由度自由度 n-2 查临界查临界 r 值值(附附 表表 8),得,得 ,。若若|r|,P0.05,则相关系数,则相关系数r不显著,不显著,在在r的右上方标记的右上方标记“ns”;若;若 ,0.01P0.05,则相关系数,则相关系数 r 显著,在显著,在r的右上方标记的右上方标记“*”;若;若|r|,P 0.01,则相则相 关关 系系 数数 r 极显著

26、,在极显著,在 r 的右上方标记的右上方标记“*”。而而|r|=0.8475 ,P0.01,表明绵,表明绵羊胸围与体重呈极显著正相关。羊胸围与体重呈极显著正相关。下一张下一张 主主 页页 退退 出出 上一张上一张 对于【例对于【例8-2】,因为】,因为df=n-2=10-2=8,查附表查附表8得:得:相关系数对样本相关关系的计量 表明直线相关分析与回归分析关系十分密表明直线相关分析与回归分析关系十分密表明直线相关分析与回归分析关系十分密表明直线相关分析与回归分析关系十分密切。它们的研究对象都是呈直线关系的相关变量。切。它们的研究对象都是呈直线关系的相关变量。切。它们的研究对象都是呈直线关系的相

27、关变量。切。它们的研究对象都是呈直线关系的相关变量。两种分析所进行的显著性检验都是解决两种分析所进行的显著性检验都是解决y与与x间是否存间是否存在直线关系,二者的检验是等价的。在直线关系,二者的检验是等价的。3.4 相关系数与回归系数的关系相关系数与回归系数的关系*直线回归分析,有自变量和依变量区分,侧重于寻求直线回归分析,有自变量和依变量区分,侧重于寻求直线回归分析,有自变量和依变量区分,侧重于寻求直线回归分析,有自变量和依变量区分,侧重于寻求它们之间的联系形式它们之间的联系形式它们之间的联系形式它们之间的联系形式直线回归方程;直线回归方程;直线回归方程;直线回归方程;*直线相关分析,无自变

28、量和依变量区分,侧重于揭示直线相关分析,无自变量和依变量区分,侧重于揭示直线相关分析,无自变量和依变量区分,侧重于揭示直线相关分析,无自变量和依变量区分,侧重于揭示它们之间的联系程度和性质它们之间的联系程度和性质它们之间的联系程度和性质它们之间的联系程度和性质计算相关系数。计算相关系数。计算相关系数。计算相关系数。在实际进行直线回归分析时,可用相关系数显著性检验代替直在实际进行直线回归分析时,可用相关系数显著性检验代替直在实际进行直线回归分析时,可用相关系数显著性检验代替直在实际进行直线回归分析时,可用相关系数显著性检验代替直线回归关系显著性检验。线回归关系显著性检验。线回归关系显著性检验。线回归关系显著性检验。此课件下载可自行编辑修改,供参考!感谢您的支持,我们努力做得更好!

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服