1、第1页基础知识框图表解变量间关系函数关系相关关系 散点图线性相关线性回归方程第2页问题提出和探究 在中学校园里,有这么一个说法:“假如你数学成绩好,那么你物理学习就不会有什么大问题.”问题:按照这种说法,似乎学生物理成绩与数学成绩之间存在着一个相关关系,这种说法有没有依据呢?上述两个变量之间关系是一个非确定性关系,我们把这种关系称之为相关关系。第3页一、变量之间相关关系不一样点:函数关系是一个确定关系;而相关关系是一个非确定关系.问题:相关关系与函数关系异同点?相同点:均是指两个变量关系第4页课堂练习判断以下两个变量关系中,哪些是相关关系?哪些是函数关系?正方形边长与面积之间关系;作文水平与课
2、外阅读量之间关系;人身高与体重之间关系;人身高与视力之间关系;商品销售收入与广告支出经费之间关系;粮食产量与施肥量之间关系;匀速行驶车辆行驶距离与时间第5页在一次对人体脂肪含量和年纪关系研究中,研究人员取得了一组样本数据:其中各年纪对应脂肪数据是这个年纪人群脂肪含量样本平均数.年纪23273941454950脂肪 9.517.8 21.2 25.9 27.5 26.3 28.2年纪53545657586061脂肪 29.6 30.2 31.4 30.8 33.5 35.2 34.6依据上述数据,人体脂肪含量与年纪之间有怎样关系?探究第6页思索:对某一个人来说,他体内脂肪含量不一定随年纪增加而增
3、加或降低,不过假如把很多个体放在一起,就可能表现出一定规律性.观察上表中数据,大致上看,伴随年纪增加,人体脂肪含量怎样改变?n年纪2323272739394141454549495050脂肪脂肪9.59.517.817.821.221.225.925.927.527.526.326.328.228.2n年纪5353545456565757585860606161脂肪脂肪29.629.630.230.231.431.430.830.833.533.535.235.234.634.6第7页 为了确定人体脂肪含量和年纪之间更明确关系,我们需要对数据进行分析,经过作图能够对两个变量之间关系有一个直观印
4、象.以x轴表示年纪,y轴表示脂肪含量,你能在直角坐标系中描出样本数据对应图形吗?O455055 60 65202530 35 40年纪年纪脂肪含量脂肪含量510152025303540 在平面直角坐标系中,表示含有相关关系两个变量一组数据图形,称为散点图.第8页 观察散点图大致趋势,两个变量散点图中点分布位置是从左下角到右上角区域,我们称这种相关关系为正相关。O45 50 55606520 25 30 35 40年纪年纪脂肪含量脂肪含量510152025303540O思索:假如两个变量成负相关,其散点图有什么特点?结论:散点图中点散布在从左上角到右下角区域.第9页注:若两个变量散点图呈上图,则
5、不含有相关关系。第10页例1、以下是年某地搜集到新房屋销售价格和房屋面积数据:房屋面积(平方米)617011511080135105销售价格(万元)12.2 15.3 24.8 21.6 18.4 29.222 画出数据对应散点图,并指出销售价格与房屋面积这两个变量是正相关还是负相关.第11页房屋面积(平方米)617011511080135105销售价格(万元)12.2 15.3 24.8 21.6 18.4 29.222结论:销售价格与房屋面积这两个变量是正相关.第12页假如散点图中点分布从整体上看大致在一条直线附近,我们就称这两个变量之间含有线性相关关系,这条直线就叫做回归直线。这条回归直
6、线方程,简称为回归方程。二、回归直线 O45 50 55606520 25 30 35 40年纪脂肪含量510152025303540第13页1.假如全部样本点都落在某一函数曲线上,变量之间含有函数关系2.假如全部样本点都落在某一函数曲线附近,变量之间就有相关关系3.假如全部样本点都落在某一直线附近,变量之间就有线性相关关系 只有散点图中点呈条状集中在某一直线周围时候,才能够说两个变量之间含有线性关系,才有两个变量正线性相关和负线性相关概念,才能够用回归直线来描述两个变量之间关系 相关说明第14页三、怎样详细求出这个回归方程呢?O45 50 55606520 25 30 35 40年纪脂肪含量
7、510152025303540第15页求回归方程关键是怎样用数学方法来刻画“从整体上看,各点与直线偏差最小”。假如散点图中点分布从整体上看大致在一条直线附近,我们就称这两个变量之间含有线性相关关系,这条直线就叫做回归直线。思索:对一组含有线性相关关系样本数据:(x1,y1),(x2,y2),(xn,yn),设其回归方程为 能够用哪些数量关系来刻画各样本点与回归直线靠近程度?第16页.方案1:先画出一条直线,测量出各点与它距离,再移动直线,抵达一个使距离和最小时,测出它斜率和截距,得回归方程。202530 35 4045 50 55 60 65年纪脂肪含量0510152025303540如图:第
8、17页.方案2:在图中选两点作直线,使直线两侧点个数基本相同。202530 35 4045 50 55 60 65年纪脂肪含量0510152025303540第18页方案3:假如多取几对点,确定多条直线,再求出 这些直线斜率和截距平均值作为回归 直线斜率和截距。而得回归方程。如图我们还能够找到 更多方法,但 这些方法都可行 吗?科学吗?准确吗?怎样 方法是最好?202530 35 4045 50 55 60 65年纪脂肪含量0510152025303540我们把由一个变量改变去推测另一个变量方法称为回归方法。第19页设已经得到含有线性相关关系变量一组数据:(设已经得到含有线性相关关系变量一组数
9、据:(x x1 1,y y1 1),(),(x x2 2,y y2 2),),(,(x xn n,y yn n)设所求回归直线方程为设所求回归直线方程为 其中其中a a,b b是待定系数。是待定系数。当变量当变量x x取取x x1 1,x x2 2,x xn n时,能够得到时,能够得到 (i=1i=1,2 2,n n)它与实际搜集得到它与实际搜集得到 之间偏差是之间偏差是 (i=1i=1,2 2,n n)探索过程以下:探索过程以下:这么,用这这么,用这n n个偏差和来刻个偏差和来刻画画“各点与此直线整体偏差各点与此直线整体偏差”是比较适当。是比较适当。(x1,y1)(x2,y2)(xi,yi)
10、(xn,yn)第20页依据相关数学原理分析,当依据相关数学原理分析,当 时,总体偏差时,总体偏差 为最小,这么为最小,这么就得到了回归方程,这种求回归方程方法叫做就得到了回归方程,这种求回归方程方法叫做最最小二乘法小二乘法.(其中,(其中,b是回归方程斜率,是回归方程斜率,a是截距)是截距)第21页0.57765-0.448=37.1 利用计算器或计算机可求得年纪和人体脂肪含量样本数据回归方程为 由此我们能够依据一个人年纪预测其体内脂肪含量百分比回归值.若某人65岁,则其体内脂肪含量百分比约为多少?能不能说他体内脂肪含量一定是37.1?第22页若某人65岁,可预测他体内脂肪含量在37.1(0.
11、57765-0.448=37.1)附近可能性比较大。但不能说他体内脂肪含量一定是37.1原因:线性回归方程中截距和斜率都是经过样本预计,存在随机误差,这种误差能够造成预测结果偏差,即使截距斜率没有误差,也不可能百分百地确保对应于x,预报值 能等于实际值y第23页例:有一个同学家开了一个小卖部,他为了研究气温对热饮销售影响,经过统计,得到一个卖出热饮杯数与当日气温对比表:1 1、画出散点图;、画出散点图;2 2、从散点图中发觉气温与热饮、从散点图中发觉气温与热饮销售杯数之间关系普通规律;销售杯数之间关系普通规律;3 3、求回归方程;、求回归方程;4 4、假如某天气温是、假如某天气温是2 2摄氏度
12、,预摄氏度,预测这天卖出热饮杯数。测这天卖出热饮杯数。第24页1、散点图、散点图2 2、从图、从图3-13-1看到,各点散布在从左上角到由下角区看到,各点散布在从左上角到由下角区域里,所以,气温与热饮销售杯数之间成负相关,域里,所以,气温与热饮销售杯数之间成负相关,即气温越高,卖出去热饮杯数越少。即气温越高,卖出去热饮杯数越少。3 3、从散点图能够看出,这些点大致分布在一条直、从散点图能够看出,这些点大致分布在一条直线附近,所以利用公式线附近,所以利用公式1 1求出回归方程系数。求出回归方程系数。Y=-Y=-2.352x+147.7672.352x+147.7674 4、当、当x=2x=2时,
13、时,Y=143.063 Y=143.063 所以,某天气温为所以,某天气温为2 2摄摄氏度时,这天大约能够卖出氏度时,这天大约能够卖出143143杯热饮。杯热饮。第25页例2、(07广东)下表提供了某厂节油降耗技术发行后生产甲产品过程中统计产量x(吨)与对应生产能耗y(吨标准煤)几组对应数据.X 3 4 5 6 y 2.5 3 4 4.5(1)请画出上表数据散点图;(2)请依据上表提供数据,用最小二乘法求出y关于x线性回归方程y=;(3)已知该厂技改前100吨甲产品生产能耗为90吨标准煤,试依据(2)求出线性回归方程,预测生产100吨甲产品生产能耗比技改前降低多少吨标准煤?(参考数值:32.5
14、+43+54+64.566.5)第26页所求回归方程为 (2)解:(3)预测生产100吨甲产品生产能耗比技改前降低 (吨)第27页本节重点知识回顾1、相关关系 (1)概念:自变量取值一定时,因变量取值带有一定随机性两个变量之间关系叫相关关系。(2)相关关系与函数关系异同点。相同点:二者均是指两个变量间关系。不一样点:函数关系是一个确定关系,是一个因果系;相关关系是一个非确定关系,也不一定是因果关系(但可能是伴随关系)。(3)相关关系分析方向。在搜集大量数据基础上,利用统计分析,发觉规律,对它们关系作出判断。第28页2、两个变量线性相关 (1)回归分析 对含有相关关系两个变量进行统计分析方法叫回
15、归分析。通俗地讲,回归分析是寻找相关关系中非确定关系某种确定性。(2)散点图 A、定义;B、正相关、负相关。3、回归直线方程 注:假如关于两个变量统计数据散点图展现发散状,则这两个变量之间不含有相关关系.第29页3、回归直线方程 (1)回归直线:观察散点图特征,假如各点大致分布在一条直线附近,就称两个变量之间含有线性相关关系,这条直线叫做回归直线。(2)最小二乘法(3)利用回归直线对总体进行预计第30页练习练习2-12-1、观察两相关量得以下数据观察两相关量得以下数据:x x-1-1-2-2-3-3-4-4-5-55 53 34 42 21 1y y-9-9-7-7-5-5-3-3-1-11
16、15 53 37 79 9求两变量间回归方程求两变量间回归方程.解:列表:解:列表:i i1 12 23 34 45 56 67 78 89 91010 x x-1-1-2-2-3-3-4-4-5-55 53 34 42 21 1y y-9-9-7-7-5-5-3-3-1-11 15 53 37 79 9x xiyiiyi9 91414151512125 55 51515121214149 9计算得:计算得:第31页所求回归直线方程为所求回归直线方程为注意:求回归直线方程步骤:注意:求回归直线方程步骤:第一步:列表第一步:列表第二步:计算:第二步:计算:第三步:代入公式计算第三步:代入公式计算
17、b b,a a值值第四步:列出直线方程。第四步:列出直线方程。第32页练习练习2-2、:给给出施化肥量出施化肥量对对水稻水稻产产量量影响影响试验试验数据:数据:施化肥施化肥量量x15202530354045水稻水稻产产量量y330 345 365 405 445 450 455(1)(1)画出上表散点画出上表散点图图;(2)(2)求出回求出回归归直直线线而且画出而且画出图图形形.第33页从而得回归直线方程是从而得回归直线方程是 解:解:(1)(1)散点散点图图(略)(略)(2)(2)表中数据表中数据进进行行详细计详细计算,列成以下表格算,列成以下表格2047518000155751215091
18、2569004950 xiyi455450445405365345330yi45403530252015xi7654321i(图图形略形略)故可得到故可得到第34页4 4、利用回归直线方程对总体进行预计、利用回归直线方程对总体进行预计练习练习2-32-3、炼钢是一个氧化降碳过程,钢水含碳量多少直接、炼钢是一个氧化降碳过程,钢水含碳量多少直接影响冶炼时间长短,必须掌握影响冶炼时间长短,必须掌握钢水含碳量和冶炼时间关系。冶炼时间关系。假如已测得炉料熔化完成时,钢水含碳量假如已测得炉料熔化完成时,钢水含碳量X与冶炼时间与冶炼时间y(从炉料熔化完成到出刚时间)一列数据,以下表所表示:(从炉料熔化完成到
19、出刚时间)一列数据,以下表所表示:x x(0.01%0.01%)104104180180190190177177 147147 134134 150150191191204204121121Y Y(minmin)100100200200210210185185 155155 135135 170170205205235235125125(1 1)作出散点图,找规律。)作出散点图,找规律。(2 2)求回归直线方程。)求回归直线方程。(3 3)预测当钢水含碳量为)预测当钢水含碳量为160160时,应冶炼多少分钟?时,应冶炼多少分钟?第35页画图3 解解:(1):(1)作散点图作散点图从图能够看出从
20、图能够看出,各点分布在一条直线附近各点分布在一条直线附近,即它们线形相关即它们线形相关.(2)(2)列出下表列出下表,并计算并计算i i1 12 23 34 45 56 67 78 89 91010 x xi i104104180180190190177177147147134134150150191191204204121121y yi i100100200200210210185185155155135135170170205205235235125125x xiyiiyi104010400 0360036000 0399039900 0327432745 5227822785 51809
21、18090 0255025500 0391539155 5479447940 0151215125 5第36页设所求回归直线方程为设所求回归直线方程为其中其中a,ba,b值使值使值最小值最小.所以回归直线方程为所以回归直线方程为 =1.267x-30.51(3)(3)当当x=160 x=160时时,1.267.160-30.51=172,1.267.160-30.51=172第37页归纳:归纳:1.1.求样本数据线性回归方程,可按以下步骤进行:求样本数据线性回归方程,可按以下步骤进行:第一步,计算平均数第一步,计算平均数 ,第二步,求和第二步,求和 ,(列表)列表)第三步,计算第三步,计算 第
22、四步,写出回归方程第四步,写出回归方程 第38页2.2.回归方程被样本数据惟一确定,各样本点回归方程被样本数据惟一确定,各样本点大致分布在回归直线附近大致分布在回归直线附近.对同一个总体,对同一个总体,不一样样本数据对应不一样回归直线,所以不一样样本数据对应不一样回归直线,所以回归直线也含有随机性回归直线也含有随机性.3.3.对于任意一组样本数据,利用上述公式都对于任意一组样本数据,利用上述公式都能够求得能够求得“回归方程回归方程”,假如这组数据不含,假如这组数据不含有线性相关关系,即不存在回归直线,那么有线性相关关系,即不存在回归直线,那么所得所得“回归方程回归方程”是没有实际意义是没有实际
23、意义.所以,对所以,对一组样本数据,应先作散点图,在含有线性一组样本数据,应先作散点图,在含有线性相关关系前提下再求回归方程相关关系前提下再求回归方程.第39页整体上最靠近整体上最靠近 方案一:方案一:采取测量方法:先画一条直线,测量采取测量方法:先画一条直线,测量出各点到它距离,然后移动直线,抵达一个使出各点到它距离,然后移动直线,抵达一个使距离之和最小位置,测量出此时直线斜率和截距离之和最小位置,测量出此时直线斜率和截距,就得到回归方程。距,就得到回归方程。三、怎样详细求出这个回归方程呢?三、怎样详细求出这个回归方程呢?O45 50 55606520 25 30 35 40年纪年纪脂肪含量
24、脂肪含量510152025303540第40页方案二方案二:在图中选取两点画直线,使得直线在图中选取两点画直线,使得直线两侧点个数基本相同。两侧点个数基本相同。三、怎样详细求出这个回归方程呢?三、怎样详细求出这个回归方程呢?O45 50 55606520 25 30 35 40年纪年纪脂肪含量脂肪含量510152025303540第41页方案三方案三:在散点图中多取几组点,确定几条直线方在散点图中多取几组点,确定几条直线方程,分别求出各条直线斜率和截距平均数,将这两程,分别求出各条直线斜率和截距平均数,将这两个平均数作为回归方程斜率和截距。个平均数作为回归方程斜率和截距。三、怎样详细求出这个回归方程呢?三、怎样详细求出这个回归方程呢?O45 50 55606520 25 30 35 40年纪年纪脂肪含量脂肪含量510152025303540第42页 以上公式推导较复杂,故不作推导,但它原理较以上公式推导较复杂,故不作推导,但它原理较为简单:即各点到该直线距离平方和最小,这一方法为简单:即各点到该直线距离平方和最小,这一方法叫叫最小二乘法最小二乘法。(参看如书。(参看如书P88-P89)O45 50 55606520 25 30 35 40年纪年纪脂肪含量脂肪含量510152025303540第43页