1、变量间的相关关系”中的核心概念和思想方法解读及教学建议 河北师范大学数学与信息科学学院 程海奎 《变量间的相关关系》的主要内容为采用定性和定量相结合的方法研究变量之间的相关关系,主要研究线性相关关系.主要概念有“相关关系”、“散点图”、“回归直线和回归直线方程”、“相关系数”等.研究方法为先绘制散点图,直观表示观测数据,定性描述变量间相关关系的类型、方向、相关程度.然后应用最小二乘法确定变量间相关关系的具体表达形式,描述变量间的数量规律,并由一个变量的取值去推测另一个变量的取值. 这部分内容涉及到一些重要的统计思想和方法,对学生的学习和教师的教学都有一定的难度.本文就研究对象、核心概念
2、研究方法、统计思想及相关应用进行简单的解读,提出一些教学建议,希望对教学能提供一些帮助. 一、相关概念及统计思想方法 1.相关关系——变量间的不确定关系 两个变量之间的数量关系有两种不同的类型:一种是函数关系,一种是相关关系.当一个变量取一定的值时,另一个变量有确定的值与之对应,我们称这种关系为确定的函数关系.一般把作为影响因素的变量称为自变量,把与之对应变化的变量称为因变量. 当一个变量取一定的数值时,与之对应的另一个变量的值虽然不确定,但它按某种规律在一定的范围内变化,变量间的这种关系称为不确定性的相关关系.或者说两个变量之间确实存在某种关系,但不具备函数关系所要求的确定性.
3、函数关系和相关关系都是指两个变量之间的数量关系.函数关系是两个非随机变量之间的一种确定关系,是一种因果关系.而相关关系是两个变量之间的一种不确定的关系,这两个变量中至少有一个是随机变量.两个相关变量之间可能有内在联系(真实相关),也可能完全不存在内在联系(虚假相关). 之所以X和Y之间是相关关系,原因是变量X是影响变量Y的主要因素,但不是唯一因素,还有其他种种因素,而这些因素我们又不能完全把握. 研究函数关系,可以用数学分析的方法.例如,已知y和x之间具有线性关系,即,此时只要知道变量的两组取值就可以确定函数表达式. 研究相关关系则必须对变量进行多次观测,借助统计的相关思想和方法.例如,
4、有人认为人的体重y和身高x之间具有近似的二次函数关系,由三个人的身高和体重数据,确定出y和x之间的表达式.这样得到的结果很不可靠,难以使人信服. 2.散点图—描述相关关系的直观工具 由于相关关系的不确定性,寻找变量X和Y之间的相关关系时,首先要对变量进行观测.设n次观测值为.在直角坐标系中,横轴代表变量X,纵轴代表变量Y,将观测数据用坐标点的形式描绘出来,得到的图形称为散点图.散点图是研究相关关系的直观工具,可以定性的判断相关的方向和程度. 如果散点大致分布在一条直线附近,又不完全在一条直线上,说明变量间具有线性相关关系;如果这些点大致分布在一条曲线附近,说明变量间具有非线性相
5、关关系;如果这些点的分布几乎没有什么规则,说明两个变量间没有相关关系.对于线性相关,如果散点从左下角到右上角沿直线分布,那么两个变量正相关,如果散点从左上角到右下角沿直线分布,两个变量负相关.如果散点在整体上和某一直线越接近,表明变量间相关关系越强. 3.数据分析方法—相关分析与回归分析 对变量间相关关系,在定性分析的基础上,需要进行定量分析.定量分析有相关分析和回归分析两种方法.相关分析是用一个指标(称为相关系数)来反映变量间相关关系的密切程度(见人教A版必修3P85,阅读与思考).回归分析就是根据相关关系的具体形态,选择一个合适的数学模型,来近似表达变量间的平均变化关系.相关分析和回归
6、分析具有共同的研究对象,在具体应用时,需要互相补充.作相关分析需要依靠回归分析表明变量相关的具体形式,而进行回归分析需要通过相关分析表明变量间的相关程度,只有变量间存在高度相关时,由回归分析得到的变量间的具体形式才有意义. 相关分析研究变量间的相关的方向和相关程度,它不提供相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况.相关分析不必确定哪个变量是自变量,哪个是因变量,所涉及的两个变量可以都是随机变量.回归分析根据观测数据,确定一个数学方程式(回归方程),根据这个方程式可以由已知量推测未知量,为估算和预测提供一个重要方法.回归分析必须事先确定具有相关关系的变量中哪个为自变
7、量,哪个为因变量.一般地说,自变量是普通变量(人为可以控制其取值),因变量是随机变量. 4.最小二乘思想—统计学基础的重要部分 当两个变量之间存在相关关系时,由于不确定性,如果只有很少几组变量观测值,很难估计误差的大小.法国法数学家勒让德(Le Gendre,1752—1833)在根据测量数据预测彗星轨道的问题时,发现了如何有效利用全部测量数据的方法.即通过计算得出一组数值,在使数据组的偏差达到最小的意义下,这些数值是最优的.由勒让德的方法得出的数值充分利用了所有数据信息,这个方法现在叫做最小二乘法. 人们立即认识到勒让德发现的价值,运用最小二乘法的数学并不难,所以绝大多数从事测量的科学
8、家,都能从这一方法中受益,他们可以充分利用数据.当时最小二乘思想在科学界迅速流传. 1809年,德国数学家高斯(Gauss,1777—1855年)在一篇论文中,分析了如何充分利用一系列测量数据来预测天体轨道的问题,在文章中也叙述了最小二乘法,并声称自己发明了这一方法. 事实上,勒让德第一个发表了最小二乘法思想,并影响了统计学;高斯也使用了最小二乘法,并且考虑了最小二乘法的误差分析问题,他还发现了最小二乘法理论中的重要结果,它从统计学的角度回答了最小二乘法在缩小误差上的优势,使得在勒让德那里只是处理测量数据的代数方法逐渐渗透到统计数据分析的领域,最小二乘法对统计学就象微积分对于数学中的影响一
9、样深远,高斯的巨大声望使一些历史学家把最小二乘法归功于他. 下面通过一个简单问题,阐述最小二乘思想. 一段公路,实际长度为a千米,a是未知的,对公路进行n次实际测量,假设测量值为.可是每次测量都有一定的误差,这些误差或正或负,或大或小.应该如何估计a的值呢?直观的想法是a 的值应该最接近这些测量数据,数学描述就是: a的值应该使所有的误差平方和 达到最小. 当时,达到最小.即用测量数据的平均值作为a的估计值.这里估计参数a所采用的就是最小二乘法的思想.用数理统计知识可以证明这样的估计也是最佳的. 最小二乘法的优点是:有效利用了全部测量数据,使误差平方和达到最小,防止了某一
10、极端误差对决定参数估计值取得支配性地位.在计算上只需对参数求偏导数求解线性方程组即可. 5.回归直线与回归方程 当两个变量之间具有线性相关关系时,散点图中的点大致分布在一条直线附近,这条直线叫做回归直线,这条直线的方程叫做回归方程. 数学模型:假设因变量y主要受自变量x的影响,它们之间的数量关系为,其中x是非随机变量,是未知的常数.是随机误差项,它反映了未列入方程的其它各种因素对y的影响.从而y是随机变量,它可以用由x的值完全确定的部分和随机误差部分来解释.当由观测数据估计出和b时,得到直线回归方程为. 将观测数据代入中,得 ,或, 其中为n次观测的误差.求的估计值,使“从整体
11、上看各点与直线的距离最小”.应用最小二乘思想,就是求使误差平方和达到最小的的值.可以用配方法或求偏导数的方针求出的估计值. 6.相关系数—变量间线性关系密切程度的度量 相关系数是用来衡量两个变量之间线性关系密切程度(强与弱)的一个数量指标.只有了解构造相关系数的统计思想,才能对相关系数有较深刻的理解.下面对相关统计量的意义及构造相关系数的统计思想做一简述. 设回归方程为,与对应的回归值为.称为偏差,称为偏差方和.的值越小,反映各偏差普遍较小,数据点整体上比较接近回归直线,说明变量间线性关系比较密切.但是一个绝对量,需要进行调整. 为方便引入以下记号: ,,,. 衡量数据的波动大小
12、衡量数据的波动大小. ,反映主要由的变化引起的间的波动, 反映除线性关系之外的各种随机因素引起的间的波动. 可以证明:.令,显然,而且越接近1,就越接近0,说明x和y之间的线性关系越密切. 当时,x和y正相关,当时,x和y负相关.但由于只与有关,所以不能反映相关的方向.因此定义相关系数如下: ,一般越接近1,x和y之间的线性关系越密切. 需要注意的两点是:(1)相关系数只衡量变量间线性关系的密切程度,即使变量间具有确定的非线性函数关系,也可能非常接近0.(2)当n很小时,即使非常接近1,也不表明变量间的线性关系强.例如,无论x和y之间是何种关系,当n=2时,总有. 二、教
13、学建议 1.“相关关系”的有关概念及定性描述 相关关系的概念是描述性的,不必追求形式化上的严格.建议采用案例教学法.对比函数关系,重点突出相关关系的两个本质特征:关联性和不确定性.关联性是指当一个变量变化时,伴随另一个变量有一定的变化趋势;不确定性是指当一个变量取定值时,与之相关的变量的取值仍具有随机性.因为有关联性,才有研究的必要性.因为其不确定性,从少量的变量观测值,很难估计误差的大小,因此必须对变量作大量的观测.但每个观测值都有一定误差,为了消除误差的影响,揭示变量间的本质联系,就必须要用统计分析方法. 判断两个变量间是否具有相关关系,一是凭经验及学科专业知识,二是借助散点图.下面
14、是一些可供选择的例子,教学时可先逐一分析其关联性和不确定性,然后结合散点图,进一步判断相关关系的类型和方向. 实例 变量X和Y 关联性 不确定性 相关类型 例1 家庭收入X, 消费支出Y 收入高的家庭消费支出相应也较高. 收入相同的家庭,消费支出未必相同. 正线性相关 例2 人的身高X, 脚的长度Y 一般身材较高者,脚的尺寸也较大 同样身高的人,脚的尺寸不一定相同. 正线性相关 例3 数学成绩X, 英语成绩Y 数学成绩高者,一般英语成绩也较高,反之也对. 存在数学成绩高(低)而英语成绩低(高)的学生. 正线性相关 (虚假相关) 例4 气温X,
15、 热饮销量Y 随着气温的升高,热饮的销量相应会减少. 温度相同的日期内,热饮的销量也未必相同. 负线性相关 例5(非线性相关和不相关的例子)对0到18岁之间的未成年人来说,年龄和身高之间具有非线性的相关关系.对成年人来说,年龄和身高之间没有相关关系(散点图略). 例6 吸烟和患肺部疾病之间不具有因果关系,但具有相关关系.我们引入两值变量X和Y: 如果调查了700人,其中400个不吸烟者中有40人患肺部疾病(10%),300个吸烟者中有60个人患肺部疾病(20%),说明吸烟对患肺部疾病有一定的影响.但不吸烟者也可能患肺部
16、疾病,吸烟者也可能不患肺部疾病,因此X和Y之间具有相关关系. 例7 有人曾经观察过某一国家历年的国内生产总值与精神病患者的人数的关系,发现两者之间存在较强的正相关.实际上国内生产总值与精神病患者的人数之间没有内在联系,是一种典型的虚假相关.这是因为它们都和人口总量有内在的相关关系. 说明:(1)适当例举非线性相关和不相关的例子,有助于对相关关系的全面了解,但我们研究的重点是线性相关关系,而且正相关或负相关只对线性相关有意义. (2)讨论“相关关系”时,对中学生来说,不要求说明哪个变量是随机变量,哪个变量是普通变量. (3)根据学生实际情况,可以从散点图判断线性关系的强弱,进行适当拓展.
17、 2.相关关系的定量描述——求回归直线方程 本小节的重点是用最小二乘法求回归直线方程.采用探究式教学方式. 在给出回归直线和回归直线方程的定义后,提出如下问题: 如何求回归直线方程,要求这条直线在整体上与数据点最接近? 许多统计思想和方法都比较直观,学生可能提出各种不同的方法,包括教材上列举的方法.为了防止漫无目的,对求回归直线的方法应提出一些基本要求:尽可能利用全部数据,体现整体偏差最小,便于数学计算,结果确定等.离这些要求越来越远的方法,不必多加考虑.通过对有些方法逐步修正,最后引导到使用最小二乘法求回归直线方程. 方法1:逐渐移动直线,测量各点到直线的距离,使距离和最小.该方
18、法体现了整体偏差最小的思想,缺点是难以实现,而且测量的方法很难得到确定的结果. 方法2:选择两点画直线,使直线两侧的点的个数基本相同.这种方法没有利用全部数据信息,其结果会因人而异. 方法3:用多条直线的斜率和截距的平均值作为回归直线的斜率和截距.这种方法既没有利用全部数据信息,也没有体现整体误差最小的思想,结果也不确定. 设回归方程为,,是第i个观测值的偏差,是第i个观测点到回归直线的距离.设是回归直线的倾斜角,则. 方法4:距离和最小.求a,b使达到最小.这是方法1的数学严格化. 方法5:总的偏差和最小.求a,b使达到最小.方法4和方法5是等价的.方法5利用了全部数据,体现整体偏
19、差最小的思想,结果是唯一确定的.唯一的缺点是不便数学计算. 方法6偏差平方和最小.求a,b使达到最小.该方法克服了方法5的缺点.这种方法称为最小二乘法. 说明:(1)我们的目的是通过探究找到一个求回归方程的“较优”的方法,这里所说的“较优”也是基于直观的思想,在学生现有的知识水平下,无法严格证明.如果对用上面的方法得到直线的“优劣”进行评判,我认为是理解上的偏差,况且也做不到. (2)应用最小二乘法求回归方程是一个纯数学的问题,用配方法显得繁琐,用求偏导数的方法超出了学生的能力要求.对此不做要求,直接给出a,b的公式,不影响对统计方法的理解. (3)也可以按下面的过程展开教学.①提供实
20、际问题情境,从测量数据出发,采用偏差平方和最小的思想(最小二乘思想)求参数的估计值.②通过类比用最小二乘法求回归直线方程. 3.回归方程的计算 回归方程中a,b的计算公式比较复杂,要求利用计算器或计算机进行计算.为了熟悉公式的构成及相关量的计算过程,建议使用Excel软件中的公式进行计算. 以年龄和脂肪含量的关系为例.如下表所示:在相应的单元格内输入数据,第15行为合计.先计算,,在单元格C1,D1,E1中输入相应的公式.通过公式复制然后求和得到: (C15) (D15) (E15),相关系数 ,,回归方程为. 作为拓展还可以计算与对应的回归值,与实际观测值进行比较,了解偏差的
21、大小.由相关系数的大小判断线性关系的强弱. A B C D E F G 1 23 9.5 628.50 445.24 315.42 12.81 -3.31 2 27 17.8 443.94 199.32 89.49 15.11 2.69 3 39 21.2 82.26 54.96 36.72 22.03 -0.83 4 41 25.9 49.98 9.62 1.85 23.19 2.71 5 45 27.5 9.42 -0.74 0.06 25.49 2.01
22、 6 49 26.3 0.86 -0.89 0.92 27.80 -1.50 7 50 28.2 3.72 1.81 0.88 28.37 -0.17 8 53 29.6 24.30 11.54 5.48 30.10 -0.50 9 54 30.2 35.16 17.43 8.64 30.68 -0.48 10 56 31.4 62.88 32.83 17.14 31.83 -0.43 11 57 30.8 79.74 31.61 12.53 32.41 -1.61 12 58 33.5 98
23、60 61.96 38.94 32.99 0.51 13 60 35.2 142.32 94.72 63.04 34.14 1.06 14 61 34.6 167.18 94.91 53.88 34.72 -0.12 15 673 381.7 1828.93 1054.34 644.99 —— —— 4.回归方程的意义及应用 回归直线方程作为变量x和y之间线性关系的代表,它近似描述了x和y之间的数量关系.利用回归方程,当已知x的值时,可以推断y的取值. 回归方程中b的意义为:当自变量x改变一个单位时,因变量y的平均改变量.
24、 为当时y的估计值,也可以理解为当时y的可能取值的平均值. 在教学中下面的实例可供选择.例1主要解释系数b和回归值的意义;例2说明回归方程用于预测时的作用;例3介绍“回归”一词的由来的背景知识,同时也说明了回归方程在揭示了变量间的依存规律时的作用. 例1 年龄和脂肪含量之间的回归方程为. (1)解释b(0.5765)的意义; (2)当x=37时,计算相应的值并解释其意义. 解 (1)回归直线方程中b是直线的斜率,b>0表示随年龄的增长,人体脂肪含量呈现增长的趋势,b=0.5765说明年龄每增加1岁,身体脂肪含量平均增加0.5765%. (2)当x=37时,%,20.9%是37岁的人
25、脂肪含量的一个估计值,可以理解为众多37岁人脂肪含量的平均值. 说明:年龄的取值范围为23—61岁,一般在这个年龄范围内估计脂肪含量时误差相对较小,如果估计80岁人的脂肪含量,误差会很大,结果不可靠. 例2 某博物馆发现文物被盗,公安刑侦人员经过分析,推测案犯的身高在175㎝左右.刑侦人员是如何推断的呢?原来在现场发现了案犯的脚印,测量脚印的长度为25.5㎝,已知成年人的脚印长x和身高y之间存在线性相关关系,回归方程为.因此可以从脚印的长度,推断其大致身高,为破案提供重要线索. 例3 英国遗传学家高尔顿(Francis Galton,1822-1911年)在子女与父母相像程度遗传学研
26、究方面,取得了重要进展.高尔顿的学生卡尔·皮尔逊(Karl Pearson,1857-1936年)在继续这一遗传学研究的过程中,测量了1078个父亲及其成年儿子的身高.用x表示父亲的身高,y表示儿子的身高(单位为英寸).求得回归方程为(如图所示),发现了一个重要的规律.主要计算结果及描述见下表: 计算结果 关系描述 子代的平均身高大于父代的平均身高,大约高1英寸. 父亲的身高与儿子的身高线性正相关,相关关系较弱.一般高个子的父亲儿子身材也较高,而矮个子父亲的儿子身材也较矮. 时, 时, 较矮父亲的儿子们的平均身高比父亲要高.较高父亲的儿子们的平均身高比父亲要矮.有回归到一般高度的趋势. 高尔顿和皮尔逊把这种现象称为“回归效应”,现在人们把由一个变量的变化去推断另一个变量变化的方法统称为回归分析. 参考文献 [1] 袁卫,庞皓,曾五一.统计学.高等教育出版社,2000年. [2] 魏宗舒等.概率论与数理统计教程.高等教育出版社,1983年. [3] (美)John Tabak 著,杨静译.不明确的科学.商务印书官,2008年
©2010-2025 宁波自信网络信息技术有限公司 版权所有
客服电话:4009-655-100 投诉/维权电话:18658249818