资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,8.1 成对数据的统计相关性,8.1.1,变量的相关关系,变量的相关关系,如果,两个变量之间有关系,但又没有确切到可由,其中的,一,个去精确地决定,另一个的程度,这种关系称为,相关,关系,相关关系是相对于,函数,关系而言,的,相关,关系普遍存在,如:,(1),子女,的身高,y,与父亲的身高,x,之间的关系,;,(2),商品,的销售收入,y,与广告投入的费用,x,之间的关系,;,(3),粮食的亩产量,y,与施肥量,x,之间的,关系;,(4),.,例,1,:,在,下列量与量的关系中,是相关关系的有,.,正方体的体积与棱长间的关系;,匀速行驶车辆的行驶距离与时间;,人的身高与年龄的关系;,家庭的支出与收入的关系;,正方体的表面积与体积;,光照时间与果树的产量;,某运动会中某代表团的足球队的比赛成绩与乒乓球队的比赛成绩,.,关系,项目,函数关系,相关关系,相同点,都是两个变量间的关系,不同点,是一种确定关系,是一种非确定关系,是一种因果关系,不一定是因果关系,也可能是伴随关系,问题,:相关关系与函数关系的异同点?,1.,两个变量之间的相关关系的确定,经验,判断;,数据判断:样本数据分析,建立模型,估计或,推断,例,2,:,在,一次对人体脂肪,含量,百分比,和,年龄的关系的研究中,研究人员获得了一组样本数据:,(,其中各年龄对应的脂肪数据是这个年龄人群脂肪含量的样本平均数,.,),年龄,23,27,39,41,45,49,50,脂肪,9.5,17.8,21.2,25.9,27.5,26.3,28.2,年龄,53,54,56,57,58,60,61,脂肪,29.6,30.2,31.4,30.8,33.5,35.2,34.6,根据上述数据,人体的脂肪含量与年龄之间有怎样的关系?,为了,确定年龄和人体脂肪含量之间的更明确的关系,我们需要对数据进行分析,通过作图可以对两个变量之间的关系有一个直观的印象。,以,x,轴表示年龄,,y,轴表示脂肪含量,,,你能在直角坐标系中描出样本数据对应的图形吗?,年龄,/,岁,脂肪含量,/%,可以发现,这些散点大致落在一条从左下角到右上角的直线附近,表明随年龄值的增加,相应的脂肪含量值呈现增高的趋势,。,这样,由成对样本数据的分布规律,我们可以推断脂肪含量变量和年龄变量之间存在着相关关系.,1.,两个变量之间的相关关系的确定,经验,判断;,数据判断:样本数据分析,建立模型,估计或,推断,2,.,样本数据特征的直观展示,散点图,我们,把表格中每一组成对样本数据在平面直角坐标系中用点一一表示出来,由这些点组成了如图所示的统计图,我们把这种统计图称为,散点图,.,正相关和负相关,如果从,整体上看,当一个变量的值增加时,另一个变量的,相应值,也呈现增加的趋势,我们就称这两个变量,正相关,;,若,当一个变量的值增加时,另一个变量的,相应值,呈现减少的趋势,我们就称这两个变量,负相关,散点图中的点散布在,从左下角到右上角,的区域,散点图中的点散布在,从左上角到右下角,的区域,两个变量正相关、负相关时,成对样本数据的散点图有什么特点?,散点图是描述成对数据之间关系的一种直观方法。,一般地,,,如果两个变量的取值呈现正相关或负相关,而且散点落在一一条直线附近,我们就称这两个变量,线性相关,。,1.,线性相关,2.,非线性相关,一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量,非线性相关或曲线相关,.,例,3,:某公司的利润,y,(单位:千万元)与销售总额,x,(单位:千万元)之间有如下表对应数据:,(,1,)画出散点图;,(,2,)判断,y,与,x,是否具有线性相关关系。,x,10,15,17,20,25,28,32,y,1,1.3,1.8,2,2.6,2.7,3.3,在,研究两个变量之间是否存在某种关系时,必须从散点图入手对于散点图,可以做出如下判断,:,(,1,),如果所有的样本点都落在某一函数,曲线上,,就用该函数来描述变量之间的关系,即变量之间具有函数关系;,(,2,),如果所有的样本点都落在某一函数曲线,附近,,变量之间就有相关关系;,(,3,),如果所有的样本点都落在某一直线,附近,,变量之间就有线性相关关系,成对样本数据,散点图,变量相关关系,定性推断,这两组成对变量都是线性正相关,你能判断哪一组的线性相关性更强吗?,散点图虽然直观,但无法确切地反映成对样本数据的,相关程度,,也就无法量化两个变量之间相关程度的大小。,能否像引入平均值、方差等数字特征对单个变量数据进行分析那样,引入一个适当的“数字特征”,对成对样本数据的相关程度进行,定量分析,呢?,根据散点图特征,初步构造统计量:,年龄,/,岁,脂肪含量,/%,中心化,成对样本数据:,将数据以,为零点进行平移,得到平移后的数据为:,根据散点图特征,初步构造统计量:,年龄,/,岁,脂肪含量,/%,中心化,一般地,如果变量,x,和变量,y,正相关,那么关于均值平移后的大多数点将分布在,第一、三象限,,对应的成对数据,同号居多,;如果变量,x,和变量,y,负相关,,那么关于均值平移后的大多数点将分布在,第二、四象限,,对应的成对数据,异号居多,。,利用散点,的横纵坐标是否同号,可以构造一个量:,一般情形下,,表明成对样本数据,正相关,;,表明成对样本数据,负相关,在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高单位由米改为厘米,单位的改变不会改变体重与身高之间的相关程度。,改变前:,改变后:,你认为,的大小一定能度量出成对样本数据的相关程度吗?,我们发现,,的大小,与数据的度量单位有关,,所以不能直接用它度量成对样本数据相关程度的大小。,为了消除单位的影响,进一步做,“,标准化,”,处理:,为简单起见,把上述“标准化”处理后的成对数据分别记,为:,仿照,L,xy,的构造,可以得到,我们称,r,为变量,x,和变量,y,的,样本线性相关系数,,简称,样本相关系数,.,当,r,0,时,称成对样本数据,正,相关;,当,r,0.75,则线性相关较为显著,否则不显著,练习:对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是,(,),A,r,2,r,4,0,r,3,r,1,B,r,4,r,2,0,r,1,r,3,C,r,4,r,2,0,r,3,r,1,D,r,2,r,4,0,r,1,r,3,年龄/岁,23,27,39,41,45,49,50,脂肪含量/%,9.5,17.8,21.2,25.9,27.5,26.3,28.2,年龄/岁,53,54,56,57,58,60,61,脂肪含量/%,29.6,30.2,31.4,30.8,33.5,35.2,34.6,例,4.,根据下表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.,参考数据,:,解:先画出散点图,可以,看出样本点都集中在一条直线附近,,由此,推断脂肪含量和年龄线性相关。,年龄,/,岁,脂肪含量,/%,由样本相关系数,r,0.97,可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强,脂肪含量与年龄变化趋势相同。,练习:随机抽取,7,家超市,得到其广告支出与销售额数据如下:,超市,A,B,C,D,E,F,G,广告支出/万元,1,2,4,6,10,14,20,销售额,/,万元,19,32,44,40,52,53,54,请推断超市的销售额和广告支出之间的相关关系的类型、相关程度和变化趋势的特征。,谢,谢,!,
展开阅读全文