1、第3讲变量间的相关关系、统计案例1变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关2两个变量的线性相关(1)从散点图上看,假如这些点从整体上看大致分布在通过散点图中心的一条直线四周,称两个变量之间具有线性相关关系,这条直线叫回归直线(2)回归方程为x,其中,(3)通过求Q (yibxia)2的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小
2、,这一方法叫做最小二乘法(4)相关系数:当r0时,表明两个变量正相关;当r0时,x与y正相关,当0,故2007年至2021年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元将2021年的年份代号t9代入(1)中的回归方程,得0.592.36.8,故猜想该地区2021年农村居民家庭人均纯收入为6.8千元规律方法(1)求回归直线方程前应通过散点图或相关系数进行相关性检验,确定是否有必要依据公式求回归直线方程,从而有依据地进行猜想(2)求线性回归方程的步骤:计算,;计算x i y i , x i计算=;写出回归方程x2.(1)(2022高考湖北卷)依据如下样本数据x345678y4.02
3、.50.50.52.03.0得到的回归方程为bxa,则()Aa0,b0 Ba0,b0Ca0,b0 Da0,b0(2)(2021石家庄市第一次模拟)登山族为了了解某山高y(km)与气温x()之间的关系,随机统计了4次山高与相应的气温,并制作了对比表:气温()1813101山高(km)24343864由表中数据,得到线性回归方程2x(R)由此估量山高为72(km)处气温的度数为()A10 B8C6 D4解析:(1)选B.作出散点图如下:观看图象可知,回归直线bxa的斜率b0,当x0时,a0.故a0,b0.(2)选C.10, 40,样本中心点为(10,40),回归直线过样本中心点,4020,即60,
4、线性回归方程为2x60,山高为72(km)处气温的度数为6,故选C._独立性检验_(2022高考辽宁卷节选)某高校餐饮中心为了解新生的饮食习惯,在全校一班级同学中进行了抽样调查,调查结果如下表所示:宠爱甜品不宠爱甜品合计南方同学602080北方同学101020合计7030100依据表中数据,问是否有95%的把握认为“南方同学和北方同学在选用甜品的饮食习惯方面有差异”附:K2P(K2k)0.1000.0500.010k2.7063.8416.635解将22列联表中的数据代入公式计算,得K24.762.由于4.7623.841,所以有95%的把握认为“南方同学和北方同学在选用甜品的饮食习惯方面有差
5、异”规律方法独立性检验的一般步骤:(1)依据样本数据制成22列联表;(2)依据公式K2计算K2的值;(3)查表比较K2与临界值的大小关系,作统计推断3.2022年世界杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否宠爱德国队进行调查,40岁以上调查了50人,不高于40岁调查了50人,所得数据制成如下列联表:不宠爱德国队宠爱德国队总计40岁以上pq50不高于40岁153550总计ab100已知工作人员从全部统计结果中任取一个,取到宠爱德国队的人的概率为,则有超过_的把握认为年龄与德国队的被宠爱程度有关附:K2P(K2k)0.150.100.050.0250.0100.0050.001k2
6、.0722.7063.8415.0246.6357.87910.828解析:设“从全部人中任意抽取一个,取到宠爱德国队的人”为大事A,由已知得P(A),所以p25,q25,a40,b60,K24.1673.841,故有超过95%的把握认为年龄与德国队的被宠爱程度有关答案:95%1(2021泸州模拟)为争辩变量x和y的线性相关性,甲、乙二人分别做了争辩,利用回归分析的方法得到回归直线l1和l2,两人计算得相同,也相同,则下列结论正确的是()Al1与l2重合Bl1与l2确定平行Cl1与l2相交于点(,)D无法推断l1和l2是否相交解析:选C由于回归直线经过样本点的中心(,),故两直线都经过点(,)
7、,而,相同不能得到,确定相同,故选C2(2021大连市双基测试)对于下列表格所示的五个散点,已知求得的线性回归直线方程为08x155x196197200203204y1367m则实数m的值为()A8 B82C84 D85解析:选A依题意得(196197200203204)200,(1367m),回归直线必经过样本中心点,于是有08200155,由此解得m8故选A3通过随机询问110名性别不同的高校生是否爱好某项运动,得到如下的列联表:男女合计爱好402060不爱好203050合计6050110由K2,算得K278附表:P(K2k)005000100001k3841663510828参照附表,得
8、到的正确结论是()A在犯错误的概率不超过01%的前提下,认为“爱好该项运动与性别有关”B在犯错误的概率不超过01%的前提下,认为“爱好该项运动与性别无关”C有99%以上的把握认为“爱好该项运动与性别有关”D有99%以上的把握认为“爱好该项运动与性别无关”解析:选C依据独立性检验的定义,由K2786635,可知我们在犯错误的概率不超过001的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C4(2021郑州市其次次质量猜想)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元)456789销量y(件)908483807568由表中数
9、据,求得线性回归方程为4xa若在这些样本点中任取一点,则它在回归直线左下方的概率为()A BC D解析:选B由表中数据得65,80,由4a,得a106,故线性回归方程为4x106将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入回归方程可知有6个基本大事,因844510686,683841,所以断定主修统计专业与性别有关系,这种推断出错的可能性为_解析:由于K23841,所以有95%的把握断定主修统计专业与性别有关系,所以这种推断出错的可能性为5%答案:5%8已知数组(x1,y1),(x2,y2),(x10,y10)满足线性回归方程x,则“(x0,y0
10、)满足线性回归方程x”是“x0(x1x2x10),y0(y1y2y10)”的_条件(填“充分不必要”“必要不充分”或“充要”)解析:当x0,y0为这10组数据的平均值,即x0,y0时,由于线性回归方程x必过样本点的中心(,),因此(x0,y0)确定满足线性回归方程,但满足线性回归方程的除了(,)外,可能还有其他样本点,所以“(x0,y0)满足线性回归方程x”是“x0,y0”的必要不充分条件答案:必要不充分9(2021贵阳市适应性考试)一次考试中,五名同学的数学、物理成果如下表所示:同学A1A2A3A4A5数学成果x(分)8991939597物理成果y(分)8789899293(1)要从5名同学
11、中选2人参与一项活动,求选中的同学中至少有一人的物理成果高于90分的概率;(2)依据上表数据,用变量y与x的相关系数和散点图说明物理成果y与数学成果x之间线性相关关系的强弱假如具有较强的线性相关关系,求y与x的线性回归方程(系数精确到001);假如不具有线性相关关系,请说明理由参考公式:相关系数r回归直线的方程是:x,其中,ybx;i是与xi对应的回归估量值参考数据:x93,y90, (xi)240, (yi)224, (xi)(yi)30,632,490解:(1)从5名同学中任取2名同学的全部状况为:(A1,A2),(A1,A3),(A1,A4),(A1,A5),(A2,A3),(A2,A4
12、),(A2,A5),(A3,A4),(A3,A5),(A4,A5),共10种状况其中至少有一人的物理成果高于90分的状况有:(A1,A4),(A1,A5),(A2,A4),(A2,A5),(A3,A4),(A3,A5),(A4,A5),共7种状况,故选中的同学中至少有一人的物理成果高于90分的概率P(2)变量y与x的相关系数是r097可以看出,物理成果与数学成果呈正相关,散点图如图所示:从散点图可以看出这些点大致分布在一条直线四周,并且在逐步上升,故物理成果与数学成果正相关设y与x的线性回归方程是x,依据所给的数据,可以计算出075,90075932025,所以y与x的线性回归方程是075x2025