1、变量间的相关关系_统计案例知识能否忆起一、变量间的相关关系1常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系2从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关二、两个变量的线性相关1从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线2回归方程为x,其中,.3通过求的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法4相关系数,当r
2、0时,说明两个变量正相关;当r0时,说明两个变量负相关r的绝对值越接近于1,说明两个变量的线性相关性越强r的绝对值越接近于0时,说明两个变量之间几乎不存在线性相关关系通常|r|大于0.75时,认为两个变量有很强的线性相关性三、独立性检验122列联表:假设有两个分类变量X和Y,它们的值域分别为x1,x2和y1,y2,其样本频数列联表(称22列联表)为:y1y2合计x1ababx2cdcd总计acbdabcdK2(其中nabcd为样本容量)2用K2的大小可以决定是否拒绝原来的统计假设H0,假设K2值较大,就拒绝H0,即拒绝事件A与B无关3当K23.841时,那么有95%的把握说事件A与B有关;当K
3、26.635时,那么有99%的把握说事件A与B有关;当K22.706时,那么有90%的把握说事件A与B有关小题能否全取1(教材习题改编)观察以下各图形其中两个变量x、y具有相关关系的图是()ABCD解析:选C由散点图知具有相关关系2(教材习题改编)变量x,y之间具有线性相关关系,其回归方程为3bx,假设i17,i4,那么b的值为()A2B1C2D1解析:选A依题意知,1.7,0.4,而直线3bx一定经过点(,),所以3b1.70.4,解得b2.3在一次对性别与说谎是否相关的调查中,得到如下数据:说谎不说谎合计男6713女8917合计141630根据表中数据,得到如下结论中正确的一项为哪一项()
4、A在此次调查中有95%的把握认为是否说谎与性别有关B在此次调查中有99%的把握认为是否说谎与性别有关C在此次调查中有99.5%的把握认为是否说谎与性别有关D在此次调查中没有充分的证据显示说谎与性别有关解析:选D由于K20.0024,由于K2很小,因此,在此次调查中没有充分的证据显示说谎与性别有关应选D.4某考察团对全国10大城市的居民人均工资收入x(万元/年)与居民人均消费y(万元/年)进行统计调查,发现y与x具有相关关系,且y对x的回归方程为0.66x1.562.假设某城市居民人均消费为7.675(万元/年),估计该城市人均消费占人均工资收入的百分比约为_解析:因为当7.675时,x9.26
5、2,那么0.82983%.答案:83%5x,y之间的数据如表所示,那么回归直线过点_.x12345y1.21.82.53.23.8解析:3,2.5,样本点中心为(3,2.5),回归直线过样本点中心答案:(3,2.5)1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否那么,求出的线性回归方程毫无意义2由回归方程进行预报,仅是一个预报值,而不是真实发生的值3使用K2统计量作22列联表的独立性检验时,要求表中的4个数据都要大于5,在选取样本容量时一定要注意相关关系的判断典题导入例1(2022新课标全国卷)在一组样本数据(x1,y1)
6、,(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,假设所有样本点(xi,yi)(i1,2,n)都在直线yx1上,那么这组样本数据的样本相关系数为()A1B0C.D1自主解答因为所有的点都在直线上,所以它就是确定的函数关系,所以相关系数为1.答案D由题悟法1相关关系的判断方法一是利用散点图直观判断,二是利用相关系数作出判断2对于由散点图作出相关性判断时,假设散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,假设呈曲线型也是有相关性3由相关系数r判断时|r|越趋近于1相关性越强以题试法1.变量x,y之间具有线性相关关系,其散点图如下列图,那么其回归方程可能为()A
7、.1.5x2B.1.5x2C.1.5x2D.1.5x2解析:选B设回归方程为bxa.由散点图可知变量x、y之间负相关,回归直线在y轴上的截距为正数,所以b0,a0,因此其回归直线方程可能为1.5x2.回归方程的求法及回归分析典题导入例2(2022福建高考)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元)88.28.48.68.89销量y(件)908483807568(1)求回归直线方程bxa,其中b20,ab;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的本钱是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元
8、(利润销售收入本钱)自主解答(1)由于(x1x2x3x4x5x6)8.5,(y1y2y3y4y5y6)80.所以ab80208.5250,从而回归直线方程为20x250.(2)设工厂获得的利润为L元,依题意得Lx(20x250)4(20x250)20x2330x1000202361.25.当且仅当x8.25时,L取得最大值故当单价定为8.25元时,工厂可获得最大利润由题悟法1最小二乘法估计的一般步骤:(1)作出散点图,判断是否线性相关;(2)如果是,那么用公式求,写出回归方程;(3)根据方程进行估计2回归直线方程必过定点(,)以题试法2(2022长春模拟)x、y取值如下表:x014568y1.
9、31.85.66.17.49.3从所得的散点图分析可知:y与x线性相关,且0.95xa,那么a()A1.30B1.45C1.65D1.80解析:选B依题意得,(014568)4,(1.31.85.66.17.49.3)5.25;又直线0.95xa必过中心点(,),即点(4,5.25),于是有5.250.954a,由此解得a1.45.独立性检验典题导入例3(2022湖南衡阳第二次联考)衡阳市第一次联考后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀统计成绩后,得到如下的22列联表,且在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为.
10、优秀非优秀合计甲班10乙班30合计110(1)请完成上面的列联表;(2)根据列表中的数据,假设按99.9%的可靠性要求,能否认为“成绩与班级有关系参考公式与临界值表:K2P(K2k0)0.1000.0500.0250.0100.001k02.7063.8415.0246.63510.828自主解答(1)列联表如下:优秀非优秀合计甲班105060乙班203050合计3080110(2)根据列联表中的数据,得到K27.48610.828.因此按99.9%的可靠性要求,不能认为“成绩与班级有关系由题悟法1独立性检验的一般步骤:(1)根据样本数据制成22列联表;(2)根据公式K2计算K2的值;(3)查表比较K2与临界值的大小关系,作统计判断2在实际问题中,独立性检验的结论也仅仅是一种数学关系,得到的结论也可能犯错误以题试法3(2022嘉兴联考)为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下22列联表:理科文科合计男131023女72027合计203050P(K23.841)0.05,P(K25.024)0.025.根据表中数据,得到K24.844,那么认为选修文科与性别有关系出错的可能性约为_解析:由K24.8443.841.故认为选修文科与性别有关系出错的可能性约为5%.答案:5%
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100