1、 第3节 成对数据的统计分析 知识点、方法 基础巩固练 综合运用练 应用创新练 散点图、回归分析 2,4,5,7 11,12,13 2×2列联表、独立性检验 1,3,6,8,9 10,14 15 1.疫苗是为预防、控制传染病的发生、流行,用于人体预防接种的预防性生物制品,其前期研发过程中,一般都会进行动物保护测试,为了考察某种疫苗预防效果,在进行动物试验时,得到统计数据如表, 疫苗 传染病 合计 未发病 发病 未注射 20 注射 30 合计 50 50 100 附表及公式: α 0.05 0.01
2、 0.005 0.001 xα 3.841 6.635 7.879 10.828 χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d. 现从试验动物中任取一只,取得“注射疫苗”的概率为25(视频率为概率),则下列判断错误的是( D ) A.注射疫苗发病的动物数为10 B.从该试验未注射疫苗的动物中任取一只,发病的概率为23 C.能在犯错概率不超过0.001的前提下,认为疫苗有效 D.该疫苗的有效率为75% 解析:由题意知,注射疫苗动物共40只,未注射为60只,补充2×2列联表, 疫苗 传染病 合计 未发病 发病 未注射
3、20 40 60 注射 30 10 40 合计 50 50 100 由此可得A,B正确. 计算得χ2=100×(20×10-40×30)260×40×50×50≈16.67>10.828, 故能在犯错概率不超过0.001的前提下认为疫苗有效.C正确,D错误.故选D. 2.已知某产品的销售额y(单位:万元)与广告费用x(单位:万元)之间的关系如下表: x/万元 0 1 2 3 4 y/万元 10 15 m 30 35 若根据表中的数据用最小二乘法求得y与x的经验回归方程为y^= 6.5x+9,则下列说法中错误的是( C ) A.产品的销售
4、额与广告费用成正相关 B.该经验回归直线过点(2,22) C.当广告费用为10万元时,销售额一定为74万元 D.m的值是20 解析:由经验回归方程y^=6.5x+9中的回归系数6.5>0,可知产品的销售额与广告费用成正相关,故A中的说法正确; x=0+1+2+3+45=2,y=10+15+m+30+355=90+m5,代入y^=6.5x+9,得90+m5=6.5× 2+9,解得m=20,故D中的说法正确; y=90+m5=90+205=22,则该经验回归直线过点(2,22),故B中的说法正确; 当x=10时,y^=6.5×10+9=74,说明当广告费用为10万元时,销售额预计为
5、74万元,故C中的说法错误.故选C. 3.(多选题)(2021·福建福州一模)“一粥一饭,当思来之不易”,道理虽简单,但每年我国还是有2 000多亿元的餐桌浪费,被倒掉的食物相当于2亿多人一年的口粮.为营造“节约光荣,浪费可耻”的氛围,某市发起了“光盘行动”.某机构为调研民众对“光盘行动”的认可情况,在某大型餐厅中随机调查了90位来店就餐的客人,制成如表所示的列联表: 年龄 是否认可 合计 认可 不认可 40岁以下 20 20 40 40岁以上(含40岁) 40 10 50 合计 60 30 90 已知P(χ2≥6.635)=0.010,P(χ2≥10.8
6、28)=0.001,则下列判断正确的是( AC ) A.在该餐厅用餐的客人中大约有66.7%的客人认可“光盘行动” B.在该餐厅用餐的客人中大约有99%的客人认可“光盘行动” C.有99%的把握认为“光盘行动”的认可情况与年龄有关 D.在犯错误的概率不超过0.001的前提下,认为“光盘行动”的认可情况与年龄有关 解析:通过计算得χ2的观测值为9,且P(χ2≥6.635)=0.010,P(χ2≥10.828)=0.001,又因为9>6.635,但9<10.828,所以有99%的把握认为“光盘行动”的认可情况与年龄有关,或者说,在犯错误的概率不超过0.010的前提下,认为“光盘行动”的认
7、可情况与年龄有关,所以选项C正确,选项D错误;由表可知认可“光盘行动”的人数为60,所以在该餐厅用餐的客人中认可“光盘行动”的比例为6090×100%≈66.7%,故选项A正确,选项B错误.故选AC. 4.(多选题)(2021·湖北武汉高三二模)在对具有相关关系的两个变量进行回归分析时,若两个变量不呈线性相关关系,可以建立含两个待定参数的非线性模型,并引入中间变量将其转化为线性关系,再利用最小二乘法进行线性回归分析.下列选项为四个同学根据自己所得数据的散点图建立的非线性模型,且散点图的样本点均位于第一象限,则其中可以根据上述方法进行回归分析的模型有( ABC ) A.y=c1x2+c2x
8、 B.y=x+c1x+c2 C.y=c1+ln(x+c2) D.y=c1ex+c2 解析:对于选项A,y=c1x2+c2x⇒yx=c1x+c2, 令u=yx则u=c1x+c2; 对于选项B,y=x+c1x+c2=1+c1-c2x+c2⇒y-1=c1-c2x+c2⇒1y-1=x+c2c1-c2=1c1-c2·x+c2c1-c2, 令u=1y-1⇒u=1c1-c2·x+c2c1-c2; 对于选项C,y=c1+ln(x+c2)⇒y-c1=ln(x+c2)⇒ey-c1=x+c2, 即ey=ec1·(x+c2),令u=ey, 则u=ec1·(x+c2)=ec1·x+c2·ec1; 对于
9、选项D,y=c1ex+c2⇒ln y=ln c1+x+c2, 令u=ln y,则u=x+ln c1+c2, 此时斜率为1,与最小二乘法不符.故选ABC. 5.(多选题)(2021·湖南衡阳高三一模)5G技术的运用不仅提高了网络传输速度,更拓宽了网络资源的服务范围.目前,我国加速了5G技术的融合与创新,前景美好.某手机商城统计了2020年中5个月的5G手机销量,如表所示, 月份 6月 7月 8月 9月 10月 月份编号x 1 2 3 4 5 销量y/部 52 95 a 185 227 若y与x线性相关,由表中数据求得经验回归方程为y^=44x+10,则
10、下列说法正确的是( BC ) A.5G手机的销量逐月增加,平均每个月增加约10台 B.a=151 C.y与x正相关 D.预计12月份该手机商城的5G手机销量约为328部 解析:由表中数据可知 x=15×(1+2+3+4+5)=3, 又因为经验回归方程为y^=44x+10, 代入回经验归方程,解得y=142, 所以y=15×(52+95+a+185+227)=142, 解得a=151, 由此知5G手机的销量逐月增加,平均每个月增加约44台, 将x=7代入经验回归方程得y^=318, 因为44>0,所以y与x正相关.故选BC. 6.(2021·河北衡水中学期末)有两个分类
11、变量x和y,其中一组观测值为如表的2×2列联表: x y 合计 y1 y2 x1 a 15-a 15 x2 20-a 30+a 50 合计 20 45 65 其中a,15-a均为大于5的整数,则a= 时,在犯错误的概率不超过0.01的前提下认为“x和y之间有关系”. 附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d). α 0.10 0.05 0.025 0.010 0.005 xα 2.706 3.841 5.024 6.635 7.879 解析:由题意知χ2≥6.635,则 65[a(30+a)-(
12、20-a)(15-a)]220×45×15×50=13(13a-60)25 400≥6.635,解得a≥8.65或a≤0.58,因为a>5且15-a>5,a∈Z,综上得,8.65≤a<10,a∈Z,所以a=9. 答案:9 7.如图是一组数据(x,y)的散点图,经最小二乘估计公式计算,y与x之间的经验回归方程为y^=b^x+1,则b^= . 解析:由题图知x=0+1+3+44=2, y=0.9+1.9+3.2+4.44=2.6, 将(2,2.6)代入y^=b^x+1中,解得b^=0.8. 答案:0.8 8.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具
13、体情况如表: 专业 性别 非统计专业 统计专业 男 13 10 女 7 20 为了检验主修统计专业是否与性别有关,根据表中的数据得到χ2≈ (精确到0.001).若断定主修统计专业与性别有关系,这种判断出错的可能性为 . 附表及公式: α 0.05 0.01 0.001 xα 3.841 6.635 10.828 χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d. 解析:由题意, χ2=50×(13×20-10×7)223×27×20×30≈4.844. 因为4.844>3.841,所
14、以断定主修统计专业与性别有关系,这种判断出错的可能性为0.05. 答案:4.844 0.05 9.(2021·全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如表: 一级品 二级品 合计 甲机床 150 50 200 乙机床 120 80 200 合计 270 130 400 (1)甲机床、乙机床生产的产品中一级品的频率分别是多少? (2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异? 附:K2=n(ad-bc)2(a+b)(c+d
15、)(a+c)(b+d), P(K2≥k) 0.050 0.010 0.001 k 3.841 6.635 10.828 解:(1)甲机床生产的产品中的一级品的频率为150200=0.75,乙机床生产的产品中的一级品的频率为120200=0.6. (2)K2=400×(150×80-120×50)2270×130×200×200=40039>10>6.635, 故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异. 10.(多选题)有甲、乙两个班级进行数学考试,按照大于等于120分为优秀,120分以下为非优秀统计成绩,得到如下2×2列联表: 班级 成绩 合
16、计 优秀 非优秀 甲班 10 b 乙班 c 30 合计 105 已知在这105人中随机抽取1人,成绩优秀的概率为27(视频率为概率),则下列说法正确的是( BC ) 附表及公式: α 0.05 0.01 0.001 xα 3.841 6.635 10.828 χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d. A.列联表中c的值为30,b的值为35 B.列联表中c的值为20,b的值为45 C.根据列联表中的数据,若依据小概率值α=0.05的独立性检验,则能认为成绩与班级有关系 D.根据列联表中
17、的数据,若依据小概率值α=0.05的独立性检验,则不能认为成绩与班级有关系 解析:因为在这105人中随机抽取1人,成绩优秀的概率为27, 所以成绩优秀的人数为105×27=30,非优秀的人数为105-30=75, 所以c=30-10=20,b=75-30=45, 所以χ2=105×(10×30-20×45)230×75×50×55≈6.109>3.841=x0.05, 所以依据小概率值α=0.05的独立性检验,能认为成绩与班级有关系.故选BC. 11.(多选题)某同学将收集到的六组数据(xi,yi)(i=1,2,3,4,5,6)制成如图所示的散点图,并通过计算得到其经验回归直线l1
18、的方程为y^=0.68x+a^,其样本相关系数为r1,决定系数为R12.经过残差分析确定点F为“离群点”(对应残差过大的点),把它去掉后,再利用剩下的五组数据计算得到其经验回归直线l2的方程为y^=b^x+0.68,其样本相关系数为r2,决定系数为R22.则以下结论中正确的是( ACD )
A.r1>0,r2>0 B.R12>R22
C.a^=0.12 D.00,r2>0,且r1 19、回归直线l1:y^=0.68x+a^必经过点(3.5,2.5),所以a^=2.5-0.68×3.5=0.12.故C中结论正确;经验回归直线l2:y^=b^x+0.68必经过点(3,2),所以2=b^×3+0.68,所以b^=
0.44,故D中结论正确.故选ACD.
12.(2021·黑龙江哈尔滨高三三模)在一次考试中,5名学生的数学和物理成绩如表(已知学生的数学成绩和物理成绩具有线性相关关系):
学生的编号i
1
2
3
4
5
数学成绩x
80
75
70
65
60
物理成绩y
70
66
68
64
62
现已知其经验回归方程为y^=0.36x+ 20、a^,则a^= ,根据此线性回归方程估计数学得90分的同学的物理成绩为 (四舍五入到整数).
解析:x=60+65+70+75+805=70,
y=62+64+66+68+705=66,
所以66=0.36×70+a^,即a^=40.8,
即经验回归方程为y^=0.36x+40.8.
当x=90时,y^=0.36×90+40.8=73.2≈73.
答案:40.8 73
13.(2020·新高考Ⅰ卷)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),统计数据如表:
SO2
P 21、M2.5
[0,50]
(50,150]
(150,475]
[0,35]
32
18
4
(35,75]
6
8
12
(75,115]
3
7
10
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
SO2
PM2.5
[0,150]
(150,475]
[0,75]
(75,115]
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?
附:K2=n(ad-bc)2(a+b 22、)(c+d)(a+c)(b+d),
解:(1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为64100=
0.64.
(2)根据抽查数据,可得2×2列联表:
SO2
PM2.5
[0,150]
(150,475]
[0,75]
64
16
(75,115]
10
10
(3)根据(2)的列联表得
K2=100×(64×10-16×10)280×20×74×26≈7.484.
由于7.484>6 23、635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
14.(2021·广东汕头模拟)某二手车经销商对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到数据如表所示,
使用年数x
2
3
4
5
6
7
售价y
20
12
8
6.4
4.4
3
z=ln y
3.00
2.48
2.08
1.86
1.48
1.10
如图所示,z关于x的折线图:
(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用样本相关系数加以说明;
(2)求y关于x的经验回归方程,并预测某 24、辆A型号二手车使用年数为9年时售价约为多少(b^,a^小数点后保留两位有效数字);
(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的经验回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年.
参考公式:b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2=∑i=1nxiyi-nxy∑i=1nxi2-nx2,
a^=y-b^x,r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2.
参考数据:∑i=16xiyi=187.4,∑i=16xizi=47.64,∑i=16xi2=139,∑i=16(xi-x) 25、2≈4.18,∑i=16(yi-y)2≈13.96,
∑i=16(zi-z)2≈1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34.
解:(1)由题意知x=16×(2+3+4+5+6+7)=4.5,
z=16×(3+2.48+2.08+1.86+1.48+1.10)=2,
又∑i=16xizi=47.64,∑i=16(xi-x)2≈4.18,
∑i=16(zi-z)2≈1.53,
所以r≈47.64-6×4.5×24.18×1.53=-6.366.395 4≈-0.99,
所以z与x的样本相关系数大约为-0.99,说明z与x的线性相关程度很高.
(2)b^=4 26、7.64-6×4.5×2139-6×4.52=-6.3617.5≈-0.36,
所以a^=z-b^x=2+0.36×4.5=3.62,
所以z与x的经验回归方程是z^=-0.36x+3.62,又z=ln y,
所以y关于x的经验回归方程是y^=e-0.36x+3.62.
令x=9,得y^=e-0.36×9+3.62=e0.38.
因为ln 1.46≈0.38,所以y^≈1.46,
即预测某辆A型号二手车使用年数为9年时售价约为1.46万元.
(3)当y^≥0.711 8,
即e-0.36x+3.62≥0.711 8=eln 0.711 8≈e-0.34时,
则有-0.36x+ 27、3.62≥-0.34,解得x≤11,
因此,预测在收购该型号二手车时车辆的使用年数不得超过11年.
15.(2021·广东广州调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X(单位:h)都在30 h以上,其中不足50 h 的有5周,不低于50 h且不超过70 h的有35周,超过70 h的有10周.根据统计,该基地的西红柿增加量y(单位:kg)与使用某种液体肥料的质量x(单位:kg)之间的对应数据如折线图
所示.
(1)依据折线图计算样本相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x的关系;(若|r|>0.75,则线性 28、相关程度很高,可用线性回归模型拟合)
(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如表所示的关系:
周光照量X/ h
30 29、
参考数据:0.3≈0.55,0.9≈0.95.
解:(1)由已知数据可得x=2+4+5+6+85=5,
y=3+4+4+4+55=4.
因为∑i=15(xi-x)(yi-y)=(-3)×(-1)+0+0+0+3×1=6,
∑i=15(xi-x)2=(-3)2+(-1)2+02+12+32=25,
∑i=15(yi-y)2=(-1)2+02+02+02+12=2,
所以样本相关系数
r=∑i=15(xi-x)(yi-y)∑i=15(x-x)2∑i=15(yi-y)2=625×2=910≈0.95.
因为|r|>0.75,所以可用线性回归模型拟合y与x的关系.
(2)由条件可得在过去50周里,
当X>70时,共有10周,此时只有1台光照控制仪运行,
每周的总利润为1×3 000-2×1 000=1 000(元).
当50≤X≤70时,共有35周,此时有2台光照控制仪运行,
每周的总利润为2×3 000-1×1 000=5 000(元).
当30






