收藏 分销(赏)

2021-2022学年新课标A版数学选修1-2习题-第一章-统计案例.docx

上传人:a199****6536 文档编号:3831687 上传时间:2024-07-22 格式:DOCX 页数:19 大小:681.98KB
下载 相关 举报
2021-2022学年新课标A版数学选修1-2习题-第一章-统计案例.docx_第1页
第1页 / 共19页
2021-2022学年新课标A版数学选修1-2习题-第一章-统计案例.docx_第2页
第2页 / 共19页
点击查看更多>>
资源描述
_1.1回归分析的基本思想及其初步应用 线性回归方程 [导入新知] 1.回归分析 (1)函数关系是一种确定性关系,而相关关系是一种非确定性关系,即自变量取值确定时,因变量的取值带有确定的随机性的两个变量之间的关系叫做相关关系. (2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,求回归直线方程,并用回归直线方程进行预报. 2.线性回归模型 (1)线性回归模型y=bx+a+e,其中a和 b是模型的未知参数,e称为随机误差.自变量x称为解释变量,因变量y称为预报变量. (2)在回归方程=x+中, ==,=-. 其中=i,=i, (,)称为样本点的中心. [化解疑难] 线性回归方程中系数的含义 (1)是回归直线的斜率的估量值,表示x每增加一个单位,y的平均增加单位数,而不是增加单位数. (2)当>0时,变量y与x具有正的线性相关关系;当<0时,变量y与x具有负的线性相关关系. 线性回归分析 [导入新知] 1.残差分析 (1)残差: 样本点(xn,yn)的随机误差ei=yi-bxi-a,其估量值为i=yi-i=yi-xi-,i称为相应于点(xi,yi)的残差(residual).(以上i=1,2,…,n) (2)残差图: 作图时,纵坐标为残差,横坐标可以选为样本编号,或xi数据,或yi数据,这样作出的图形称为残差图. (3)残差分析: 残差分析即通过残差发觉原始数据中的可疑数据,推断所建立模型的拟合效果,其步骤为:计算残差——画残差图——在残差图中分析残差特性. 残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高. 2.相关指数 我们可以用相关指数R2来刻画回归的效果,其计算公式是: R2=1-. R2越大,残差平方和(yi-i)2越小,即模型的拟合效果越好;R2越小,残差平方和(yi-i)2越大,即模型的拟合效果越差.在线性回归模型中,R2的取值范围为[0,1],R2表示解释变量对于预报变量变化的贡献率,1-R2表示随机误差对于预报变量变化的贡献率.R2越接近于1,表示回归的效果越好. [化解疑难] 残差分析的留意点 在残差图中,可疑数据的特征表现为: (1)个别样本点的残差过大,即大多数的残差点比较均匀地落在水平的带状区域中,而个别残差点偏离该区域过于明显,需要确认在采集这些样本点的过程中是否有人为的错误,假如采集数据有错误,那么需要订正,然后重新利用线性回归模型拟合数据;假如数据采集没有错误,那么需要查找其他缘由. (2)残差图有特殊,即残差呈现不随机的规律性,此时需要考虑所接受的线性回归模型是否合适. 线性回归分析   [例1] 炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,因此必需把握钢水含碳量和冶炼时间的关系.假如已测得炉料熔化完毕时,钢水的含碳量x与冶炼时间y(从炉料熔化完毕到出钢的时间)的一列数据,如下表所示: x(0.01%) 104 180 190 177 147 134 150 191 204 121 y(min) 100 200 210 185 155 135 170 205 235 125 (1)作出散点图,你能从散点图中发觉含碳量与冶炼时间的一般规律吗? (2)求回归方程; (3)猜想当钢水含碳量为160时,应冶炼多少分钟? [解] (1)以x轴表示含碳量,y轴表示冶炼时间,作散点图如图所示: 从图中可以看出,各点散布在一条直线四周,即它们线性相关. (2)列出下表,并用科学计算器进行计算: i 1 2 3 4 5 6 7 8 9 10 xi 104 180 190 177 147 134 150 191 204 121 yi 100 200 210 185 155 135 170 205 235 125 xiyi 10 400 36 000 39 900 32 745 22 785 18 090 25 500 39 155 47 940 15 125 =159.8,=172, =265 448,iyi=287 640 设所求的回归方程为=x+,=≈1.267, =-≈-30.47. 所以所求的回归方程为=1.267x-30.47. (3)当x=160时,=1.267×160-30.47≈173(min),即冶炼时间大约为173 min. [类题通法] 求线性回归方程的步骤 (1)列表表示xi,yi,xiyi; (2)计算 ,,iyi; (3)代入公式计算,的值; (4)写出回归直线方程. [活学活用] 某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据: x 2 4 5 6 8 y 30 40 60 50 70 (1)试依据数据预报广告费支出1 000万元的销售额; (2)若广告费支出1 000万元的实际销售额为8 500万元,求误差. 解:(1)从画出的散点图(图略)可看出,这些点在一条直线四周,可以建立销售额y对广告费支出x的线性回归方程.由题中数据计算可得=5,=50,由公式计算得=6.5,=17.5,所以y对x的线性回归方程为=6.5x+17.5. 因此,对于广告费支出为1 000万元(即10百万元),由线性回归方程可以预报销售额为=6.5×10+17.5=82.5(百万元). (2)8 500万元即85百万元,实际数据与预报值的误差为85-82.5=2.5(百万元). 残差分析 [例2] 某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下: 编号 1 2 3 4 5 6 7 8 9 10 零件数x/个 10 20 30 40 50 60 70 80 90 100 加工时间y/分 62 68 75 81 89 95 102 108 115 122 (1)建立零件数为解释变量,加工时间为预报变量的回归模型,并计算残差; (2)你认为这个模型能较好地刻画零件数和加工时间的关系吗? [解] (1)依据表中数据画出散点图,如图所示. 由图可看出,这些点在一条直线四周,可以用线性回归模型来拟合数据.计算得加工时间对零件数的线性回归方程为=0.668x+54.93. 残差数据如下表: 编号 1 2 3 4 5 残差 0.39 -0.29 0.03 -0.65 0.67 编号 6 7 8 9 10 残差 -0.01 0.31 -0.37 -0.05 0.27 (2)以零件数为横坐标,残差为纵坐标画出残差图如图所示. 由图可知,残差点分布较均匀,即用上述回归模型拟合数据效果很好.但需留意,由残差图可以看出,第4个样本点和第5个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误. [类题通法] 残差分析应留意的问题 利用残差分析争辩两个变量间的关系时,首先要依据散点图来粗略推断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后通过图形来分析残差特性,用残差1,2,…,n来推断原始数据中是否存在可疑数据,用R2来刻画模型拟合的效果. [活学活用] 已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据: x 14 16 18 20 22 y 12 10 7 5 3 求y关于x的回归直线方程,并说明回归模型拟合效果的好坏. 解:=(14+16+18+20+22)=18, =(12+10+7+5+3)=7.4, =142+162+182+202+222=1 660, iyi=14×12+16×10+18×7+20×5+22×3=620, 所以===-1.15, =7.4+1.15×18=28.1, 所以所求回归直线方程是=-1.15x+28.1.列出残差表: yi-i 0 0.3 -0.4 -0.1 0.2 yi- 4.6 2.6 -0.4 -2.4 -4.4 所以(yi-i)2=0.3,(yi-)2=53.2, R2=1-≈0.994, 所以回归模型的拟合效果很好. 非线性回归分析 [例3] 在一次抽样调查中测得样本的5个样本点,数值如下表: x 0.25 0.5 1 2 4 y 16 12 5 2 1 试建立y与x之间的回归方程. [解] 作出变量y与x之间的散点图如图所示. 由图可知变量y与x近似地呈反比例函数关系. 设y=,令t=,则y=kt.由y与x的数据表可得y与t的数据表: t 4 2 1 0.5 0.25 y 16 12 5 2 1 作出y与t的散点图如图所示. 由图可知y与t呈近似的线性相关关系. 又=1.55,=7.2,iyi=94.25,=21.312 5, = =≈4.134 4, =-=7.2-4.134 4×1.55≈0.8, ∴=4.134 4t+0.8. 所以y与x的回归方程是=+0.8. [类题通法] 非线性回归分析的步骤 非线性回归问题有时并不给出阅历公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,选择一种跟这些散点拟合得最好的函数,然后接受适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为: [活学活用] 某电容器充电后,电压达到100 V,然后开头放电,由阅历知道,此后电压U随时间t变化的规律用公式U=Aebt(b<0)表示,现测得时间t(s)时的电压U(V)如下表: t/s 0 1 2 3 4 5 6 7 8 9 10 U/V 100 75 55 40 30 20 15 10 10 5 5 试求:电压U对时间t的回归方程.(提示:对公式两边取自然对数,把问题转化为线性回归分析问题) 解:对U=Aebt两边取对数得ln U=ln A+bt,令y=ln U,a=ln A,x=t,则y=a+bx,y与x的数据如下表: x 0 1 2 3 4 5 6 7 8 9 10 y 4.6 4.3 4.0 3.7 3.4 3.0 2.7 2.3 2.3 1.6 1.6 依据表中数据画出散点图,如图所示,从图中可以看出,y与x具有较好的线性相关关系,由表中数据求得=5,≈3.045,由公式计算得≈-0.313,=-=4.61,所以y对x的线性回归方程为=-0.313x+4.61. 所以ln =-0.313t+4.61,即=e-0.313t+4.61=e-0.313t·e4.61,因此电压U对时间t的回归方程为=e-0.313t·e4.61.      [典例] 下列现象的线性相关程度最高的是(  ) A.某商店的职工人数与商品销售额之间的相关系数为0.87 B.流通费用率与商业利润率之间的相关系数为-0.94 C.商品销售额与商业利润率之间的相关系数为0.51 D.商品销售额与流通费用率之间的相关系数为0.81 [解析] |r|越接近于1,相关程度越高. [答案] B [易错防范] 1.本题易错误地认为r越接近于1,相关程度越高,从而误选A. 2.变量之间线性相关系数r具有如下性质: (1)r2≤1,故变量之间线性相关系数r的取值范围为[-1,1]. (2)|r|越大,变量之间的线性相关程度越高;|r|越接近0,变量之间的线性相关程度越低. (3)当r>0时,两个变量的值总体上呈现出同时增减的趋势,此时称两个变量正相关;当r<0时,一个变量增加,另一个变量有削减的趋势,称两个变量负相关;当r=0时,称两个变量线性不相关. [成功破障] 变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则(  ) A.r2<r1<0       B.0<r2<r1 C.r2<0<r1 D.r2=r1 解析:选C 对于变量X与Y而言,Y随X的增大而增大,故变量Y与X正相关,即r1>0;对于变量U与V而言,V随U的增大而减小,故变量V与U负相关,即r2<0.故r2<0<r1. [随堂即时演练] 1.(湖北高考)四名同学依据各自的样本数据争辩变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论: ①y与x负相关且=2.347x-6.423; ②y与x负相关且=-3.476x+5.648; ③y与x正相关且=5.437x+8.493; ④y与x正相关且=-4.326x-4.578. 其中确定不正确的结论的序号是(  ) A.①②         B.②③ C.③④ D.①④ 解析:选D ①中y与x负相关而斜率为正,不正确;④中y与x正相关而斜率为负,不正确. 2.关于回归分析,下列说法错误的是(  ) A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定 B.线性相关系数可以是正的也可以是负的 C.在回归分析中,假如r2=1或r=±1,说明x与y之间完全线性相关 D.样本相关系数r∈(-1,1) 解析:选D 样本的相关系数应满足-1≤r≤1. 3.在争辩气温存热茶销售杯数的关系时,若求得相关指数R2≈0.85,则表明气温解释了________的热茶销售杯数变化,而随机误差贡献了剩余的________,所以气温对热茶销售杯数的效应比随机误差的效应大得多. 解析:由相关指数R2的意义可知,R2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%. 答案:85% 15% 4.若施肥量x(kg)与小麦产量y(kg)之间的回归直线方程为=250+4x,当施肥量为50 kg时,估量小麦产量为________. 解析:把x=50代入=250+4x,可求得=450. 答案:450 kg 5.某工厂为了对新争辩的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据: 单价x(元) 8 8.2 8.4 8.6 8.8 9 销量y(件) 90 84 83 80 75 68 (1)求回归直线方程=x+,其中=-20,=-; (2)估量在今后的销售中,销量与单价照旧听从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本) 解:(1)=(8+8.2+8.4+8.6+8.8+9)=8.5,=(90+84+83+80+75+68)=80,从而=+20=80+20×8.5=250,故=-20x+250. (2)由题意知,工厂获得利润z=(x-4)y=-20x2+330x-1 000=-202+361.25,所以当x==8.25时,zmax=361.25(元). 即当该产品的单价定为8.25元时,工厂获得最大利润. [课时达标检测] 一、选择题 1.为了争辩变量x和y的线性相关性,甲、乙两人分别利用线性回归方法得到回归直线l1和l2,已知两人计算过程中,分别相同,则下列说法正确的是(  ) A.l1与l2确定平行 B.l1与l2重合 C.l1与l2相交于点(,) D.无法推断l1和l2是否相交 解析:选C 回归直线确定过样本点的中心(,),故C正确. 2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表: 甲 乙 丙 丁 R2 0.98 0.78 0.50 0.85 建立的回归模型拟合效果最好的同学是(  ) A.甲    B.乙    C.丙    D.丁 解析:选A 相关指数R2越大,表示回归模型的效果越好. 3.设某高校的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.依据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是(  ) A.y与x具有正的线性相关关系 B.回归直线过样本点的中心(,) C.若该高校某女生身高增加1 cm,则其体重约增加0.85 kg D.若该高校某女生身高为170 cm,则可断定其体重必为58.79 kg 解析:选D 回归方程中x的系数为0.85>0,因此y与x具有正的线性相关关系,A正确; 由回归方程系数的意义可知回归直线过样本点的中心(,),B正确; 依据回归方程中的含义可知,x每变化1个单位,相应变化约0.85个单位,C正确; 用回归方程对总体进行估量不能得到确定结论,故D不正确. 4.某产品的广告费用x与销售额y的统计数据如下表: 广告费用x(万元) 4 2 3 5 销售额y(万元) 49 26 39 54 依据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为(  ) A.63.6万元 B.65.5万元 C.67.7万元 D.72.0万元 解析:选B 样本点的中心是(3.5,42),则=-=42-9.4×3.5=9.1,所以回归直线方程是=9.4x+9.1,把x=6代入得=65.5. 5.(福建高考)已知x与y之间的几组数据如下表: x 1 2 3 4 5 6 y 0 2 1 3 3 4 假设依据上表数据所得线性回归直线方程为=x+,若某同学依据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是(  ) A.>b′,>a′ B.>b′,<a′ C.<b′,>a′ D.<b′,<a′ 解析:选C 由两组数据(1,0)和(2,2)可求得直线方程为y=2x-2,b′=2,a′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得===,=-=-×=-,所以<b′,>a′. 二、填空题 6.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若全部样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为________. 解析:依据样本相关系数的定义可知,当全部样本点都在直线上时,相关系数为1. 答案:1 7.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下: 父亲身高x(cm) 174 176 176 176 178 儿子身高y(cm) 175 175 176 177 177 则y对x的线性回归方程为________. 解析:设y对x的线性回归方程为=x+,由表中数据得=176,=176,=,=176-×176=88,所以y对x的线性回归方程为=x+88. 答案:=x+88 8.关于x与y有如下数据: x 2 4 5 6 8 y 30 40 60 50 70 为了对x,y两个变量进行统计分析,现有以下两种线性模型:甲:=6.5x+17.5,乙:=7x+17,则________(填“甲”或“乙”)模型拟合的效果更好. 解析:设甲模型的相关指数为R,则R=1-=1-=0.845;设乙模型的相关指数为R,则R=1-=0.82.由于0.845>0.82,即R>R,所以甲模型拟合效果更好. 答案:甲 三、解答题 9.假设某设备的使用年限x(年)和所支出的修理费用y(万元)有如下的统计资料: x 2 3 4 5 6 y 2.2 3.8 5.5 6.5 7.0 试求: (1)y与x之间的回归方程; (2)当使用年限为10年时,估量修理费用是多少? 解:(1)依据表中数据作散点图,如图所示: 从散点图可以看出,样本点都集中分布在一条直线四周,因此y与x之间具有线性相关关系.利用题中数据得: =(2+3+4+5+6)=4, =(2.2+3.8+5.5+6.5+7.0)=5, xiyi=2×2.2+3×3.8+4×5.5+5×6.5+6×7.0=112.3, x=22+32+42+52+62=90, 所以===1.23, =-=5-1.23×4=0.08, ∴线性回归方程为=1.23x+0.08. (2)当x=10时,=1.23×10+0.08=12.38(万元),即当使用10年时,估量修理费用是12.38万元. 10.在一段时间内,某种商品的价格x(元)和需求量y(件)之间的一组数据为: 价格x/元 14 16 18 20 22 需求量y/件 56 50 43 41 37 求出y关于x的线性回归方程,并说明拟合效果的好坏.(参考数据:x=1 660,xiyi=3 992) 解:从作出的散点图(图略)可看出,这些点在一条直线四周,可用线性回归模型来拟合数据.由数据可得=18,=45.4. 由计算公式得=-2.35,=-=87.7. 故y关于x的线性回归方程为=-2.35x+87.7. 列表: yi-i 1.2 -0.1 -2.4 0.3 1 yi- 10.6 4.6 -2.4 -4.4 -8.4 所以 (yi-i)2=8.3, (yi-)2=229.2. 相关指数R2=1-≈0.964. 由于0.964很接近于1,所以该模型的拟合效果好. 1.2独立性检验的基本思想及其初步应用 独立性检验的有关概念 [导入新知] 1.分类变量 变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. 2.2×2列联表 假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称2×2列联表)为: y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d 3.等高条形图 将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高条形图. 4.K2统计量 为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量K2=,其中n=a+b+c+d为样本容量. 5.独立性检验 利用随机变量K2来确定是否能以给定把握认为“两个分类变量有关系”的方法,称为两个分类变量独立性检验. [化解疑难] 反证法原理与独立性检验原理的比较 反证法原理——在假设H0下,假如推出一个冲突,就证明白H0不成立. 独立性检验原理——在假设H0下,假如毁灭一个与H0相冲突的小概率大事,就推断H0不成立,且该推断犯错误的概率不超过小概率. 独立性检验的步骤 [导入新知] 独立性检验的具体做法 (1)依据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查下表确定临界值k0. P(K2≥k0) 0.50 0.40 0.25 0.15 0.10 k0 0.455 0.708 1.323 2.072 2.706 P(K2≥k0) 0.05 0.025 0.010 0.005 0.001 k0 3.841 5.024 6.635 7.879 10.828 (2)利用公式K2=,计算随机变量K2的观测值k. (3)假如k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发觉足够证据支持结论“X与Y有关系”. [化解疑难] 详析独立性检验 (1)通过列联表或观看等高条形图推断两个分类变量之间有关系,属于直观推断,不足之处是不能给出推断“两个分类变量有关系”犯错误的概率,而独立性检验可以弥补这个不足. (2)列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此,需要用独立性检验的方法确认所得结论在多大程度上适用于总体. 列联表和等高条形图的应用 [例1] 某学校对高三同学作了一项调查,发觉:在平常的模拟考试中,性格内向的同学426人中有332人在考前心情紧急,性格外向的同学594人中有213人在考前心情紧急.作出等高条形图,利用图形推断考前心情紧急与性格类别是否有关系. [解] 作列联表如下: 性格内向 性格外向 总计 考前心情紧急 332 213 545 考前心情不紧急 94 381 475 总计 426 594 1 020 相应的等高条形图如图所示: 图中阴影部分表示考前心情紧急与考前心情不紧急中性格内向的比例.从图中可以看出考前紧急的样本中性格内向占的比例比考前心情不紧急样本中性格内向占的比例高,可以认为考前紧急与性格类型有关. [类题通法] 细解等高条形图 (1)绘制等高条形图时,列联表的行对应的是高度,两行的数据不相等,但对应的条形图的高度是相同的;两列的数据对应不同的颜色. (2)等高条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观看下方颜色区域的高度,假如两个高度相差比较明显,就推断两个分类变量之间有关系. [活学活用] 为了争辩子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下: 父母吸烟 父母不吸烟 总计 子女吸烟 237 83 320 子女不吸烟 678 522 1 200 总计 915 605 1 520 利用等高条形图推断父母吸烟对子女吸烟是否有影响? 解:等高条形图如下: 由图形观看可以看出子女吸烟者中父母吸烟的比例要比子女不吸烟者中父母吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”. 独立性检验的原理 [例2] 打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据: 患心脏病 未患心脏病 总计 每晚都打鼾 30 224 254 不打鼾 24 1 355 1 379 总计 54 1 579 1 633 依据列联表的独立性检验,能否在犯错误的概率不超过0.001的前提下认为每晚都打鼾与患心脏病有关系? [解] 由列联表中的数据,得K2的观测值为 k= ≈68.033>10.828. 因此,在犯错误的概率不超过0.001的前提下,认为每晚都打鼾与患心脏病有关系. [类题通法] 解决独立性检验问题的思路 解决一般的独立性检验问题,首先由题目所给的2×2列联表确定a,b,c,d,n的值,然后代入随机变量K2的计算公式求出观测值k,将k与临界值k0进行对比,确定有多大的把握认为“两个分类变量有关系”. [活学活用] 某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.能否在犯错误的概率不超过0.001的前提下认为质量监督员甲在不在生产现场与产品质量好坏有关系? 解:依据题目所给数据得如下2×2列联表: 合格品 次品 总计 甲在生产现场 982 8 990 甲不在生产现场 493 17 510 总计 1 475 25 1 500 由列联表中的数据,得K2的观测值为 k=≈13.097>10.828. 因此,在犯错误的概率不超过0.001的前提下,认为质量监督员甲在不在生产现场与产品质量好坏有关系.      [典例] (12分)某工厂有工人1 000名,其中250名工人参与过短期培训(称为A类工人),另外750名工人参与过长期培训(称为B类工人).现用分层抽样的方法(按A类、B类分两层)从该工厂的工人中抽取100名工人,调查他们的生产力气(此处生产力气指一天加工的零件数),结果如下表. 表1:A类工人生产力气的频数分布表 生产力气分组 [110,120) [120,130) [130,140) [140,150) 人数 8 x 3 2 表2:B类工人生产力气的频数分布表 生产力气分组 [110,120) [120,130) [130,140) [140,150) 人数 6 y 27 18 (1)确定x,y的值; (2)完成下面2×2列联表,并回答能否在犯错误的概率不超过0.001的前提下认为工人的生产力气与工人的类别有关系?     生产力气分组 工人类别    [110,130) [130,150) 总计 A类工人 B类工人 总计 附:K2=, P(K2≥k0) 0.050 0.010 0.001 k0 3.841 6.635 10.828 [解题流程] (2)依据所给的数据可以完成列联表,如下表所示:    生产力气 分组 工人类别  [110,130) [130,150) 总计 A类工人 20 5 25 B类工人 30 45 75 总计 50 50 100 (6分) 由列联表中的数据,得K2的观测值为 [活学活用] 电视传媒公司为了解某地区观众对某类体育节目的收视状况,随机抽取了100名观众进行调查,其中女性有55名.下面是依据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图: 将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性. 依据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关? 非体育迷 体育迷 总计 男 女 总计 附: P(K2≥k0) 0.05 0.01 k0 3.841 6.635 解:由频率分布直方图可知,在抽取的100名观众中,“体育迷”有25名,“非体育迷”有75名,又已知100名观众 中女性有55名,女“体育迷”有10名,所以男性有45名,男“体育迷”有15名,从而可完成2×2列联表,如下表: 非体育迷 体育迷 总计 男 30 15 45 女 45 10 55 总计 75 25 100 由2×2列联表中的数据,得K2的观测值为 k=≈3.030. 由于3.030<3.841,所以没有充分的证据表明“体育迷”与性别有关. [随堂即时演练] 1.观看下列各图,其中两个分类变量x,y之间关系最强的是(  ) 解析:选D 在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强,故选D. 2.下面是一个2×2列联表: y1 y2 总计 x1 a 21 73 x2 2 25 27 总计 b 46 则表中a,b处的值分别为(  ) A.94,96         B.52,50 C.52,54 D.54,52 解析:选C 由得 3.独立性检验所接受的思路是:要争辩A,B两类型变量彼此相关,首先假设这两类变量彼此________.在此假设下构造随机变量K2,假如K2的观测值较大,那么在确定程度上说明假设________. 答案:无关 不成立 4.在吸烟与患肺病是否相关的推断中,有下面的说法: ①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病; ②从独立性检验可知,在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病; ③从独立性检验可知,在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误. 其中说法正确的是________. 解析:K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确. 答案:③ 5.在一次天气恶劣的飞机航程中,调查了男女乘客在飞机上晕机的状况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.能否在犯错误的概率不超过0.10的前提下推断:在天气恶劣的飞机航程中,男乘客比女乘客更简洁晕机? 解:由已知条件得出下列2×2列联表: 晕机 不晕机 总计 男乘客 24 31 55 女乘客 8 26 34 总计 32 57 89 由公式可得K2的观测值 k= =≈3.689>2.706. 故在犯错误的概率不超过0.10的前提下,认为“在天气恶劣的飞机航程中,男乘客比女乘客更简洁晕机”. [课时达标检测] 一、选择题 1.推断两个分类变量是彼此相关还是相互独立的常用的方法中,最为精确的是(  ) A.2×2列联表 B.独立性检验 C.等高条形图 D.其他 解析:选B A、C只能直观地看出两个分类变量x与y是否相关,但看不出相关的程度.独立性检验通过计算得出相关的可能性,较为精确     . 2.假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其2×2列联表为: Y X   y1 y2 总计 x1 a b a+b x2 c d c+d 总 计 a+c b+d a+b+c+d 对同一样本,以下数据能说明X与Y有关的可能性最大的一组为(  ) A.a=5,b=4,c=3,d=2 B.a=5,b=3,c=4,d=2 C.a=2,b=3,c=4,d=5 D.a=3,b=2,c=4,d=5 解析:选D 对于同一样本,|ad-bc|越小,说明x与y相关性越弱,而|ad-bc|越大,说明x与y相关性越强,通过计算知,对于A,B,C都有|ad-bc|=|10-12|=2.对于选项D,有|ad-bc|=|15-8|=7,明显7>2. 3.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是(  ) A.k越大,“X与Y有关系”的可信程度越小 B.k越小,“X与Y有关系”的可信程度越小 C.k越接近于0,“X与Y没有关系”的可信程度越小 D.k越大,“X与Y没有关系”的可信程度越大 解析:选B k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即k越小,“X与Y有关系”的可信程度越小.故选B. 4.利用独立性检验对两个分类变量是否有关系进行争辩时,若在犯错误的概率不超过0.005的前提下认为大事A和B有关系,则具体计算出的数据应当是(  ) A.k≥6.635 B.k<6.635 C.k≥7.879 D.k<7.879 解析:
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 教育专区 > 高中数学

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服