资源描述
线性回归方程与独立性检验
1、独立性检验
(1)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
2×2列联表
构造一个随机变量K2=,其中n=a+b+c+d为样本容量.
利用随机变量K2来判断“两个分类变量有无关系”.
2、 线性回归方程
(1)样本点的中心:
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心,线性回归直线一定过样本点的中心(,).
(2)回归方程:两个具有线性相关关系的一组数据:(x1,y1),(x2,y2),…,(xn,yn),其回归方程为=x+,则有
(3)相关系数:
①样本(xi,yi)(i=1,2,…,n)的相关系数:
r=
②相关系数的正负、大小与相关性的关系:
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.
r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
例1、某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
(1) 分别估计男、女顾客对该商场服务满意的概率;
(2) (能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
例2、某市地铁即将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下; 【导学号:79170335】
月收入(单位:百元)
[15,25)
[25,35)
[35,45)
[45,55)
[55,65)
[65,75]
赞成定价者人数
1
2
3
5
3
4
认为价格偏高者人数
4
8
12
5
2
1
(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);
(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.
月收入不低于
55百元的人数
月收入低于55
百元的人数
总计
认为价格偏高者
赞成定价者
总计
附:K2=.
P(K2≥k0)
0.05
0.01
k0
3.841
6.635
例3、 (2015重庆,文)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份
2010
2011
2012
2013
2014
时间代号t
1
2
3
4
5
储蓄存款y (千亿元)
5
6
7
8
10
(1) 求y关于t的回归方程
例4、(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)(yi-)
(wi-)(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,w]=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为=,=- .
1、某校学生社团组织活动丰富,学生会为了解同学对社团活动的满意程度,随机选取了100位同学进行问卷调查,并将问卷中的这100人根据其满意度评分值(百分制)按照[40,50),[50,60),[60,70),…,[90,100]分成6组,制成如图所示频率分布直方图.
(1)求图中x的值;
(2)求这组数据的中位数;
(3)现从被调查的问卷满意度评分值在[60,80)的学生中按分层抽样的方法抽取5人进行座谈了解,再从这5人中随机抽取2人作主题发言,求抽取的2人恰在同一组的概率.
2、由于往届高三年级数学学科的学习方式大都是“刷题一讲题一再刷题”的模式,效果不理想,某市一中的数学课堂教改采用了“记题型一刷题一检测效果”的模式,并记录了某学生的记题型时间(单位:)与检测效果的数据如下表所示.
记题型时间
1
2
3
4
5
6
7
检测效果
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)据统计表明,与之间具有线性相关关系,请用相关系数加以说明(若,则认为与有很强的线性相关关系,否则认为没有很强的线性相关关系);
(2)建立关于的回归方程,并预测该学生记题型的检测效果;
(3)在该学生检测效果不低于3.6的数据中任取2个,求检测效果均高于4.4的概率.
参考公式:回归直线中斜率和截距的最小二乘估计分别为,
,相关系数
参考数据:,,,
试卷第6页,总6页
7
展开阅读全文