1、第二章统计2.1随机抽样【入门向导】2008年8月8日举世瞩目的北京奥运会开幕了!新华网北京8月10日电,国际奥委会新闻发言人吉赛尔戴维斯今天说,8亿4千万中国电视观众收看了北京奥运会开幕式,这个收视率令人惊讶据CMS媒介研究所9日发布的数据,北京奥运会开幕式收视观众规模占到全国电视总人口的68.8%,本届奥运会开幕式收视率创下了自国内有收视率调查以来的新纪录,在李宁环绕鸟巢飞奔点火的这一刻,收视份额攀上90%.另据AGB尼尔森的统计显示,超过9成中国家庭收看了奥运会开幕式电视直播,其中天津观众收看比例为97%,达到全国最高同学们有没有考虑过收视率是如何统计出来的呢?可行的方法之一是抽取一部分
2、地区进行收视率调查如何抽取呢?机抽样概念解读1普查在实际应用中是不合适的一般地,如果检验对于个体具有破坏性,则需要通过抽样来推断总体的特性有很多检验具有破坏性,如对产品的寿命、合格率等问题的检查因此,我们需要通过随机抽样抽取样本来估计总体2抽样时不能使用方便样本方便样本的代表性差,基于这种样本得出的结论与事实不符的可能性大大增加3随机抽样时,每个个体被抽到的机会都相等在判断一锅汤的味道时,如果汤被充分搅拌了,我们只需品尝一勺就可以了同样,样本数据也要来自“搅拌均匀”的总体在简单随机抽样的定义中,“总体内的各个个体被抽到的机会都相等”是“总体中的所有个体搅拌均匀”的统计描述例1(1)为了了解某地
3、参加计算机水平测试的5 000名学生的成绩,从中抽取了200名学生的成绩进行统计分析在这个问题中,5 000名学生成绩的全体是()A总体 B个体C从总体中抽取的一个样本 D样本的容量解析5 000名学生的成绩是我们所考查对象的全体,叫总体答案A(2)关于简单随机抽样的特点,有以下几种说法,其中不正确的是()A要求总体的个数有限B从总体中逐个抽取C它是一种不放回抽样D每个个体被抽到的机会不一样,与先后顺序有关解析随机抽样最重要的特点就是每个个体被抽到的机会都相等,与先后顺序无关答案D悟抽样方法我们知道,三种抽样方法的共同点是在抽样过程中每个个体被抽到的机会相等且都为不放回抽样但是,在什么情况下使
4、用简单随机抽样、系统抽样和分层抽样呢?三种方法中哪一种更好?下面就让我们通过对系统抽样与分层抽样的详细分析,感悟一下它们三者之间的联系与区别1系统抽样系统抽样适合总体中个体数较多,且个体之间无明显差异的情况,其特点是等距抽取当(N为总体中个体数目,n为样本容量)不是整数时,需先从总体中随机剔除多余的个体在剔除多余的个体以及完成分段后,确定第一个个体编号时,使用的是简单随机抽样例2某单位共有职工823人,为了调查工人上班时,从家到单位的平均所用时间,决定抽取10%的工人调查这一情况,问如何完成这一抽样?分析由于总体的人数较多,且不考虑个体差异,因此需采用系统抽样法解(1)先将工人随机编号为000
5、,001,822;(2)用随机数法,从编号000822中剔除3人,再把编号按顺序补齐为000,001,819,从而确定分段间隔为10,分成82段,每段10人;(3)在第一段000,001,009中随机确定一起始号k0(可以用抽签法),则编号k0,k010,k0810为所取得的一个样本点评使用系统抽样进行编号时,也可利用学生证号,座位号等感悟(1)体会区别:简单随机抽样和系统抽样的共同特点是总体中的个体差异较小,此题从这一个角度看,两种方法都适合但是,由于抽取的样本容量较大,为了减少工作量,采用系统抽样法较为简捷(2)分析联系:简单随机抽样法是系统抽样的基础此题在剔除个体时,由于总体个数较多,因
6、此使用随机数法剔除多余的个体;分段后的第一段个体数较少,因此可使用抽签法2分层抽样当总体中的个体差异较大时,一般采用分层抽样法抽样过程中,每层中所抽取的个体数可按各层在总体中所占比例抽取;在各层独立抽取时,可使用简单随机抽样或系统抽样法例3某单位共有职工162人,其中老年人27人,中年人54人,青年人81人,为了调查他们的身体状况,需要从他们中抽取一个容量为36的样本,问应当采用怎样的抽样方法?应从老年人、中年人、青年人中分别抽取多少人?分析从实际问题思考,老年人、中年人、青年人的身体状况有着较大的差异,因此应采用分层抽样法解由于各部分之间的个体有较大的差别,所以应采用分层抽样因为275481
7、123,设从老年人、中年人、青年人中各抽取个体数分别为x,2x,3x.则由6x36得x6,故应从老年人、中年人、青年人中分别抽取6人,12人,18人点评也可以按各部分所占总体的比进行计算,即366,3612,3618.感悟(1)体会区别:分层抽样适合总体中个体差异较大的情况,而系统抽样适合总体中的个体数较多的情况;另一方面分层抽样是按比例抽取,而系统抽样是等距抽取(2)分析联系:在分层抽样中,当每一层中个体数目较大时,可使用系统抽样,若数目较小时,使用简单随机抽样法抽取即可种抽样方法的比较类别共同点各自特点相互联系适用范围简单随机抽样抽样过程中每个个体被抽取的机会相等从总体中逐个抽取总体中的个
8、体数较少系统抽样将总体均分成几部分,按事先确定的规则在各部分抽取在起始部分抽样时采用简单随机抽样总体中的个体数较多分层抽样将总体分成几层,分层进行抽取在各层抽样时采用简单随机抽样或系统抽样总体由差异明显的几部分组成简单随机抽样、系统抽样和分层抽样关系密切,对抽取样本来说,可谓异曲同工无论采取哪一种抽样方法,必须保证在整个抽样过程中每个个体被抽到的机会相等例4根据下列情况选择合适的抽样方法:(1)30台电视机,其中甲厂生产的有21台,乙厂生产的有9台,抽取10台入样;(2)从甲厂生产的300台电视机中,抽取10台入样;(3)从甲厂生产的300台电视机中,抽取100台入样分析应用三种抽样方法时需搞
9、清楚它们的使用原则:(1)当总体容量较小,样本容量也较小时,制签简单,号签容易搅匀,可采用抽签法;(2)当总体容量较大,样本容量较小时,可用随机数法;(3)当总体容量较大,样本容量也较大时,可用系统抽样法解(1)总体由两类差异明显的个体组成,所以应采用分层抽样,又因为每层中样本容量较小,在每层中可采用抽签法(2)总体容量较大,样本容量较小,可用随机数法(3)总体容量较大,样本容量也较大,可用系统抽样法析随机抽样中的典型陷阱1围绕抽样方法的概念设置的陷阱例5盒子中共有80个零件,从中任意拿出一个进行质量检验,然后把它放回盒子,再次从中拿出一个进行质量检验,然后再把它放回盒子,照此方法,依次抽取5
10、个进行质量检验这种抽样方法是否属于简单随机抽样?说明理由错解是简单随机抽样,实质上就是从有限的80个零件中任意选出了5个进行质量检验正解不是简单随机抽样,因为简单随机抽样是不放回抽样2围绕“分层抽样”与“系统抽样”的选择设置的陷阱例6某乡镇有12个行政村,共30 000人,现从中抽出300人进行样本分析,考察其人口中癌症的发病率,应该采取哪种抽样方法?简述抽样过程错解由于总体的个体相对较多,因此可采用系统抽样法过程如下:用随机方式将总体中的个体编号1,2,30 000;把总体分成300段,每段100人;在第一段中用简单随机抽样确定起始个体编号i;将i,i100,i200,i29 900分别抽出
11、,从而获得整个样本正解上述解法只注意到了数量关系,忽略了个体差异一般情况下,每个村村民的健康状况是有差异的,各村的人口数量又有差别,所以应采用分层抽样具体实施过程是:将30 000人按12个村分成12层,然后从每村的人口中抽取该村人口的,然后把各村抽到的人合起来,就得到了一个容量为300的样本3围绕系统抽样“均分”原理设置的陷阱例7要从某学校的10 013个学生中抽取100个进行健康检验,采用哪种抽样方法较好?写出抽样过程错解由于总体个数为10 013,数量较大,而且都是学生,差别不大,因而应采用系统抽样法具体过程如下:由系统抽样的步骤先分为100段,其中前87段每段100人,后13段每段10
12、1人,再在第一段中用简单随机抽样确定起始个体编号i;最后将i100,i200,i9 900分别抽出,从而获得整个样本正解先用简单随机抽样从总体中剔除学生13人,再按如下步骤操作:采用随机的方式将总体中的个体编号1,2,10 000;把整个的总体分成100段,每段100人;在第一段中用简单随机抽样确定起始个体编号i;将i,i100,i200,i9 900分别抽出,从而获得整个样本.用随机抽样调查小区居民的用水量为调查小区平均每户居民的月用水量,下面是3名学生设计的调查方案:学生A:我把这个用水量调查表放在互联网上,只要登录该网址的人就可以看到这张表,他们填表的信息可以很快地反馈到我的电脑中这样,
13、我就可以很快估计出小区平均每户居民的月用水量学生B:我给我们居民小区的每一个住户发一个用水量调查表,只要一两天就可以统计出小区平均每户居民的月用水量学生C:我在小区的电话号码本上随机地选出一定数量的电话号码,然后逐个给他们打电话,问一下他们的月用水量,然后就可以估计出小区平均每户居民的月用水量我们对上述3种方案进行分析,看哪个方案更实用有效:学生A的方法得到的样本不能够反映不上网的居民情况,是一种方便样本,所得的结果代表性差,不能很准确地获得平均每户居民的月用水量;学生B的方法实际上是普查,花费的人力物力要多一些,但是如果统计过程不出错,可以准确地得到平均每户居民的月用水量;在小区的每户居民都
14、装有电话的情况下,学生C的方法是一种随机抽样方法,所得的样本具有代表性,可以比较准确地获得平均每户居民的月用水量在小区的每户居民都装有电话的情况下,建议用随机抽样的方法获取数据,即用学生C的方法,以节省人力物力,并且可以得到比较精确的结果.1(重庆高考)某地区有300家商店,其中大型商店有30家,中型商店有75家,小型商店有195家,为了掌握各商店的营业情况,要从中抽取一个容量为20的样本若采用分层抽样的方法,抽取的中型商店数是()A2B3C5D13解析设抽取的中型商店数为x,依据分层抽样的原理,有,解得x5.答案C2(福建高考)一个总体中共有100个个体,随机编号0,1,2,99,依编号顺序
15、平均分成10个小组,组号依次为1,2,3,10.现用系统抽样的方法抽取一个容量为10的样本,规定如果在第1组随机抽取的号码为m,那么在第k组中抽取的号码个位数字与mk的个位数字相同若m6,则在第7组中抽取的号码是_解析根据题意,第七组中的号码是60,69内的正整数因为m6,k7,mk13,所抽取的号码个位数为3,于是此号码为63.答案633(重庆高考)某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是_解析由分层抽样的定义可知,该抽样为按比例的抽样答案分层抽样法4(湖北高考)一个公司共有1 000名员工,
16、下设一些部门,要采用分层抽样方式从全体员工中抽取一个容量为50的样本,已知某部门有200名员工,那么从该部门抽取的员工人数是_. 解析从该部门抽取的员工人数是20010.答案105(天津高考)某学院的A,B,C三个专业共有1 200名学生,为了调查这些学生勤工俭学的情况,拟采用分层抽样的方法抽取一个容量为120的样本,已知该学院的A专业有380名学生,B专业有420名学生,则在该学院的C专业应抽取_名学生解析C专业有学生1 200380420400(名),则C专业应抽取的学生数为12040(名)答案402.2用样本估计总体【入门向导】小明是班里的优秀学生,他的历次数学成绩是96,98,95,9
17、3,但最近一次考试成绩只有45分,原因是他带病参加了考试期末评价时,计算他的平均分是83.5,只能给他一个“良好”你认为这种评价合理吗?读频率分布直方图频率分布直方图是用小长方形面积的大小来表示在各个区间内取值的频率,直角坐标系中的纵轴表示频率与组距的比值,即小长方形面积组距频率频率分布直方图能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到分布表中看不清楚的数据模式但从直方图本身得不出原始的数据内容,也就是说,把数据表示成直方图后,原有的具体数据信息就被抹掉了例1某校高三数学考试中,对90分以上的成绩进行统计,其频率分布直方图如图所示若130140分数段的人数为90,则901
18、00分数段的人数为_解析由于90分以上的考试成绩是总体,则图中5个分数段的频率之和等于1,设130140分数段的频率为p,则(0.0450.0250.0150.010)10p1,解得p0.05,所以可得总体容量为1 800,则90100分数段的人数为1 8000.04510810.答案810起来学茎叶图茎叶图是一种既能展示数据的分布状况,又能保留每一个原始数据的一种数据表示方法,茎叶图由“茎”和“叶”两部分组成,通常以每一个数据的高位数作为茎,茎一经确定,叶就自然地“长”在相应的茎上为了方便分析数据,我们将茎上的数字按从小到大的次序排成一列,叶上的数据按从大到小(从小到大)的次序写在其茎左(右
19、)侧用茎叶图表示数据没有原始信息的损失,所有数据信息都可以从茎叶图中得到,而且便于记录与表示我们不仅要会画茎叶图,还要对数据进行简单分析例2某篮球运动员在2009赛季各场比赛的得分情况如下:12,15,24,25,31,31,36,36,37,39,44,49,50试分析该运动员的整体水平及发挥的稳定程度解画出该运动员的得分茎叶图如图所示:从图中可以看出,该运动员平均得分及中位数、众数都在20到40之间,且分布较对称,集中程度高,说明其发挥比较稳定本数据特征的解释统计的思想是用数据说话,通过收集、整理、分析数据作出决策要从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释例3某
20、校高一(1)、(2)班各有49名学生,两班在一次数学测试中的成绩统计如下表:班级平均分众数中位数标准差高一(1)班79708719.8高一(2)班7970795.2(1)请你对下面的一段话给予简要分析:高一(1)班的小刚回家对妈妈说:“昨天的数学测试中,全班的平均分为79分,得70分的人最多,我得了85分,在班里算是上游了”(2)请你根据表中的数据对两班的测验情况试做分析,并提出教学建议解(1)由中位数可知,85分排在25位以后,从位次上讲不能说85分是上游,但也不能从位次上来判断学习的好坏,小刚得了85分,说明他对这阶段的学习内容掌握较好,从掌握的学习内容上讲也算是上游(2)高一(1)班成绩
21、的中位数是87,说明高于87分的人数占一半以上,而平均分为79分,标准差又很大,说明低分者也多,两极分化严重,建议对学习困难的学生给予帮助高一(2)班成绩的中位数和平均数都是79,标准差又较小,说明学生之间的差别也较小,学习很困难的学生少,但学习优秀的学生也很少,建议采取措施提高优秀学生人数错点剖析1对频率分布直方图理解错误例4中小学生的视力状况受到全社会的广泛关注,某市有关部门从全市6万名高一新生中随机抽取了400名学生,对他们的视力状况进行一次调查统计,将所得到的有关数据绘制成如图所示的频率分布直方图,从左至右五个小组的频率之比依次是5712106.则全市高一新生视力在3.95,4.25范
22、围内的学生约有多少人?错解因为第五小组的频率是0.5,所以第一小组的频率为0.5.所以全市6万名高一新生中视力在3.95,4.25范围内的学生约有60 00025 000人正解因为第五小组的频率是0.50.30.15,所以第一小组的频率为0150.125.所以全市6万名高一新生中视力在3.95,4.25范围内的学生约有60 0000.1257 500人2相关联的两个样本的数据特征搞错例5一组数据的方差是s2,将这组数据中的每一个数都乘以2,得到一组新数据,其方差是()A.s2 B2s2 C4s2 Ds2错解B解析设一组数据x1,x2,xn,则s2,将每一个数乘以2,则2.所以s2(x1)2(x
23、2)2(xn)24s2.正解C何对数据进行分析通过对数据的分析,为合理的决策提供一些依据,是统计思想的重要体现;能根据实际问题的需求,合理的选取样本,从中提取基本数字特征(如平均数、标准差等),并作出合理的分析,是解题的关键处理此类数据分析题一般来说有三种途径1用茎叶图提取有用数据进行分析例1某中学高一(2)班甲、乙两名同学自上高中以来每场数学考试成绩情况如下:甲的得分:95,81,75,91,86,89,71,65,76,88,94,110,107;乙的得分:83,86,93,99,88,103,98,114,98,79,101.画出两人数学成绩的茎叶图,并根据茎叶图对两人的成绩进行比较分析
24、用中间的数字表示两位同学得分的十位数和百位数,两边的数字分别表示两人每场数学考试成绩的个位数作茎叶图先确定中间数取数据的哪几位,填写数据时边读边填比较时从数据分布的对称性、中位数、稳定性等几方面来比较解甲、乙两人数学成绩的茎叶图如图所示:从这个茎叶图上可以看出,乙同学的得分情况是大致对称的,中位数是98;甲同学的得分情况除一个特殊得分外,也大致对称,中位数是88.因此,乙同学发挥比较稳定,总体得分情况比甲同学好2通过计算提取有用数据进行分析数据收集后,要从中找到所需的信息,并将其转化为可利用的形式,从而获取信息如计算平均数、方差、标准差等是处理分析题的另一条途径例2某工厂人员及工资构成如下表:
25、人员经理管理人员高级技工工人学徒合计周工资2 200250220200100人数16510123合计2 2001 5001 1002 0001006 900(1)指出这个问题中工资的众数、中位数、平均数;(2) 这个问题中,平均数能客观地反映该工厂的工资水平吗?为什么?哪个量更能反映这个公司员工的工资水平?解(1)由表格可知:众数为200.中位数为220.平均数为300.(2)在这个问题中,中位数或众数均能反映该公司员工的工资水平因为公司中少数人的工资额与大多数人的工资额差别较大,这样导致平均数与中位数偏差较大,所以平均数不能反映这个公司员工的工资水平点评平均数受数据中的极端值的影响较大,妨碍
26、了对总体估计的可靠性,这时平均数反而不如众数、中位数更客观3通过条形图提取数据进行分析例3某校为了了解学生的课外阅读情况,随机调查了50名学生,得到他们在某一天各自课外阅读所用时间的数据,结果用如图的条形图表示根据条形图可得这50名学生这一天平均每人的课外阅读时间为()A0.6小时 B0.9小时C1.0小时 D1.5小时分析本小题主要考查同学们借助图形解决实际问题的能力解析由题意可知50人每人一天的课外阅读时间为(50200.5101.0101.552.0)0.9(小时)答案B点评注意灵活处理数学中的“图形语言”,将之转化为数学知识求解个运动员最稳定例4甲、乙两篮球运动员在本赛季前八场比赛中,
27、每场的投篮得分如下:甲15,18,20,12,22,25,28,20乙26,15,21,14,17,23,19,25若你是一个篮球队的主教练,请你对甲、乙两名运动员作一下比较,看哪一位运动员的水平更高,发挥更稳定解方法一利用方差来比较两运动员投篮得分的稳定性甲20,乙20,s23.25,s17.75,由于ss,所以乙运动员每场的投篮得分的发挥更具稳定性方法二用茎叶图来比较两运动员投篮得分的稳定性将所有两位数的十位数字作为“茎”,个位数字作为“叶”,画出两个投篮得分的茎叶图,如下图:从茎叶图中我们可以看出:甲运动员投篮得分主要分布在茎叶图的下方,投篮得分集中分布在20多分的范围内,而乙运动员投篮
28、得分基本上是对称的由此我们发现乙运动员投篮得分发挥的比较稳定,总体得分情况要比甲运动员好点评本题方法一我们是利用了方差来比较两运动员投篮得分的稳定性而方差是刻画一组数据离散与集中、波动与稳定的一个统计量实际上方差描述了一组数据围绕平均数的波动程度,对于不同的数据集合,当离散程度或波动程度大时,其方差的数值也就大平均数是刻画一组数据集中趋势的统计量,它反映了这组数据的总体水平的高低在本题中甲、乙两运动员投篮得分的平均数均为20分,总体水平相同,而当我们从另一角度方差上来分析甲、乙两运动员投篮得分的稳定性时,就能得出乙运动员投篮得分的稳定性要比甲运动员的高,因而乙运动员每场的投篮发挥更稳定,水平更
29、高方法二用茎叶图表示数据有两个突出的特点:一是统计图上没有原始信息丢失,所有数据信息都可以从茎叶图中得到;二是茎叶图可以在比赛时随时记录,方便记录与表示因此茎叶图更能直观、清晰的反映数据的原始信息,在本题中我们能从茎叶图上一目了然地看出运动员投篮得分的实际情况,直观地得出乙运动员投篮得分发挥的比较稳定,水平更高感悟从以上的方法我们可以知道:由样本数据得到的平均数、方差、标准差虽然并不是总体的真正的平均数、方差、标准差,而只是对总体的一个估计,但是这种估计是合理的,当样本的容量很大时,它们确实反映了总体的信息.1(山东高考)右图是根据山东统计年鉴2007中的资料作成的1997年至2006年我省城
30、镇居民百户家庭人口数的茎叶图图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为()A304.6 B303.6 C302.6 D301.6解析303.6.答案B2(江苏高考)某老师从星期一到星期五收到的信件数分别为10,6,8,5,6,则该组数据的方差s2_.解析7,s2(107)2(67)2(87)2(57)2(67)23.2.答案3.23(广东高考)为了调查某厂工人生产某种产品的能力,随机抽查了20位工人某天生产该产品的数量,产品数量的分组区间为45,
31、55),55,65),65,75),75,85),85,95)由此得到频率分布直方图如图所示,则这20名工人中一天生产该产品数量在55,75)的人数是_解析由频率分布直方图知55,75)之间的频率为(0.0400.025)100.65,故55,75)之间的人数为0.652013.答案134(江苏高考改编)某人5次上班途中所花的时间(单位:分钟)分别为x,y,10,11,9.已知这组数据的平均数为10,方差为2,则|xy|的值为_解析由平均数为10,得(xy10119)10,则xy20;又由于方差为2,则(x10)2(y10)2(1010)2(1110)2(910)22,得x2y2208,2xy
32、192,所以有|xy|4.答案45(福建高考)某校开展“爱我海西、爱我家乡”摄影比赛,9位评委为参赛作品A给出的分数如茎叶图所示记分员在去掉一个最高分和一个最低分后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x)无法看清,若记分员计算无误,则数字x应该是_解析当x4时,91,x380,所以上述断言是正确的正解(1)根据表中数据画散点图,如错解图所示,从图可以看出,在6个点中,虽然第一个点离这条直线较远,但其余5个点大致分布在这条直线的附近,所以这两个变量具有线性相关关系(2)将x12代入23.25x102.25,得23.2512102.25381.25380,即便如此,但因3
33、81.25只是一个估计值,会受其他情况的影响,所以不能断言这个城市患白血病的儿童一定超过380人3忽略线性相关关系的判断致误例5假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下的统计资料:x/年123456y/万元5.00.80.56.57.01.2根据资料判断y对x是否呈线性相关关系?若存在,借助回归直线方程估计使用年限为10年时,维修费用大约是多少?若不存在,请根据资料,求出第二年到第五年维修费用总共是多少?错解由于3.5,3.5,x9.1,xiyi76.3,0.16,3.50.163.52.94,于是回归直线方程为0.16x2.94,当x10(年)时,0.16102.9
34、44.54(万元)错解辨析在学习本章内容时,很多同学总是认为,只要是给出数据,就一定存在线性相关关系,当然一定可以求回归直线方程;其实不然,并非给出数据,就有线性相关关系,即便是求出回归直线也不一定有价值正解先画出散点图,如图所示观察这个散点图,这些点没有分布在一条直线附近,所以y对x不呈线性相关关系由于第二年到第五年的维修费用表中已经给出,所以总费用W0.80.56.57.014.8(万元),即第二年到第五年的维修费用为14.8万元.计中的数形结合思想与转化思想1数形结合的思想方法数形结合是统计内容中一个很突出的特点获取了一个科学样本后,需要对样本数据进行整理分析,为了使样本的数据特征更直观
35、,我们经常需要作图将样本中的n个数据点(xi,yi)(i1,2,n)描在平面直角坐标系中,就得到了散点图根据散点图中点的分布趋势可直观地判断并得出两个变量的关系散点图定义在具有相关关系的两个变量基础上,借助散点图,我们可以看两个变量关系的密切程度,进行相关回归分析如果散点图中的点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们称正相关;如果散点图中的点散布在左上角到右下角的区域,我们称为负相关例1某种产品的广告支出费x与销售额y(单位:百万元)之间有如下对应数据:x24568y3040605070试就此数据判断x与y之间是否有相关关系分析怎样看两变量之间是否有相关关系呢?从数据表
36、中看得出来吗?目前,简明直观的方法是画出散点图解根据所给数据,画出散点图如下图由图可知,这些点大致位于一条直线的附近,故知广告支出费x与销售额y之间具有相关关系2转化与化归的思想方法统计中充分体现出了转化与化归的思想方法,如部分与整体的转化,数与图的转化,随机性问题与确定性问题的转化等统计的基本思想是用样本去估计总体,也就是用有代表性的一部分来估计整体的情况,这就反映出由部分向整体转化的思想例2对变量x,y有观测数据(xi,yi)(i1,2,10),得散点图(1);对变量u,v有观测数据(ui,vi)(i1,2,10),得散点图(2)由这两个散点图可以判断()A变量x与y正相关,u与v正相关B
37、变量x与y正相关,u与v负相关C变量x与y负相关,u与v正相关D变量x与y负相关,u与v负相关解析图(1)中的数据y随着x的增大而减小,因此变量x与变量y负相关;图(2)中的数据随着u的增大,v也增大,因此u与v正相关答案C1(辽宁高考)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程: 0.254x0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加_万元解析由题意知0.254(x1)0.321(0.254x0.321)0.254.答案0.2542(广东高考)某
38、数学老师身高176 cm,他爷爷、父亲和儿子的身高分别是173 cm、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为_ cm.解析儿子和父亲的身高可列表如下:父亲身高173170176儿子身高170176182设回归直线方程 x,由表中的三组数据可求得 1,故 1761733,故回归直线方程为 3x,将x182代入得孙子的身高为185 cm.答案1853(广东高考)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.x3456y2.5344.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程 x ;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤试根据(2)求出线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:32.5435464.566.5)解(1)散点图如下:(2)4.5,3.5,xiyi32.5434564.566.5,x3242526286,0.7,3.50.74.50.35. 0.7x0.35.(3)现在生产100吨甲产品用煤y0.71000.3570.35,9070.3519.65.降低19.65吨标准煤