1、 高中数学统计与概率知识点(文)高中数学统计与概率知识点(文)第一部分第一部分:统计统计1 1、什么是众数什么是众数。一组数据中出现次数最多的那个数据,叫做这组数据的众数。众数的特点。众数的特点。众数在一组数据中出现的次数最多;众数反映了一组数据的集中趋势,当众数出现的次数越多,它就越能代表这组数据的整体状况,并且它能比较直观地了解到一组数据的大致情况。但是,当一组数据大小不同,差异又很大时,就很难判断众数的准确值了。此外,当一组数据的那个众数出现的次数不具明显优势时,用它来反映一组数据的典型水平是不大可靠的。3.众数与平均数的区别。众数表示一组数据中出现次数最多的那个数据;平均数是一组数据中
2、表示平均每份的数 量。二、二、.中位数的概念。中位数的概念。一组数据按大小顺序排列,位于最中间的一个数据(当有偶数个数据时,为最中间两个数据的平均数)叫做这组数据的中位数。三三 .众数、中位数及平均数的求法。众数、中位数及平均数的求法。众数由所给数据可直接求出;求中位数时,首先要先排序(从小到大或从大到小),然后根据数据的个数,当数据为奇数个时,最中间的一个数就是中位数;当数据为偶数个时,最中间两个数的平均数就是中位数。求平均数时,就用各数据的总和除以数据的个数,得数就是这组数据的平均数。四、中位数与众数的特点。四、中位数与众数的特点。中位数是一组数据中唯一的,可能是这组数据中的数据,也可能不
3、是这组数据中的数据;求中位数时,先将数据有小到大顺序排列,若这组数据是奇数个,则中间的数据是中位数;若这组数据是偶数个时,则中间的两个数据的平均数是中位数;中位数的单位与数据的单位相同;众数考察的是一组数据中出现的频数;众数的大小只与这组数的个别数据有关,它一定是一组数据中的某个数据,其单位与数据的单位相同;(6)众数可能是一个或多个甚至没有;(7)平均数、众数和中位数都是描述一组数据集中趋势的量。五五.平均数、中位数与众数的异同:平均数、中位数与众数的异同:平均数、众数和中位数都是描述一组数据集中趋势的量;平均数、众数和中位数都有单位;平均数反映一组数据的平均水平,与这组数据中的每个数都有关
4、系,所以最为重要,应用最广;中位数不受个别偏大或偏小数据的影响;众数与各组数据出现的频数有关,不受个别数据的影响,有时是我们最为关心的数据。六、对于样本数据六、对于样本数据x x1 1,x x2 2,x xn n,设想通过各数据到其平均数的平均距离来反映样本数,设想通过各数据到其平均数的平均距离来反映样本数据的分散程度,那么这个平均距离如何计算?据的分散程度,那么这个平均距离如何计算?思考 4:反映样本数据的分散程度的大小,最常用的统计量是标准差,一般用 s 表示.假设样本数据 x1,x2,xn的平均数为x,则标准差的计算公式是:七、简单随即抽样的含义七、简单随即抽样的含义 一般地,设一个总体
5、有 N 个个体,从中逐个不放回地抽取 n 个个体作为样本(nN),如果每次抽取时总体内的各个个体被抽到的机会都相等,则这种抽样方法叫做简单随机抽 样.八、根据你的理解,简单随机抽样有哪些主要特点?八、根据你的理解,简单随机抽样有哪些主要特点?(1)总体的个体数有限;(2)样本的抽取是逐个进行的,每次只抽取一个个体;(3)抽取的样本不放回,样本中无重复个体;(4)每个个体被抽到的机会都相等,抽样具有公平性.九、抽签法的操作步骤?九、抽签法的操作步骤?第一步,将总体中的所有个体编号,并把号码写在形状、大小相同的号签上.第二步,将号签放在一个容器中,并搅拌均匀第三步,每次从中抽取一个号签,连续抽取
6、n 次,就得到一个容量为 n 的样本.12|nxxxxxxn-+-+-L22212()()()nxxxxxxsn-+-+-=L十一、抽签法有哪些优点和缺点?十一、抽签法有哪些优点和缺点?优点:简单易行,当总体个数不多的时候搅拌均匀很容易,个体有均等的机会被抽中,从而能保证样本的代表性.缺点:当总体个数较多时很难搅拌均匀,产生的样本代表性差的可能性很大.十一、十一、利用随机数表法从含有利用随机数表法从含有 N N 个个体的总体中抽取一个容量为个个体的总体中抽取一个容量为 n n 的样本,其抽样步骤的样本,其抽样步骤如何?如何?第一步,将总体中的所有个体编号.第二步,在随机数表中任选一个数作为起始
7、数.第三步,从选定的数开始依次向右(向左、向上、向下)读,将编号范围内的数取出,编号范围外的数去掉,直到取满 n 个号码为止,就得到一个容量为 n 的样本.简单随机抽样一般采用两种方法:抽签法和随机数表法简单随机抽样一般采用两种方法:抽签法和随机数表法。思考:如果从 100 个个体中抽取一个容量为 10 的样本,你认为对这 100 个个体进行怎样编号为宜?解法 1:(抽签法)将 100 件轴编号为 1,2,100,并做好大小、形状相同的号签,分别写上这 100 个数,将这些号签放在一起,进行均匀搅拌,接着连续抽取 10 个号签,然后测量这个 10 个号签对应的轴的直径。解法 2:(随机数表法)
8、将 100 件轴编号为 00,01,99,在随机数表中选定一个起始位置,如取第 21 行第 1 个数开始,选取 10 个为68,34,30,13,70,55,74,77,40,44,这 10 件即为所要抽取的样本。小结、小结、简单随机抽样是一种最简单、最基本的抽样方法,简单随机抽样有两种选取个体简单随机抽样是一种最简单、最基本的抽样方法,简单随机抽样有两种选取个体的方法:放回和不放回,我们在抽样调查中用的是不放回抽样,常用的简单随机抽样方的方法:放回和不放回,我们在抽样调查中用的是不放回抽样,常用的简单随机抽样方法有抽签法和随机数法法有抽签法和随机数法.抽签法的优点是简单易行,缺点是当总体的容
9、量非常大时,费时、费力,又不方便,抽签法的优点是简单易行,缺点是当总体的容量非常大时,费时、费力,又不方便,如果标号的签搅拌得不均匀,会导致抽样不公平,随机数表法的优点与抽签法相同,如果标号的签搅拌得不均匀,会导致抽样不公平,随机数表法的优点与抽签法相同,缺点上当总体容量较大时,仍然不是很方便,但是比抽签法公平,因此这两种方法只适缺点上当总体容量较大时,仍然不是很方便,但是比抽签法公平,因此这两种方法只适合总体容量较少的抽样类型合总体容量较少的抽样类型.简单随机抽样每个个体入样的可能性都相等,均为简单随机抽样每个个体入样的可能性都相等,均为 n/Nn/N,但是这里一定要将每个个,但是这里一定要
10、将每个个体入样的可能性、第体入样的可能性、第 n n 次每个个体入样的可能性、特定的个体在第次每个个体入样的可能性、特定的个体在第 n n 次被抽到的可能性次被抽到的可能性这三种情况区分开来,避免在解题中出现错误这三种情况区分开来,避免在解题中出现错误.解题应用解题应用 如果从 600 件产品中抽取 60 件进行质量检查,按照上述思路抽样应如何操作?第一步,将这 600 件产品编号为 1,2,3,600.第二步,将总体平均分成 60 部分,每一部分含 10 个个体.第三步,在第 1 部分中用简单随机抽样抽取一个号码(如 8 号).第四步,从该号码起,每隔 10 个号码取一个号码,就得到一个容量
11、为 60 的样本.(如8,18,28,598)十二、系统抽样的定义:十二、系统抽样的定义:一般地,要从容量为 N 的总体中抽取容量为 n 的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样.由系统抽样的定义可知系统抽样有以下特征:(1)当总体容量 N 较大时,采用系统抽样。(2)将总体分成均衡的若干部分指的是将总体分段,分段的间隔要求相等,因此系统抽样又称等距抽样,这时间隔一般为 knN.(3)预先制定的规则指的是:在第 1 段内采用简单随机抽样确定一个起始编号,在此编号的基础上加上分段间隔的整倍数即为抽样编号.思考
12、思考.下列抽样中不是系统抽样的是下列抽样中不是系统抽样的是 (C C )A、从标有 115 号的 15 号的 15 个小球中任选 3 个作为样本,按从小号到大号排序,随机确定起点 i,以后为 i+5,i+10(超过 15 则从 1 再数起)号入样 B 工厂生产的产品,用传关带将产品送入包装车间前,检验人员从传送带上每隔五分钟抽一件产品检验 C、搞某一市场调查,规定在商场门口随机抽一个人进行询问,直到调查到事先规定的 调查人数为止 D、电影院调查观众的某一指标,通知每排(每排人数相等)座位号为 14 的观众留下来座谈十三、系统抽样的一般步骤十三、系统抽样的一般步骤用系统抽样从总体中抽取样本时,首
13、先要做的工作是什么?将总体中的所有个体编号.如果用系统抽样从 605 件产品中抽取 60 件进行质量检查,由于 605 件产品不能均衡分成60 部分,应先从总体中随机剔除 5 个个体,再均衡分成 60 部分.一般地,用系统抽样从含有 N 个个体的总体中抽取一个容量为 n 的样本,其操作步骤如何?第一步,将总体的 N 个个体编号.第二步,确定分段间隔 k,对编号进行分段.第三步,在第 1 段用简单随机抽样确定起始个体编号 l.第四步,按照一定的规则抽取样本.十四:分层抽样的定义十四:分层抽样的定义:若总体由差异明显的几部分组成,抽样时,先将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽
14、取一定数量的个体,再将各层取出的个体合在一起作为样本.分层抽样又称类型抽样十五十五.应用分层抽样应遵循以下要求及具体步骤:应用分层抽样应遵循以下要求及具体步骤:(1)分层:将相似的个体归入一类,即为一层,分层要求每层的各个个体互不交叉,即遵循不重复、不遗漏的原则。(2)分层抽样为保证每个个体等可能入样,需遵循在各层中进行简单随机抽样,每层样本数量与每层个体数量的比与这层个体数量与总体容量的比相等。一般地,分层抽样的操作步骤如何?第一步,计算样本容量与总体的个体数之比.第二步,将总体分成互不交叉的层,按比例确定各层要抽取的个体数.第三步,用简单随机抽样或系统抽样在各层中抽取相应数量的个体.第四步
15、,将各层抽取的个体合在一起,就得到所取样本.十六、简单随机抽样、系统抽样和分层抽样三种抽样的类比学习十六、简单随机抽样、系统抽样和分层抽样三种抽样的类比学习简单随机抽样、系统抽样和分层抽样既有其共性,又有其个性,根据下表,你能对三种抽样方法作一个比较吗?适适应应范范围围相相互互联联系系抽抽样样特特征征共共同同特特点点方方法法类类别别适适应应范范围围相相互互联联系系抽抽样样特特征征共共同同特特点点方方法法类类别别简简单单随随机机抽抽样样系系统统抽抽样样分分层层抽抽样样抽抽样样过过程程中中每每个个个个体体被被抽抽取取的的概概率率相相等等将将总总体体分分成成均均衡衡几几部部分分,按按规规则则关关联联
16、抽抽取取将将总总体体分分成成几几层层,按按比比例例分分层层抽抽取取用用简简单单随随机机抽抽样样抽抽取取起起始始号号码码总总体体中中的的个个体体数数较较少少总总体体中中的的个个体体数数较较多多总总体体由由差差异异明明显显的的几几部部分分组组成成从从总总体体中中逐逐个个不不放放回回抽抽取取用用简简单单随随机机抽抽样样或或系系统统抽抽样样对对各各层层抽抽样样对样本数据进行分组,组距的确定没有固定的标准,组数太多或太少,都会影响我们了解数据的分布情况.数据分组的组数与样本容量有关,一般样本容量越大,所分组数越多.十七十七 列频率直分布表的步骤列频率直分布表的步骤 列出一组样本数据的频率分布表可以分哪几
17、个步骤进行?列出一组样本数据的频率分布表可以分哪几个步骤进行?第一步,求极差.第二步,决定组距与组数.第三步,确定分点,将数据分组.第四步,列频率分布表.十八、绘制频率分布直方图的步骤十八、绘制频率分布直方图的步骤频率分布直方图中频率分布直方图中 小小长长方方形形的的高高组组距距频频率率样本数据的频率分布直方图是根据频率分布表画出来的,一般地,频率分布直方图的作图步骤如何?第一步,画平面直角坐标系.第二步,在横轴上均匀标出各组分点,在纵轴上标出单位长度.第三步,以组距为宽,各组的频率与组距的商为高,分别画出各组对应的小长方形.小结小结1.1.频率分布是指一个样本数据在各个小范围内所占比例的大小
18、,总体分布是指总体取值的频率分布是指一个样本数据在各个小范围内所占比例的大小,总体分布是指总体取值的 频率分布规律频率分布规律.我们通常用样本的频率分布表或频率分布直方图去估计总体的分布我们通常用样本的频率分布表或频率分布直方图去估计总体的分布.2.2.频率分布表和频率分布直方图,是对相同数据的两种不同表达方式频率分布表和频率分布直方图,是对相同数据的两种不同表达方式.用紧凑的表格改变用紧凑的表格改变数据的排列方式和构成形式,可展示数据的分布情况数据的排列方式和构成形式,可展示数据的分布情况.通过作图既可以从数据中提取信通过作图既可以从数据中提取信息,又可以利用图形传递信息息,又可以利用图形传
19、递信息.3.3.样本数据的频率分布表和频率分布直方图,是通过各小组数据在样本容量中所占比例大样本数据的频率分布表和频率分布直方图,是通过各小组数据在样本容量中所占比例大小来表示数据的分布规律,它可以让我们更清楚的看到整个样本数据的频率分布情况,小来表示数据的分布规律,它可以让我们更清楚的看到整个样本数据的频率分布情况,并由此估计总体的分布情况并由此估计总体的分布情况.月月均均用用水水量量/t频频率率组组距距0.50.40.30.20.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O十九、如何根据样本频率分布直方图,分别估计总体的众数、中位数和平均数?十九、如何根据样本频率分布直方图
20、,分别估计总体的众数、中位数和平均数?(1)众数:最高矩形下端中点的横坐标.(2)中位数:直方图面积平分线与横轴交点的横坐标.(3)平均数:每个小矩形的面积与小矩形底边中点的横坐标的乘积之和.二十:什么是茎叶图二十:什么是茎叶图茎叶图又称“枝叶图”,它的思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。第二部分:概率第二部分:概率一、随机事件的概率及概率的意义一、随机事件的概率及概率的意义1 1、基本概念、基本概念:(1)必然事件:在条件 S 下,一定
21、会发生的事件,叫相对于条件 S 的必然事件;(2)不可能事件:在条件 S 下,一定不会发生的事件,叫相对于条件 S 的不可能事件;(3)确定事件:必然事件和不可能事件统称为相对于条件 S 的确定事件;(4)随机事件:在条件 S 下可能发生也可能不发生的事件,叫相对于条件 S 的随机事件;(5)频数与频率:在相同的条件 S 下重复 n 次试验,观察某一事件 A 是否出现,称 n 次试验中事件 A 出现的次数 nA 为事件 A 出现的频数;称事件 A 出现的比例fn(A)=为事件 A 出现的概率:对于给定的随机事件 A,如果随着试验次nnA数的增加,事件 A 发生的频率 fn(A)稳定在某个常数上
22、,把这个常数记作P(A),称为事件 A 的概率。(6)频率与概率的区别与联系:随机事件的频率,指此事件发生的次数 nA 与试验总次数n 的比值,它具有一定的稳定性,总在某个常数附近摆动,且随着试验nnA次数的不断增多,这种摆动幅度越来越小。我们把这个常数叫做随机事件的概率,概率从数量上反映了随机事件发生的可能性的大小。频率在大量重复试验的前提下可以近似地作为这个事件的概率二、二、概率的基本性质概率的基本性质1、基本概念:(1)事件的包含、并事件、交事件、相等事件(2)若 AB 为不可能事件,即 AB=,那么称事件 A 与事件 B 互斥;(3)若 AB 为不可能事件,AB 为必然事件,那么称事件
23、 A 与事件 B 互为对立事件;(4)当事件 A 与 B 互斥时,满足加法公式:P(AB)=P(A)+P(B);若事件 A 与 B 为对立事件,则 AB 为必然事件,所以 P(AB)=P(A)+P(B)=1,于是有 P(A)=1P(B)2、概率的基本性质:1)必然事件概率为 1,不可能事件概率为 0,因此 0P(A)1;2)当事件 A 与 B 互斥时,满足加法公式:P(AB)=P(A)+P(B);3)若事件 A 与 B 为对立事件,则 AB 为必然事件,所以 P(AB)=P(A)+P(B)=1,于是有 P(A)=1P(B);4)互斥事件与对立事件的区别与联系,互斥事件是指事件 A 与事件 B
24、在一次试验中不会同时发生,其具体包括三种不同的情形:(1)事件 A 发生且事件 B 不发生;(2)事件 A 不发生且事件 B 发生;(3)事件 A 与事件 B 同时不发生,而对立事件是指事件 A与事件 B 有且仅有一个发生,其包括两种情形;(1)事件 A 发生 B 不发生;(2)事件 B 发生事件 A 不发生,对立事件互斥事件的特殊情形。三、古典概型及随机数的产生三、古典概型及随机数的产生1、(1)古典概型的使用条件:试验结果的有限性和所有结果的等可能性。(2)古典概型的解题步骤;求出总的基本事件数;求出事件 A 所包含的基本事件数,然后利用公式 P(A)=总的基本事件个数包含的基本事件数A四
25、、几何概型及均匀随机数的产生四、几何概型及均匀随机数的产生1、基本概念:(1)几何概率模型:如果每个事件发生的概率只与构成该事件区域的长度(面积或体积)成比例,则称这样的概率模型为几何概率模型;(2)几何概型的概率公式:P(A)=;积)的区域长度(面积或体试验的全部结果所构成积)的区域长度(面积或体构成事件A(1)几何概型的特点:1)试验中所有可能出现的结果(基本事件)有无限多个;2)每个基本事件出现的可能性相等第三部分第三部分:统计案例统计案例1 1线性回归方程线性回归方程变量之间的两类关系:函数关系与相关关系;制作散点图,判断线性相关关系线性回归方程:(最小二乘法)abxy 注意:线性回归
26、直线经过定点。1221niiiniix ynxybxnxaybx),(yx2 相关系数(判定两个变量线性相关性):相关系数(判定两个变量线性相关性):niniiiniiiyyxxyyxxr11221)()()(注:注:0 时,变量正相关;0 时,变量负相关;ryx,ryx,(2)越接近于 1,两个变量的线性相关性越强;接近于 0 时,两个变量之|r|r间几乎不存在线性相关关系。3 3回归分析中回归效果的判定:回归分析中回归效果的判定:总偏差平方和:残差:;残差平方和:niiyy12)(iiiyye;回归平方和:;相关指数21)(niyiyiniiyy12)(21)(niyiyi。niiiniiiyyyyR12122)()(1注:注:得知越大,说明残差平方和越小,则模型拟合效果越好;2R越接近于 1,则回归效果越好。2R4 4独立性检验(分类变量关系):独立性检验(分类变量关系):随机变量越大,说明两个分类变量,关系越强,反之,越弱。2K22 列联表y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+dK2=()2(+)(+)(+)(+)