教育学概率与概率.pptx_咨信网zixin.com.cn

资源描述

1、第六章概率与概率分布第六章概率与概率分布本章内容第一节概率的基本知识第二节第二节正态分布正态分布第三节二项分布第四节第四节抽样分布抽样分布本章重点掌握正态分布和样本分布，每节重点具体参见各节的学习重点2009年考研大纲部分(一)推断统计的数学基础1概率2正态分布3二项分布4抽样原理与抽样方法5抽样分布第一节第一节概率的基本知识概率的基本知识一、随机现象、随机事件、随机变量1、随机现象：事先不可以预言的现象2、随机事件：随机现象的每一种可能结果3、随机变量：随机现象各种可能结果的量化数值具有规律性和随机性的变量。二、概率及其计算1、什么是概率随机事件出现可能性大小的客观指标。2、概率的计算

2、（1）先验概率（古典概率）在一些特殊情况下计算出来的概率，是真实的概率，而不是估计值有限性。等可能性。在有限个基本事件的实验中，如果所有事件的可能结果为n，随机事件A包括m个可能结果，则事件A的概率为(2)后验概率（统计概率）先从频率谈起。随机事件A在n次试验中出现了m次，那么m与n的比值，就是随机事件A的频率。如果试验次数n充分地大，则事件A出现的频率稳定在某一数值p附近，则称p为事件A的概率。由于p也是一抽象的值，常常用n在充分大时的代替。即：P（A）m/n(n）如，一个射手射击500次，有400次中靶，问该射手射击水平如何（命中率）解：解：总结先验和后验概率：先验概率是在特定条件下计算出

3、来的概率，是随机事件真实的概率，不是由频率估计得来的。而后验概率是由频率近似得来。但当实验重复次数非常大的时候，后验概率也接近先验概率。先验和后验概率只能计算简单随机事件的概率(3)概率的公理系统概率是可以做代数运算的，如果求复杂事件的概率，可以运用概率的加法和乘法原则帮助获得。任何一个随机事件A的概率都是0与1之间的正数，0P（A）1；不可能事件（必然不发生的事件）概率等于0，如新生儿说话的概率为0；必然发生的事件概率等于1，如健康儿童语言发生和发展的概率为1注：概率接近1的事件发生的可能性较大，而概率接近0的事件其发生的可能性较小，反过来不成立（4）概率的加法定理在一次实验中不可能同时出现

4、的事件称为互不相容的事件。如出现A则B事件就不会发生两个互不相容事件和的概率，等于这两个事件概率之和。P（A+B）=P（A）+P（B）如：某一学生从5个试题中任意选取一题，如果抽到每一题的概率是1/5，则抽到试题1或试题2的概率为：P（A+B）=1/5+1/5=2/5多个互不相容事件和的概率等于这些事件的概率之和。总和概率不大于1。P（A1+A2+An）=P（A1）+P（A2）+P（An）（5）、概率的乘法定理一个事件的出现对另一个事件的出现不发生影响。独立事件两个独立事件同时出现的概率等于这两个事件概率的乘积。P（AB）=P（A）P（B）乘法定理适用于几种事件同时发生的情况。如第一个学生把抽

5、过的试题还回后，第二个学生再抽选，则两个学生都抽到试题1的概率为P（AB）=1/51/5=I/25有限个独立事件积的概率，等于这些事件概率的乘积当然，很多情况需要加法和乘法定理结合运用求概率，做课后习题。二、概率分布的类型1、离散分布与连续分布(1)离散分布如果随机变量只能取有限的或无限但可以数下去的数值，则这种随机变量取值的概率规律称为离散分布。这类分布往往将随机试验的所有结果及其相应的概率一一列出来以表示分布规律。例例1：抛置硬币这一随机试验可以用如下一些方式来表示其分布规律：记A=正面向上，B=反面向上，则P(A)=0.5，P(B)=0.5。令出现正面向上用1表示，反面向上用0表示，则P

6、(A=1)=0.5，P(B=0)=0.5用图形来表示：用表格表示正面朝上用1表示，反面朝上用0表示，表格如下随机事件正面朝上反面朝上概率0.50.5K10P(=k)0.50.5（2）连续分布如果随机变量可以取连续的数值，则这种随机变量取值的概率规律称为连续分布。对于连续分布我们不能列出所有取值及其对应的概率，只能求出介于某一范围的人数、频率以及概率，因此连续分布的表示方法有别于离散分布，一般采用概率密度函数来表示。当样本的容量及分组逐渐增加时，次数分布图将趋近于一条稳定而连续的曲线，这条曲线就称为连续随机变量的概率密度函数，一般记为f(x)。2、经验分布与理论分布、经验分布与理论分布（1）经验

7、分布）经验分布经验分布是根据观察或实验所获得的数据而编制的次数分布或相对频率分布，经验分布往往是总体的一个样本的情况，用来反映总体的大致情况，因此经验分布也称为样本分布。（2）理论分布）理论分布理论分布是指根据理论推演出来的随机变量的概率分布模型，它指的是总体的分布规律（与样本分布相对应）正态分布、二项分布、T分布、F分布、2分布。在不同的理论分布中，反映它们特征的参数是不一样的。3、基本随机变量分布与抽样分布、基本随机变量分布与抽样分布（1）基本随机变量分布（2）抽样分布指样本统计量的理论分布，如样本平均数、方差、标准差、相关系数等的分布。抽样分布是随机变量函数的分布中的一种，即是说样本的平

8、均数、方差、标准差、相关系数都是基本随机变量的函数。第二节第二节正态分布正态分布作为概率分布的一种，属于连续型随机变量的概率分布，又称“高斯分布”一、正态分布特征1、正态分布如何形成？(1)用某种数学模型、函数计算出来的连续型随机变量的概率分布(2)正态曲线函数（密度函数）Y=(3)正态分布形态解释：x：连续变量的任何一点,取值-xz=1.65故X=(1.65)(15)+100=124.75例1、某区对参加数学竞赛的2000人中前500名予以奖励，考试的平均数为75，标准差为9，问授奖的分数线是多少？（81.12）例2、某区3600个学生数学测验分数接近正态分布，其平均分为80分，标准差为1

9、1.5分，问在70-90之间应当有多少人？占人数的百分比是多少？（2217，61.57%）3、确定等级评定的人数、确定等级评定的人数解决的问题解决的问题:总共有n个被试，要将他们按某指标（能力）分成K个组，问每个组应各分多少个，才能使不同组在能力上的差异等距。才能使不同组在能力上的差异等距。原理原理:假设平均数左右3个标准差（99.73%）覆盖了所有的范围，然后将之均分，对每等级查概率表计算相应的比率。例3、见课后习题13。4、化等级评定为测量分数、化等级评定为测量分数例4、请将三位教师对40名学生普通话比赛的等级评定转化为数量化分数，并求出A,B两个学生平均等级的数量化分数。等级各老师评定的

10、人数教师甲教师乙教师丙优良中差极差1020550410121040122080总和404040被评学生评定者教师甲乙丙AB优良良优中中参见教材169页例题（1）处理等级评价遇到的问题不同评价者由于各自的标准不同，对同一个心理量进行评定时可能给出不同的等级分数，如何综合评价各评价者的结果。如何比较不同被评者的心理量的差异。转化的前提条件（169页）:被评定的心理量从意义上来说应是一个测量数据，而且服从正态分布（凭常识），只是人为地在评定时划分为等级。对于一个具体的样本来说，他们所服从的正态分布是固定的，只是不同评价者对这个正态分布的划分不一样。转化方法用各等级中点对应的Z分数代表该等级分数。（

11、169页）（4）步骤5、确定测验题目的难易程度、确定测验题目的难易程度（回顾统计量不同单位的比较）难易度是表示试题的难易程度的指标，一般用答对者的比例来表示，而百分数不是等距尺度，只是顺序尺度，无法比较不同难易程度题目之间的难度距离。因此也需要将难易百分数转化为难易Z分数。这种转化的原理是：假设试题所测试的被试的心理量呈正态分布（注意注意，不是教材中所说的“假设一个测验中不同难易测验题目的分布是正态的，即一个测验中通过率较大和较小的题目较少，而通过率居中的题目较多”P171）。比如说难易度为84.13%意味着有84.13%的人通过，查正态表P=34.13%时Z=1，转化回原分布，即相当于平均数

12、以下1个标准差处，即能力水平在平均水平以下一个标准差单位以上的所有被试都能通过该题，因此难易度P=84.13%转化成难易Z分数为-1。通过率应放在正态分布最上端转化时为了避免出现负数，常常对Z分数进行变换，即加上5，即假设总共左右5个标准差范围，同时也使最后的数据满足10分制，符合我们的习惯。在正态分布图上99%的通过率意味着比95%的通过率所占的面积大，Z分数的位置低。参见教材171页例题6、T分数或次数分布的正态化分数或次数分布的正态化用于总体服从正态分布，但样本由于取样的原因不服从正态，因此希望将原始分数分布转化为正态分布，其具体方法见教材。注意将“T分数”和在标准分一节所讲的“测验分数

13、”的转化方法进行了比较，这两种分数很容易混淆。教材175页有分析。分数对象条件方法变换性质T分数样本总体正态样本非正态样本针对自己的次数分布累积情况来变化，即由累积百分比转化为Z值，再得：T=10Z+50非线性变换，化成正态。测验分数个体总体接近或是正态个体针对总体变线性变换，不变正态性。第三节第三节二项分布二项分布作为概率分布的一种，属于离散型随机变量的概率分布，又称“贝努里分布”。基本随机变量分布一、二项分布的特征1、二项分布的形成（1）二项实验一次实验只有两种可能结果，即成功与失败各次实验相互对立，即各次实验之间不相互影响各次实验成功的概率相等（失败的概率也应该相等）（2)二项分布实验

14、仅有两种不同性质结果的概率分布，又可以说是两个对立事件的概率分布（3)二项分布的函数b(x,n,p)=Cxnpxqn-x，x=0，1，.n。二、二项分布的性质1、二项分布是离散型分布，概率分布图是直方图，X是不连续的变量，用概率条图更好。（与正态分布不同）2、以事件A出现的次数为横坐标，以概率为纵坐标，画出二项分布的图象，可以看出：p=q=0.5时，图象对称；Pq时，呈偏态，如果n很大，偏态降低，接近正态，二项分布的极限是正态分布；当pq且np5,或者pq，nq5,可以看作近似的正态分布；3、如果接近正态，二项分布的X变量成功的次数）均值为np，方差为npq。三、二项分布的应用1、成功事件恰好

15、出现X次的概率；2、判断实验结果机遇性与真实性的界限属于二项分布的问题，如果实验次数n较大，一般都用正态分布近似处理例例3(教材P182例6-6)有正误题10题，问：答对多少题才能认为不是完全凭猜测做题？解：首先假设是完全凭猜测来做题，因此对每一题来说，做对做错的可能性一样，因此p=q=0.5，可以计算得，做对8题及以上题数的可能性为：b(8,10,0.5)+b(9,10,0.5)+b(10,10,0.5)=0.05475%作对题目数出现次数概率累计频率01234567891011045120210252210120451010.0010.0100.0440.1170.2050.2460.2

16、050.1170.0440.0100.0010.0010.0110.0550.1720.3770.6230.8280.9450.9890.9991.000总和10241.000第四节第四节抽样分布抽样分布一、什么是抽样分布一、什么是抽样分布区分三种性质不同的分布区分三种性质不同的分布总体分布：总体内各体数值的频数分布样本分布：样本内个体数值的频数分布抽样分布：样本的某一统计量的概率分布（同书上的样本分布）从同一总体取从同一总体取3次不同样本次不同样本.每一个都不同每一个都不同.不同形状不同形状,不同不同均值均值,不同不同方差方差.如何对总体均值作出最佳估计如何对总体均值作出最佳估计?（1）

17、样本统计量的概率分布：平均数、标准差、方差、相关系数、平均数之差，百分比率等等（2）实际上，实验性的抽样分布只是为了容易理解，事实不存在的，抽样分布只是一个理论的概率分布二、样本统计量的数字特征（仅以样本平均数为例）二、样本统计量的数字特征（仅以样本平均数为例）一切可能样本平均数的平均数等于母总体的平均数，表示为：EX=一切可能样本的平均数的方差等于母总体方差的n分之一，表示为2X=2/n：（3）一切可能样本平均数的标准差等于总体标准差的n分之一，SEX=/n 样本平均数的在抽样分布上的标准差称为样本平均数的标样本平均数的在抽样分布上的标准差称为样本平均数的标准误，记为准误，记为SE，（sta

18、ndard error of x；SE）标准误的解释标准误的解释:样本平均数的标准误是形容与的标准距离.？（1）标准误是反映抽样误差的量？）标准误是反映抽样误差的量？实质就是标准差，某种统计量在抽样分布上的标准差，就称为该统实质就是标准差，某种统计量在抽样分布上的标准差，就称为该统计量的标准误计量的标准误.如：如：（2）这个统计量的主要目的和用途是告诉我们样本平均数对总体均值的估计是否准确。换言之，取样误差是多大？（3）取样误差:任何一个样本的统计量（如样本平均数）可能大于或小于总体参数（如均值）。这是遵循随机化的取样误差造成的。标准误越小，一切可能样本的小平均数之间差异小，比较集中，取样比较

19、均匀，说明样本统计量与总体参数值越接近，抽样误差小，那么样本对总体越有代表性，所以，标准误是总体推断可靠性指标。（4）怎样使标准误小？）怎样使标准误小？标准误的数值取决于两个特征:总体方差和样本容量两个特征合并起来，就是标准误的定义公式1)总体标准差（方差）-总体标准差（方差）越大,样本平均数的标准差（方差）越大.总体标准差大，一切可能的样本平均数与总体均值的差异大总体标准差小，一切可能的样本平均数与总体均值的差异小2)样本容量-如果随机抽取1个学生，用这个学生的分数预测总体分数的准确性怎样?-如果随机抽取5个学生.会不会更准确些?-如果随机抽取100个学生呢？中心极限定律中心极限定律（Cen

20、tral Limit Theorem）：）：对于任何均值为，标准差为的总体,样本容量为n的样本均值的分布，随着n趋近无穷大时，会趋近均值为，标准差为/n的正态分布怎样把样本平均数用标准分数表示？三、样本统计量的分布规律三、样本统计量的分布规律（以样本平均数为例）1、为正态或渐进正态的情况若总体方差已知，总体呈正态分布，样本平均数的分布也呈正态分布；若总体方差已知，总体为非正态分布，只要样本容量n足够大（30），则样本平均数的分布也趋近正态分布；2、t分布(1)若总体方差未知，总体呈正态分布，样本平均数的分布呈t分布；(2)若总体方差未知，总体为非正态分布，只要样本容量n足够大（30），则样本

21、平均数的分布也趋近t分布；可见，Z分布和t分布的主要区别是考察总体方差是否已知？对于第2条的第（2）点，如果n足够大，此时的t分布近似Z分布。四、t分布概率分布的一种，高赛特，1908提出，又叫学生氏分布。应用条件应用条件(1)若总体方差未知，总体呈正态分布，样本平均数若总体方差未知，总体呈正态分布，样本平均数的分布呈的分布呈t分布；分布；(2)若总体方差未知，总体为非正态分布，只要样本若总体方差未知，总体为非正态分布，只要样本容量容量 n 足够大（足够大（30），则样本平均数的分布也趋近），则样本平均数的分布也趋近t分布；分布；1、t分布的特点注意与正态分布相比较（1）相同以平均数为0左右对

22、称的分布，左侧t值为负，右侧t值为正；曲线以平均数处为最高向两侧下降，尾部不断延伸，呈单峰分布；变量取值在-+之间；曲线与横轴包围的面积为1。（2）不同分布的形态更高狭；标准Z分布不管n的大小，分布的曲线只有?条；而t分布的曲线形状与样本n有关，随样本n的大小而变化，是一簇分布。标准正态分布表的P值由Z和Y决定，三者精确地一一对应，而t分布，附表2，只有几个比较重要的P值，而且随df（n-1)变化。思考：当总体方差未知时，样本平均数的平均数和样本平均数的标准误应该怎样表示？注：df的解释。自由度：总体参数估计量中变量值独立自由变化的个数。自由度的产生利用样本统计量估计总体参数时，自由度等于样本

23、容量减去限制因子的个数；还有一种方法就是看总体参数估计量中运用了几个统计量，其自由度就等于样本容量减去几。（3）t分布与正态分布的联系n-,t分布的极限为正态分布2、t分布表的使用分布表的使用见附表2，t分布概率表以双侧概率进行编表，即相等的两端概率之和为给定的P，并给出上端点的t值，下端点即为-tt0.05/2(8)=2.306t0.05(8)=1.86做课后习题第21、24、25题五、其他抽样分布1、X2分布什么样的变量符合X2分布？继续做一个试验在一个正态的总体中XN（，2）随机选取样本容量为n的样本第一组样本：X1,1X1,2X1,3X1,4X1,5X12第二组样本：X2,1X2,2X

24、2,3X2,4X2,5X22第三组样本：X3,1X3,2X3,3X3,4X3,5X32第i组样本：Xi,1Xi,2Xi,3Xi,4Xi,5Xi2这无限个Xi2值会呈现什么样的分布呢？表示X2分布的基本公式表示X2分布的变式X2分布的形态（2）X2分布的特点X2分布是正偏态分布X2值都是正值X2分布的和也是X2分布X2分布是连续型分布，也有些离散型的分布也近似X2分布（3）X2分布的用途计数数据的假设检验样本方差与总体方差差异是否显著(2)卡方分布表的使用概率值是2值以上2分布曲线以下的概率。dfp2双侧概率和单侧概率请做课后习题22、26、27、28、292、F分布(1)F分布是由两个卡方分布

25、构造而成的一个新的概率分布。(2)F分布是如何构造的？从两个在正态的总体中（1，12）（2，22）随机选取样本容量为n1和n2的样本（3）F分布的形态双侧概率表（附表双侧概率表（附表3）单侧概率表（附表单侧概率表（附表4）（4）F分布概率表（附表分布概率表（附表3，P454；附表；附表4，P458）请做课后习题23、30总结：t分布、X2分布、F分布都是一种在抽样层面上的概率分布。都是在正态分布基础之上构造而成。三种分布在假设检验中用得非常广泛t分布用于总体参数未知情况下的平均数差异是否显著的检验X2分布用于计数数据以及样本方差和总体方差差异是否显著的检验F分布用于两个样本方差差异是否显著的检验。（举例）

展开阅读全文