1、Click to edit Master title,Click to edit Master text styles,Second Level,Third Level,Fourth Level,Fifth Level,4-,#,2019-5-5,统计学,基于,SPSS,(,第,3,版,),单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,1-,#,2019-5-5,统计学,基于,SPSS,(,第,3,版,),统计学,基于,SPSS,课程内容,描述统计、推断统计、其他常用方法,使用软件,SPSS,学分与课时,3,学分,,117,周,每周,3,课时,第,4,章
2、随机变量的概率分布,4.1,度量事件发生的可能性,4.2,随机变量概率分布,4.3,样本统计量的概率分布,probability,2019-5-5,学习目标,度量事件发生的可能性,概率,离散型概率分布,二项分布,连续型概率分布,正态分布,由正态分布导出的几个重要分布,t,-,分布,,c,2,-,分布,,F,-,分布,样本统计量的概率分布,2019-5-5,问题与思考彩票中奖的可能性有多大,很多想在彩票市场上赚大钱,这可以理解,但赢得大奖的人总是少数。山东的一打工者为了碰运气,半个小时花去了,1000,元钱,买了,500,张即开型福利彩票,结果也没撞上大奖。有人曾做过统计,最赚钱的彩票,中彩的概
3、率最高是,500,万分之一,有的达到,1000,万分之一甚至更低,假定每张彩票面值是,2,元,大奖的奖金额是,500,万元,中将概率是,500,万分之一,你花掉,1000,万元购买,500,万张彩票,即使中了,500,万的大奖,你仍然亏损,500,万。况且,从概率的意义上看,即使你购买,500,万张彩票,也不能肯定就中大奖,法国人就有这样的俗语:“中彩的机会比空难还少。”对于多数人来说,彩票只是一种数字游戏,是社会筹集闲散资金的一种方式,而不是一种投资,更不是赌博。相信有了本章介绍的概率方面的知识,你就不会再跟彩票较劲,4.1,什么是概率,概率是什么?,怎样获得概率?,怎样理解概率?,第,4,
4、章 随机变量的概率分布,2019-5-5,什么是概率?,(,probability,),概率是,对事件发生的可能性大小的度量,明天降水的概率是,80%,。这里的,80%,就是对降水这一事件发生的可能性大小的一种数值度量,你购买一只股票明天上涨的可能性是,30%,,这也是一个概率,一个介于,0,和,1,之间的一个值,事件,A,的概率记为,P,(,A,),2019-5-5,怎样获得概率?,重复试验获得概率,当试验的次数很多时,概率,P,(,A,),可以由所观察到的事件,A,发生次数,(,频数,),的比例来逼近,在相同条件下,重复进行,n,次试验,事件,A,发生了,m,次,则事件,A,发生的概率可以
5、写为,用类似的比例来逼近,一家餐馆将生存,5,年的概率,可以用已经生存了,5,年的类似餐馆所占的比例作为所求概率一个近似值,主观概率,2019-5-5,怎样理解概率?,投掷一枚硬币,出现正面和反面的频率,随着投掷次数,n,的增大,出现正面和反面的频率稳定在,1/2,左右,(,注意:抛掷完成后,其结果就是一个数据,要么一定是正面,要么一定是反面,就不是概率问题了,),4.2,随机变量的概率分布,4.2.1,随机变量及其概括性度量,4.2.2,随机变量的概率分布,4.2.3,其他几个重要的统计分布,第,4,章 随机变量的概率分布,4.2.1,随机变量及其概括性度量,4.2,随机变量的概率分布,20
6、19-5-5,什么是随机变量?,(random variables),事先不知道会出现什么结果,投掷两枚硬币出现正面的数量,一座写字楼,每平方米的出租价格,一个消费者对某一特定品牌饮料的偏好,一般,用,X,,,Y,,,Z,来表示,根据取值情况的不同分为离散型随机变量和连续型随机变量,2019-5-5,离散型随机变量,(discrete random variables),随机变量,X,取有限个值或所有取值都可以逐个列举,出来,x,1,x,2,,,以确定的概率取这些不同的值,离散,型随机变量的一些例子,试验,随机变量,可能的取值,抽查,100,个,产品,一家餐馆营业一天,电脑公司一个月的销售,销
7、售一辆汽车,取到次品的个数,顾客数,销售量,顾客性别,0,1,2,100,0,1,2,0,1,2,男性为,0,女性为,1,2019-5-5,连续型随机变量,(continuous random variables),可以取一个或多个区间中任何值,所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点,连续型随机变量的一些例子,试验,随机变量,可能的取值,抽查一批电子元件,新建一座住宅楼,测量一个产品的,长度,使用寿命,(,小时,),半年后完工的百分比,测量误差,(cm),X,0,0,X,100,X,0,2019-5-5,离散型随机变量的期望值,(expected value),描述离散
8、型随机变量取值的集中程度,离散,型随机变量,X,的所有可能取值,x,i,与其,取相对应的,概率,p,i,乘积之和,记为,或,E,(,X,),,计算,公式为,2019-5-5,离散型随机变量的方差,(variance),随机变量,X,的,每一个取值与期望值的离差平方和的数学,期望,记为,2,或,D,(,X,),描述离散型随机变量取值的分散程度,计算公式为,方差的平方根称为标准差,记为,或,D,(,X,),2019-5-5,离散型数学期望和方差,(,例题分析,),【,例,41】,一家手机制造商声称,它们所生产的手机,100,个中拥有次品的个数及相应的概率如下表所示。求该手机次品数的期望值和标准差,
9、次品数,X,=,x,i,0,1,2,3,概率,P,(,X,=,x,i,),p,i,0.75,0.12,0.08,0.05,2019-5-5,连续型随机变量的期望和方差,连续型随机变量的期望值,方差,4.2.2,随机变量的概率分布,4.2,随机变量的概率分布,2019-5-5,离散型随机变量的概率分布,列出离散型随机变量,X,的所有可能取值,列出随机变量取这些值的概率,通常用下面的表格来表示,X,=,x,i,x,1,,,x,2,,,,,x,n,P,(,X,=,x,i,)=,p,i,p,1,,,p,2,,,,,p,n,P,(,X,=,x,i,)=,p,i,称为离散型随机变量的概率函数,p,i,0,
10、常用的有二项分布、泊松分布、超几何分布等,2019-5-5,二项试验,(Bernoulli,试验,),二项分布建立在,Bernoulli,试验基础上,贝努里试验满足下列条件,一次试验只有两个可能结果,即,“,成功,”,和,“,失败,”,“,成功,”,是指我们感兴趣的某种特征,一次试验“成功”的概率为,p,,失败的概率为,q,=1-,p,,,且概率,p,对每次试验都是相同的,试验是相互独立的,并,可以重复进行,n,次,在,n,次试验中,,“,成功,”,的次数对应一个离散型随机变量,X,2019-5-5,二项分布,(Binomial distribution),重,复,进行,n,次试验,出现“
11、成功”的次数的概率分布称为二项分布,记为,X,B,(,n,,,p,),设,X,为,n,次重复试验中出现成功的次数,,X,取,x,的概率为,2019-5-5,二项分布,(,例题分析,),【,例,4-2】,已知一批产品的次品率为,4%,,从中任意有放回地抽,取,5,个。求,5,个产品中,(1),没有次品的概率是多少?,(2),恰好有,1,个次品的概率是多少?,(3),有,3,个以下次品的概率是多少?,2019-5-5,二项分布,(,用,SPSS,函数计算概率,),计算二项分布的概率,SPSS,2019-5-5,连续型随机变量的概率分布,连续型随机变量可以取某一区间或整个实数轴上的任意一个值,它取任
12、何一个特定的值的概率都等于,0,不能列出每一个值及其相应的概率,通常研究它取某一区间值的概率,用概率密度函数的形式和分布函数的形式来描述,2019-5-5,正态分布,(normal distribution),由,C.F.,高斯,(,Carl Friedrich Gauss,,,1777,1855,),作为描述误差相对频数分布的模型而提出,描述连续型随机变量的最重要的分布,许多现象都可以由正态分布来描述,可用于近似离散型随机变量的分布,例如:二项分布,经典统计推断的基础,2019-5-5,概率密度函数,f,(,x,)=,随机变量,X,的频数,=,正态随机变量,X,的均值,=,正态随机变量,X,
13、的方差,=3.1415926,;e=,2.71828,x,=,随机变量的取值,(-,x,+,),2019-5-5,正态分布函数的性质,图形是关于,x,=,对称钟形曲线,且峰值在,x,=,处,均值,和标准差,一旦确定,分布的具体形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族”,均值,可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的,“,陡峭,”,或,“,扁平,”,程度,。,越大,正态曲线扁平;,越小,正态曲线越高陡峭,当,X,的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交,正态随机变量在特定区间上的取值概率由正态曲线下的面积给
14、出,而且其曲线下的总面积等于,1,2019-5-5,和,对,正态曲线的影响,2019-5-5,正态分布的概率,2019-5-5,标准正态分布,(standardize normal distribution),标准正态分布,的概率密度函数,随机变量具有均值为,0,,标准差为,1,的正态分布,任何一个,一般的正态分布,可通过下面的线性变换转化为标准正态分布,标准正态分布,的分布函数,2019-5-5,正态分布,(,用,SPSS,计算,正态分布,的概率,),2019-5-5,正态分布,(,例题分析,),【,例,4-5】,计算以下概率,(1),X,N,(50,10,2,),,求 和,(2),Z,N,
15、0,1),,求 和,(3),正态分布概率为,0.05,时,求标准正态累积分布函数,的反函数值,z,计算正态分布的概率,SPSS,2019-5-5,数据正态性的评估,对数据画出频数分布的直方图或茎叶图,若数据近似服从正态分布,则图形的形状与上面给出的正态曲线应该相似,绘制正态概率图。,有时也称为分位数,分位数图或称,Q,-,Q,图或称为,P-P,图,用于考察观测数据是否符合某一理论分布,如正态分布、指数分布、,t,分布等等,P-P,图是根据观测数据的累积概率与理论分布,(,如正态分布,),的累积概率的符合程度绘制的,Q-Q,图则是根据观测值的实际分位数与理论分布,(,如正态分布,),的分位数绘
16、制的,使用非参数检验中的,Kolmogorov-Smirnov,检验,(K-S,检验,),2019-5-5,用,SPSS,绘制正态概率图,第,1,步:,选择,【,Graphs,】,下拉菜单,并选择,【,P-P,】,或,【,Q-Q,】,选项进入主对话框,第,2,步:,在主对话框中将变量选入,【,Variables,】,,点击,【,OK,】,绘制正态概率图,SPSS,2019-5-5,正态概率图的绘制,(,例题分析,),P-P,图,Q-Q,图,【,例,4-4】,判断大学生的月生活费支出是否服从正态分布,4.2.3,其他几个重要的统计分布,4.2,随机变量的概率分布,2019-5-5,t,-,分布,
17、t,-,distribution,),提出者是,William Gosset,,也被称为学生分布,(students t),t,分布是类似正态分布的一种对称分布,通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布,2019-5-5,由阿贝,(,Abbe,),于,1863,年首先给出,后来由海尔墨特,(,Hermert,),和卡,皮尔逊,(,KPearson,),分别于,1875,年和,1900,年推导出来,设 ,则,令 ,则,y,服从自由度为,1,的,2,分布,即,对于,n,个正态随机变量,y,1,,,y,2,,,y,n,,则随机变
18、量,称为具有,n,个自由度的,2,分布,记为,c,2,-,分布,(,2,-,distribution,),2019-5-5,分布的变量值始终为正,分布的形状取决于其自由度,n,的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称,期望为:,E,(,2,)=,n,,方差为:,D,(,2,)=2,n,(,n,为自由度,),可加性:若,U,和,V,为两个独立的,2,分布随机变量,,U,2,(n,1,),,,V,2,(,n,2,),则,U,+,V,这一随机变量服从自由度为,n,1,+,n,2,的,2,分布,c,2,-,分布,(,性质和特点,),2019-5-5,不同自由度的,c,2,分布,2
19、019-5-5,为纪念统计学家费希尔,(,R.A.Fisher,),以其姓氏的第一个字母来命名则,设若,U,为服从自由度为,n,1,的,2,分布,即,U,2,(,n,1,),,,V,为服从自由度为,n,2,的,2,分布,即,V,2,(,n,2,),且,U,和,V,相互独立,则,称,F,为服从自由度,n,1,和,n,2,的,F,分布,记为,F,-,分布,(,F,distribution,),2019-5-5,不同自由度的,F,分布,4.3,样本统计量的概率分布,4.3.1,统计量及其分布,4.3.2,样本均值的分布,4.3.3,其他统计量的分布,4.3.4,统计量的标准误差,第,4,章 随机变量
20、的概率分布,4.3.1,统计量及其分布,4.3,样本统计量的概率分布,2019-5-5,参数和统计量,参数,(parameter),描述总体特征的概括性数字度量,是,研究者想要了解的总体的某种特征值,一个总体的参数:总体均值,(,),、标准差,(,),、总体比例,(,),;两个总体参数:,(,1,-,2,),、,(,1,-,2,),、,(,1,/,2,),总体参数通常用希腊字母表示,统计量,(statistic),用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数,一个总体参数推断时的统计量:样本均值,(,x,),、样本标准差,(,s,),、样本比例,(,p,),
21、等两个总体参数推断时的统计量:,(,x,1,-,x,2,),、,(,p,1,-p,2,),、,(,s,1,/s,2,),样本统计量通常用小写英文字母来表示,2019-5-5,样本统计量的概率分布,,是一种理论分布,在重复选取容量为,n,的样本时,由该统计量的所有可能取值形成的相对频数分布,随机变量是,样本统计量,样本均值,样本比例,样本方差等,结果来自,容量相同,的,所有,可能样本,提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,抽样分布,(,sampling distribution,),4.3.2,样本均值的分布,4.3,样本统计量的概率分布,2019
22、5-5,在重复选取容量为,n,的样本时,由样本均值的所有可能取值形成的相对频数分布,一种理论概率分布,推断总体均值,的理论基础,样本均值的分布,2019-5-5,样本均值的分布,(,例题分析,),,,2019-5-5,样本均值的分布,(,例题分析,),2019-5-5,样本均值的分布与总体分布的比较,(,例题分析,),总体分布,样本均值分布,2019-5-5,样本均值的分布与中心极限定理,当总体服从正态分布,N,(,2,),时,来自该总体的所有容量为,n,的样本的均值,x,也服从正态分布,,x,的期望值为,,方差为,2,/,n,。即,x,N,(,2,/,n,),从均值为,,方差为,2,的一个
23、任意总体中抽取容量为,n,的样本,当,n,充分大时,样本均值的抽样分布近似服从均值为,、方差为,2,/,n,的,正态分布,2019-5-5,样本均值的分布与中心极限定理模拟,#,中心极限定理,模拟,U=,均匀分布,E=,指数分布,2019-5-5,抽样分布与总体分布的关系,2019-5-5,样本均值的分布,样本均值的期望值和方差,样本均值的分布,(,期望值与方差,),4.3.3,其他统计量的分布,4.3,样本统计量的概率分布,2019-5-5,总体,(,或样本,),中具有某种属性的单位与全部单位总数之比,不同性别的人与全部人数之比,合格品,(,或不合格品,),与全部产品总数之比,总体比例可表示
24、为,样本比例可表示为,样本比例的分布,(proportion),2019-5-5,在重复选取容量为,n,的样本时,由样本比例的所有可能取值形成的相对频数分布,一种理论概率分布,当样本容量很大时,样本比例的抽样分布可用正态分布近似,即,样本比例的分布,2019-5-5,样本方差的分布,在重复选取容量为,n,的样本时,由样本方差的所有可能取值形成的相对频数分布,对于来自正态总体的简单随机样本,则比值,的抽样分布服从自由度为,(,n,-1),的,2,分布,即,4.3.4,统计量的标准误差,4.3,样本统计量的概率分布,2019-5-5,统计量的标准误差,(standard error),样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差,衡量统计量的离散程度,测度了用样本统计量估计总体参数的精确程度,样本均值和样本比例的标准误差分别为,2019-5-5,估计的标准误差,(standard error of estimation),当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误,以样本均值为例:当总体标准差,未知时,可用样本标准差,s,代替,则,在重复抽样条件下,,样本均值的估计标准误,为,2019-5-5,本章小结,结 束,THANKS,
©2010-2025 宁波自信网络信息技术有限公司 版权所有
客服电话:4009-655-100 投诉/维权电话:18658249818