1、 新疆财经大学统计与信息学院 SAS讲义3 王建军 SAS软件概率计算 一、概率论基本概念 1 1.1随机变量 1 1.2随机变量的分布 2 1.3 常见的离散型分布 3 1.4.常见的连续型分布 4 二 SAS概率计算函数与应用 7 2.1 概率函数掌握四个部分 7 2.2 二项分布SAS程序计算 8 2.3 .正态分布与计算 15 2.4 POISSON分布 20 2.5 指数分布 22 2.8 F分布表 25 2.10 卡方分布表 25 主要内容:造概率分布表,计算常用分布概率,SAS概率计算 一、概
2、率论基本概念 1.1随机变量 随机变量(Random Variable,RV). 随机变量实质上是函数,不是简单变量。 给定样本空间,如果其上的实值函数 是 (实值)可测函数,则称为(实值)随机变量。任何的函数称为随机变量。 1.2随机变量的分布 连续随机变量 概率分布密度,分布函数 连续性随机变量的定义 若对于随机变量,存在定义在上的非负函数,使得对任意的实数,总有 则称于随机变量是连续性随机变量,其中称为的概率密度函数,简称概率密度,为明确起见,有时写为。 F(x)为分布函数。 2.概率密度函数的性质 (1) 注:该性质
3、是是某一连续型随机变量的概率密度的充要条件。 (2)对连续性随机变量,一定是连续的,但是未必连续,在的连续点处,有, (3)对任意的实数 从而对任意实数,有 。=F(b)-F(a) 注:常用概率密度描述连续型随机变量的统计规律。 1.3 常见的离散型分布 (1) 两点分布(0—1分布):其分布律为 即 0 1 p 1–p p (2)二项分布 (ⅰ)二项分布的来源—重伯努利试验:设是一个随机试验,只有两个可能的结果及,,将独立重复地进行次,则称
4、这一串重复的独立试验为重伯努利试验。 (ⅱ)二项分布的定义 设表示在重伯努利试验中事件发生的次数,则随机变量的分布律为 , , 称随机变量服从参数为的二项分布,记作。 注:即为两点分布。 (3)泊松分布:若随机变量的分布律为 , , 则称随机变量服从参数为的泊松分布,记作(或。 1.4.常见的连续型分布 (1)均匀分布 设表示几何概型中的落点坐标,则其分布函数为 , 其概率密度为 , 称服从区间上的均匀分布,记为。 (2)指数分布 若随机变量的概率密度为 , 称服从参数为的指数
5、分布,其分布函数是 。 (3)正态分布 (ⅰ)标准正态分布:若随机变量的概率密度为 ,, 则称服从标准正态分布,记为,其分布函数为 , (ⅱ)一般正态分布:若随机变量的概率密度为 ,, 则称服从参数为的正态分布,记为,其分布函数为 , (ⅲ)正态分布的性质: 满足对称性,即,; 若,则,即,从而有; 注:由上述性质,可将正态分布的计算转换为标准正态分布的计算,而对于标准正态分布的分布函数值,当时有表可查,根据对称性,当时,可根据算出的值。 若,则 (ⅳ)标准正态分布的上分位点:设,对于任给的,,称满足
6、的点为标准正态分布的上分位点。 二 SAS概率计算函数与应用 2.1 概率函数掌握四个部分 1.概率密度PDF, 2.分布函数CDF 3.分位数函数 4.随机函数RANdom 作为一个统计计算语言,SAS提供了多种概率分布的有关函数。分布密度、概率、累积分布函数等可以通过几种统一的格式调用,格式为 分布函数值 = CDF(' 分布', x <, 参数表>); 密度值 = PDF(' 分布', x <, 参数表>); 概率值 = PMF(' 分布', x <, 参数表>); CDF计算由'分布'指定的分布的分布函数
7、 PDF计算分布密度函数值,PMF计算离散分布的分布概率, 分布函数 分布类型取值可以为: BERNOULLI, BETA, BINOMIAL, CAUCHY, CHISQUARED, EXPONENTIAL, F, GAMMA, GEOMETRIC, HYPERGEOMETRIC, LAPLACE, LOGISTIC, LOGNORMAL, NEGBINOMIAL, NORMAL 或 GAUSSIAN, PARETO, POISSON, T, UNIFORM, WALD 或 IGAUSS, and WEIBULL。可以只写前四个字母。 例如,PDF('NORMAL'
8、 1.96)计算标准正态分布在1.96处的密度值(0.05844),CDF('NORMAL', 1.96)计算标准正态分布在1.96处的分布函数值(0.975)。PMF对连续型分布即PDF。 分位数函数 分位数函数是概率分布函数的反函数。其自变量在0到1之间取值。分位数函数计算的是分布的左侧分位数。SAS提供了六种常见连续型分布的分位数函数。 PROBIT(p) 标准正态分布左侧p分位数。结果在-5到5之间。 TINV(p, df <,nc>) 自由度为df的t分布的左侧p分位数。可选参数nc为非中心参数。 CINV(p,df<,nc>) 自由度为df的卡方分布的左侧p分
9、位数。可选参数nc为非中心参数。 FINV(p,ndf,ddf<,nc>) F(ndf,ddf)分布的左侧p分位数。可选参数nc为非中心参数。 GAMINV(p,a) 参数为a的伽马分布的左侧p分位数。 BETAINV(p,a,b) 参数为(a,b)的贝塔分布的左侧p分位数。 2.2 二项分布SAS程序计算 1、二项分布概率计算 X~B(n,p) 计算概率B(x,p,n)=PROBBNML(x,p,n) 例:计算二项分布概率,n=5, p=0.2, x=3 ① 密度 例:若已知不极格率20%,若抽5个学生,有三个不及格的概率 N=
10、5, P=0.2, k=3 data; p=PDF('BINOMIAL',3, 0.2,5); p1=PMF('BINOMIAL',3, 0.2,5); put "p=" p "p1=" p1; run; 例:掷硬币10次出三次正面国徽的概率 N=10,K=3,P=0.5 data; p=PMF('BINOMIAL',3, 0.5,10); put "p=" p; run; ② 分布函数 例:上例中学生及格人数不超过3人的概率 data; p1=cDF('BINOMIAL',3, 0.2,5); p2=PROBBNML(0
11、2,5,3); put "p1=" p1 "p2=" p2; run; 结果为0.99328,说明给出的是分布函数F(X)=P(X≤x)的概率,累计概率 ③ 分位数 ④随机数 RANBIN(seed,n,p) 二项分布表的形式 data; do i=0 to 5; p1=PMF('BINOMIAL',i, 0.2,5); p2=PROBBNML(0.2,5,i); put "i=" i "p1=" p1 "p2=" p2; output; end; run; proc print;run; i=
12、0 p1=0.32768 p2=0.32768 i=1 p1=0.4096 p2=0.73728 i=2 p1=0.2048 p2=0.94208 i=3 p1=0.0512 p2=0.99328 i=4 p1=0.0064 p2=0.99968 i=5 p1=0.00032 p2=1 所以概率计算程序应改写 data p; p=PROBBNML(0.2,5,3)-probbnml(0.2,5,2); p1=10*(0.2**3)*(0.8**2); put p p1; run; data p; y=probbnml(0.2,5,0); put
13、'x=0' 'p=' y;
do x=1 to 5;
p=(PROBBNML(0.2,5,x)-probbnml(0.2,5,x-1));
put "x=" x "p=" p;
end;
run;
X~B(5,0.2)
X
0
1
2
3
4
5
P
0.32768
0.4096
0.2048
0.0512
0.0064
0.00032
N次试验,成功不超过K次,每次成功概率为P的概率
P{X 14、df('binomial',3,0.5,12);
put Y;
run;
y=0.0729980469
例:对某上市公司调查,有50%的员工持有本公司股票,现随机抽10个员工人,问①持有本公司股票的员工恰有4个的概率?②持有本公司股票至少有4 个的概率?
二项分布SAS计算函数为
解:
当n=10,p=0.5,x=4,求概率
Data prob1;
P=probbnml(0.5, 10,4)- probbnml(0.5, 10,3);
P1=1-probbnml(0.5, 10,3);
Run;
Proc print;
Run;
Data pro 15、b1;
p=1-probbnml(0.5, 10,3);
Run;
Proc print;
Run;
模拟二项分布,二项分布随机数
语法Syntax
RANBIN(seed,n,p)
Arguments
seed is an integer. If seed 0, the time of day is used to initialize the seed stream.
Range:
seed < 231-1
See:
Seed Values for more information about seed values
n is an 16、 integer number of independent Bernoulli trials parameter.
Range:
n> 0
p is a numeric probability of success parameter.
Range:
0 < p < 1
模拟掷硬币10枚,正面概率0.5, 掷20次,正面的分布
data l;
do i=1 to 20;
x=ranbin(12345,10,0.5);/*随机种子12345,同时掷10枚,概率0.5*/
put x;
output;
end;
run;
proc freq d 17、ata=l;
table x;
run;
练习题:
p(x<=3)
2.3 .正态分布与计算
两个参数:μ,σ。
①正态分布密度值PDF('NORMAL',x,u,s)
N(100,15*15)
data;
y=PDF('NORMAL',100,100,15);
put y;
run;
②正态分布函数
yyy=PROBNORM(0.5);
put yyy;
③分位数probit(0.5)
④随机数normal(seed)
data;
do i= 18、1 to 10;
y=normal(i);
put i y;
end;
run;
例:某公司员工平均月收入1715元,标准差225,设收入服从正态分布,求(1)月收入在1500元到2000元之间的概率。(2)公司内工资收入最高的15%工资是多少?(3)月收入少于1200元的概率是多少?
解:
Data normal;
Y1=probnorm((2000-1715)/225)- probnorm((1500-1715)/225);
x= probit(0.85)*225+1715;
y2= probnorm((1200-1715)/225);
Run;
P 19、roc print;
Run;
Obs Y1 x y2
1 0.72771 1948.20 0.011043
Data p;
Y=probit(0.85);
P=probnorm(y);
Put y p;
Run;
data;
p1=PROBNORM(1)-PROBNORM(-1); put p1=;
p2= PROBNORM(2)-PROBNORM(-2); put p2=;
p3= PROBNORM(3)-PROBNORM(-3); put p3=;
run;
data;
p 20、1=2*PROBNORM(1)-1; put p1=;
p2=2*PROBNORM(2)-1; put p2=;
p3=2*PROBNORM(3)-1; put p3=;
run;
Data;
q1=abs(probit((1-0.6826894921)/2));put q1=;
q2=abs(probit((1-0.9544997361)/2));put q2=;
q3=abs(probit((1-0.9973002039)/2));put q3=;
run;
Data;
q1=abs(probit((1-0.9)/2));put q1=;
q2 21、abs(probit((1-0.95)/2));put q2=;
q3=abs(probit((1-0.98)/2));put q3=;
q3=abs(probit((1-0.99)/2));put q3=;
Run;
Data normal;
Do i=-3 to 3 by 0.01;
x=PDF('NORMAL',i);
x2=PDF('NORMAL',i)/2;
x3=PDF('NORMAL',i-0.5)/2;
output;
end;
Run;
Proc gplot data=normal;
plot x*i x2* 22、i x3*i/overplay;
Run;
画正态分布图x1~N(100,4),x2~N(100,9),x3~N(120,4)
练习题:
例 设随机变量,求:
(1) (2)
2.4 POISSON分布
泊松分布概率计算Piosson
若平均值λ
①密度
②分布函数
③分位数
④随机数
F(X)= POISSON(λ,x)
例:当POISSON分布的参数 λ=0.8, x=3 ,求P(X<=3) 23、
Data p ;
P=poisson(0.8,3) ;
Put p ;
Run;
SAS的POISSON计算函数
例:某城市交通高峰期的发生交通事故平均每小时2起,早上高峰期为一个半小时,晚上为两个小时,求①一天早上高峰期发生4起以上事故的概率? ②一天晚高峰期恰发生两起事故的概率?
解:求参数,当每小时事故平均2起,时,
Data prob1;
P1=1- poisson(3,3);
P2=poisson(4, 2)-poisson(4,1);
Run;
Proc print;
Run;
例 如果在时间(分钟)内,通过某 24、交叉路口的汽车数量服从参数与成正比的泊松分布,已知在一分钟内没有汽车通过的概率为,求在两分钟内多于一辆汽车通过的概率。
分析:从题意可以看出,须先求出参数,然后再根据分布律求概率。
解:用随机变量表示在时间内通过某交叉路口的汽车数,则
当时,所以,从而当时,
。
Poisson Distribution
Syntax
x = RAND('POISSON',m)
where
x is an integer observation from the distribution with the following probability 25、density function:
Range:
x = 0, 1, ...
m is a numeric mean parameter.
Range:
m > 0
练习:
2.5 指数分布
指数分布密度函数
指数分布是参数为λ.
①密度
②分布函数
③分位数
④随机数
设x=10,λ=0.2, 1/λ=5
P(X<=10)
Data exponential;
y= cdf(‘exponential’,10,5);
Run;
Proc print;
Run;
Y=0.86466 26、
例 设电视机的寿命(以年记),具有以下的概率密度函数
求(1)电视机的寿命最多为6年的概率,
(2)寿命最在5到10年之间的概率,
分析:本题是已知连续性随机变量的概率密度函数求概率,按前面的公式求即可。
解:电视机的寿命记为,则有
(1)
(2)
P值
2.6 均匀分布
①密度
②分布函数
③分位数
④随机数
2.7 T分布
查T分布表
①密度
②分布函数
③分位数
④ 随机数
⑤
T分布分位数
t=tinv(0.975,n-1);
print 27、 t;
*P值
tp=pdf('t',t,n-1);
print tp;
T分布表,分布函数的分位数
data t;
do df=1 to 30 by 1;
do p=0.6 to 0.95 by 0.05;
x=tinv(p,df);
put x @@;
end ;
put;
end;
run;
2.8 F分布表
①密度
②分布函数
③分位数
④随机数
data F;
do df1=1 to 30 by 1;
do df2=1 to 30 by 1;
do p=0.9, 0.95 ,0.975 ;
28、
x=Finv(p,df1,df2);
put p df1 df2 x ;
end ;
end;
end;
run;
2.10 卡方分布表
data chi;
do df=1 to 30 by 1;
do p=0.05 to 0.95 by 0.05 ;
x=cinv(p,df);
put p df x ;
end ;
end;
run;
附录部分
Random Number Generation Functionality
RANDGEN Call
generates random numbers from specified distributions
RANDSEED Call
initializes seed for subsequent RANGEN calls
26






