资源描述
新疆财经大学统计与信息学院
SAS讲义3
王建军
SAS软件概率计算
一、概率论基本概念 1
1.1随机变量 1
1.2随机变量的分布 2
1.3 常见的离散型分布 3
1.4.常见的连续型分布 4
二 SAS概率计算函数与应用 7
2.1 概率函数掌握四个部分 7
2.2 二项分布SAS程序计算 8
2.3 .正态分布与计算 15
2.4 POISSON分布 20
2.5 指数分布 22
2.8 F分布表 25
2.10 卡方分布表 25
主要内容:造概率分布表,计算常用分布概率,SAS概率计算
一、概率论基本概念
1.1随机变量
随机变量(Random Variable,RV). 随机变量实质上是函数,不是简单变量。
给定样本空间,如果其上的实值函数 是 (实值)可测函数,则称为(实值)随机变量。任何的函数称为随机变量。
1.2随机变量的分布
连续随机变量
概率分布密度,分布函数
连续性随机变量的定义
若对于随机变量,存在定义在上的非负函数,使得对任意的实数,总有 则称于随机变量是连续性随机变量,其中称为的概率密度函数,简称概率密度,为明确起见,有时写为。
F(x)为分布函数。
2.概率密度函数的性质
(1)
注:该性质是是某一连续型随机变量的概率密度的充要条件。
(2)对连续性随机变量,一定是连续的,但是未必连续,在的连续点处,有,
(3)对任意的实数 从而对任意实数,有
。=F(b)-F(a)
注:常用概率密度描述连续型随机变量的统计规律。
1.3 常见的离散型分布
(1) 两点分布(0—1分布):其分布律为
即
0 1
p
1–p p
(2)二项分布
(ⅰ)二项分布的来源—重伯努利试验:设是一个随机试验,只有两个可能的结果及,,将独立重复地进行次,则称这一串重复的独立试验为重伯努利试验。
(ⅱ)二项分布的定义
设表示在重伯努利试验中事件发生的次数,则随机变量的分布律为
, ,
称随机变量服从参数为的二项分布,记作。
注:即为两点分布。
(3)泊松分布:若随机变量的分布律为
, ,
则称随机变量服从参数为的泊松分布,记作(或。
1.4.常见的连续型分布
(1)均匀分布
设表示几何概型中的落点坐标,则其分布函数为
,
其概率密度为
,
称服从区间上的均匀分布,记为。
(2)指数分布
若随机变量的概率密度为
,
称服从参数为的指数分布,其分布函数是
。
(3)正态分布
(ⅰ)标准正态分布:若随机变量的概率密度为
,,
则称服从标准正态分布,记为,其分布函数为
,
(ⅱ)一般正态分布:若随机变量的概率密度为
,,
则称服从参数为的正态分布,记为,其分布函数为
,
(ⅲ)正态分布的性质:
满足对称性,即,;
若,则,即,从而有;
注:由上述性质,可将正态分布的计算转换为标准正态分布的计算,而对于标准正态分布的分布函数值,当时有表可查,根据对称性,当时,可根据算出的值。
若,则
(ⅳ)标准正态分布的上分位点:设,对于任给的,,称满足的点为标准正态分布的上分位点。
二 SAS概率计算函数与应用
2.1 概率函数掌握四个部分
1.概率密度PDF,
2.分布函数CDF
3.分位数函数
4.随机函数RANdom
作为一个统计计算语言,SAS提供了多种概率分布的有关函数。分布密度、概率、累积分布函数等可以通过几种统一的格式调用,格式为
分布函数值 = CDF(' 分布', x <, 参数表>);
密度值 = PDF(' 分布', x <, 参数表>);
概率值 = PMF(' 分布', x <, 参数表>);
CDF计算由'分布'指定的分布的分布函数, PDF计算分布密度函数值,PMF计算离散分布的分布概率,
分布函数
分布类型取值可以为: BERNOULLI, BETA, BINOMIAL, CAUCHY, CHISQUARED, EXPONENTIAL, F, GAMMA, GEOMETRIC, HYPERGEOMETRIC, LAPLACE, LOGISTIC, LOGNORMAL, NEGBINOMIAL, NORMAL 或 GAUSSIAN, PARETO, POISSON, T, UNIFORM, WALD 或 IGAUSS, and WEIBULL。可以只写前四个字母。
例如,PDF('NORMAL', 1.96)计算标准正态分布在1.96处的密度值(0.05844),CDF('NORMAL', 1.96)计算标准正态分布在1.96处的分布函数值(0.975)。PMF对连续型分布即PDF。
分位数函数
分位数函数是概率分布函数的反函数。其自变量在0到1之间取值。分位数函数计算的是分布的左侧分位数。SAS提供了六种常见连续型分布的分位数函数。
PROBIT(p) 标准正态分布左侧p分位数。结果在-5到5之间。
TINV(p, df <,nc>) 自由度为df的t分布的左侧p分位数。可选参数nc为非中心参数。
CINV(p,df<,nc>) 自由度为df的卡方分布的左侧p分位数。可选参数nc为非中心参数。
FINV(p,ndf,ddf<,nc>) F(ndf,ddf)分布的左侧p分位数。可选参数nc为非中心参数。
GAMINV(p,a) 参数为a的伽马分布的左侧p分位数。
BETAINV(p,a,b) 参数为(a,b)的贝塔分布的左侧p分位数。
2.2 二项分布SAS程序计算
1、二项分布概率计算
X~B(n,p)
计算概率B(x,p,n)=PROBBNML(x,p,n)
例:计算二项分布概率,n=5, p=0.2, x=3
① 密度
例:若已知不极格率20%,若抽5个学生,有三个不及格的概率
N=5, P=0.2, k=3
data;
p=PDF('BINOMIAL',3, 0.2,5);
p1=PMF('BINOMIAL',3, 0.2,5);
put "p=" p "p1=" p1;
run;
例:掷硬币10次出三次正面国徽的概率
N=10,K=3,P=0.5
data;
p=PMF('BINOMIAL',3, 0.5,10);
put "p=" p;
run;
② 分布函数
例:上例中学生及格人数不超过3人的概率
data;
p1=cDF('BINOMIAL',3, 0.2,5);
p2=PROBBNML(0.2,5,3);
put "p1=" p1 "p2=" p2;
run;
结果为0.99328,说明给出的是分布函数F(X)=P(X≤x)的概率,累计概率
③ 分位数
④随机数 RANBIN(seed,n,p)
二项分布表的形式
data;
do i=0 to 5;
p1=PMF('BINOMIAL',i, 0.2,5);
p2=PROBBNML(0.2,5,i);
put "i=" i "p1=" p1 "p2=" p2;
output;
end;
run;
proc print;run;
i=0 p1=0.32768 p2=0.32768
i=1 p1=0.4096 p2=0.73728
i=2 p1=0.2048 p2=0.94208
i=3 p1=0.0512 p2=0.99328
i=4 p1=0.0064 p2=0.99968
i=5 p1=0.00032 p2=1
所以概率计算程序应改写
data p;
p=PROBBNML(0.2,5,3)-probbnml(0.2,5,2);
p1=10*(0.2**3)*(0.8**2);
put p p1;
run;
data p;
y=probbnml(0.2,5,0);
put 'x=0' 'p=' y;
do x=1 to 5;
p=(PROBBNML(0.2,5,x)-probbnml(0.2,5,x-1));
put "x=" x "p=" p;
end;
run;
X~B(5,0.2)
X
0
1
2
3
4
5
P
0.32768
0.4096
0.2048
0.0512
0.0064
0.00032
N次试验,成功不超过K次,每次成功概率为P的概率
P{X<K}
Y=cdf('binomial',K,p,n);
例
K=3,P=0.5,n=12
data;
Y=cdf('binomial',3,0.5,12);
put Y;
run;
y=0.0729980469
例:对某上市公司调查,有50%的员工持有本公司股票,现随机抽10个员工人,问①持有本公司股票的员工恰有4个的概率?②持有本公司股票至少有4 个的概率?
二项分布SAS计算函数为
解:
当n=10,p=0.5,x=4,求概率
Data prob1;
P=probbnml(0.5, 10,4)- probbnml(0.5, 10,3);
P1=1-probbnml(0.5, 10,3);
Run;
Proc print;
Run;
Data prob1;
p=1-probbnml(0.5, 10,3);
Run;
Proc print;
Run;
模拟二项分布,二项分布随机数
语法Syntax
RANBIN(seed,n,p)
Arguments
seed is an integer. If seed 0, the time of day is used to initialize the seed stream.
Range:
seed < 231-1
See:
Seed Values for more information about seed values
n is an integer number of independent Bernoulli trials parameter.
Range:
n> 0
p is a numeric probability of success parameter.
Range:
0 < p < 1
模拟掷硬币10枚,正面概率0.5, 掷20次,正面的分布
data l;
do i=1 to 20;
x=ranbin(12345,10,0.5);/*随机种子12345,同时掷10枚,概率0.5*/
put x;
output;
end;
run;
proc freq data=l;
table x;
run;
练习题:
p(x<=3)
2.3 .正态分布与计算
两个参数:μ,σ。
①正态分布密度值PDF('NORMAL',x,u,s)
N(100,15*15)
data;
y=PDF('NORMAL',100,100,15);
put y;
run;
②正态分布函数
yyy=PROBNORM(0.5);
put yyy;
③分位数probit(0.5)
④随机数normal(seed)
data;
do i=1 to 10;
y=normal(i);
put i y;
end;
run;
例:某公司员工平均月收入1715元,标准差225,设收入服从正态分布,求(1)月收入在1500元到2000元之间的概率。(2)公司内工资收入最高的15%工资是多少?(3)月收入少于1200元的概率是多少?
解:
Data normal;
Y1=probnorm((2000-1715)/225)- probnorm((1500-1715)/225);
x= probit(0.85)*225+1715;
y2= probnorm((1200-1715)/225);
Run;
Proc print;
Run;
Obs Y1 x y2
1 0.72771 1948.20 0.011043
Data p;
Y=probit(0.85);
P=probnorm(y);
Put y p;
Run;
data;
p1=PROBNORM(1)-PROBNORM(-1); put p1=;
p2= PROBNORM(2)-PROBNORM(-2); put p2=;
p3= PROBNORM(3)-PROBNORM(-3); put p3=;
run;
data;
p1=2*PROBNORM(1)-1; put p1=;
p2=2*PROBNORM(2)-1; put p2=;
p3=2*PROBNORM(3)-1; put p3=;
run;
Data;
q1=abs(probit((1-0.6826894921)/2));put q1=;
q2=abs(probit((1-0.9544997361)/2));put q2=;
q3=abs(probit((1-0.9973002039)/2));put q3=;
run;
Data;
q1=abs(probit((1-0.9)/2));put q1=;
q2=abs(probit((1-0.95)/2));put q2=;
q3=abs(probit((1-0.98)/2));put q3=;
q3=abs(probit((1-0.99)/2));put q3=;
Run;
Data normal;
Do i=-3 to 3 by 0.01;
x=PDF('NORMAL',i);
x2=PDF('NORMAL',i)/2;
x3=PDF('NORMAL',i-0.5)/2;
output;
end;
Run;
Proc gplot data=normal;
plot x*i x2*i x3*i/overplay;
Run;
画正态分布图x1~N(100,4),x2~N(100,9),x3~N(120,4)
练习题:
例 设随机变量,求:
(1) (2)
2.4 POISSON分布
泊松分布概率计算Piosson
若平均值λ
①密度
②分布函数
③分位数
④随机数
F(X)= POISSON(λ,x)
例:当POISSON分布的参数 λ=0.8, x=3 ,求P(X<=3)
Data p ;
P=poisson(0.8,3) ;
Put p ;
Run;
SAS的POISSON计算函数
例:某城市交通高峰期的发生交通事故平均每小时2起,早上高峰期为一个半小时,晚上为两个小时,求①一天早上高峰期发生4起以上事故的概率? ②一天晚高峰期恰发生两起事故的概率?
解:求参数,当每小时事故平均2起,时,
Data prob1;
P1=1- poisson(3,3);
P2=poisson(4, 2)-poisson(4,1);
Run;
Proc print;
Run;
例 如果在时间(分钟)内,通过某交叉路口的汽车数量服从参数与成正比的泊松分布,已知在一分钟内没有汽车通过的概率为,求在两分钟内多于一辆汽车通过的概率。
分析:从题意可以看出,须先求出参数,然后再根据分布律求概率。
解:用随机变量表示在时间内通过某交叉路口的汽车数,则
当时,所以,从而当时,
。
Poisson Distribution
Syntax
x = RAND('POISSON',m)
where
x is an integer observation from the distribution with the following probability density function:
Range:
x = 0, 1, ...
m is a numeric mean parameter.
Range:
m > 0
练习:
2.5 指数分布
指数分布密度函数
指数分布是参数为λ.
①密度
②分布函数
③分位数
④随机数
设x=10,λ=0.2, 1/λ=5
P(X<=10)
Data exponential;
y= cdf(‘exponential’,10,5);
Run;
Proc print;
Run;
Y=0.86466
例 设电视机的寿命(以年记),具有以下的概率密度函数
求(1)电视机的寿命最多为6年的概率,
(2)寿命最在5到10年之间的概率,
分析:本题是已知连续性随机变量的概率密度函数求概率,按前面的公式求即可。
解:电视机的寿命记为,则有
(1)
(2)
P值
2.6 均匀分布
①密度
②分布函数
③分位数
④随机数
2.7 T分布
查T分布表
①密度
②分布函数
③分位数
④ 随机数
⑤
T分布分位数
t=tinv(0.975,n-1);
print t;
*P值
tp=pdf('t',t,n-1);
print tp;
T分布表,分布函数的分位数
data t;
do df=1 to 30 by 1;
do p=0.6 to 0.95 by 0.05;
x=tinv(p,df);
put x @@;
end ;
put;
end;
run;
2.8 F分布表
①密度
②分布函数
③分位数
④随机数
data F;
do df1=1 to 30 by 1;
do df2=1 to 30 by 1;
do p=0.9, 0.95 ,0.975 ;
x=Finv(p,df1,df2);
put p df1 df2 x ;
end ;
end;
end;
run;
2.10 卡方分布表
data chi;
do df=1 to 30 by 1;
do p=0.05 to 0.95 by 0.05 ;
x=cinv(p,df);
put p df x ;
end ;
end;
run;
附录部分
Random Number Generation Functionality
RANDGEN Call
generates random numbers from specified distributions
RANDSEED Call
initializes seed for subsequent RANGEN calls
26
展开阅读全文