收藏 分销(赏)

SAS讲义三+概率运算.doc

上传人:pc****0 文档编号:9010137 上传时间:2025-03-11 格式:DOC 页数:26 大小:543.13KB 下载积分:10 金币
下载 相关 举报
SAS讲义三+概率运算.doc_第1页
第1页 / 共26页
SAS讲义三+概率运算.doc_第2页
第2页 / 共26页


点击查看更多>>
资源描述
新疆财经大学统计与信息学院 SAS讲义3 王建军 SAS软件概率计算 一、概率论基本概念 1 1.1随机变量 1 1.2随机变量的分布 2 1.3 常见的离散型分布 3 1.4.常见的连续型分布 4 二 SAS概率计算函数与应用 7 2.1 概率函数掌握四个部分 7 2.2 二项分布SAS程序计算 8 2.3 .正态分布与计算 15 2.4 POISSON分布 20 2.5 指数分布 22 2.8 F分布表 25 2.10 卡方分布表 25 主要内容:造概率分布表,计算常用分布概率,SAS概率计算 一、概率论基本概念 1.1随机变量 随机变量(Random Variable,RV). 随机变量实质上是函数,不是简单变量。 给定样本空间,如果其上的实值函数 是 (实值)可测函数,则称为(实值)随机变量。任何的函数称为随机变量。 1.2随机变量的分布 连续随机变量 概率分布密度,分布函数 连续性随机变量的定义 若对于随机变量,存在定义在上的非负函数,使得对任意的实数,总有 则称于随机变量是连续性随机变量,其中称为的概率密度函数,简称概率密度,为明确起见,有时写为。 F(x)为分布函数。 2.概率密度函数的性质 (1) 注:该性质是是某一连续型随机变量的概率密度的充要条件。 (2)对连续性随机变量,一定是连续的,但是未必连续,在的连续点处,有, (3)对任意的实数 从而对任意实数,有 。=F(b)-F(a) 注:常用概率密度描述连续型随机变量的统计规律。 1.3 常见的离散型分布 (1) 两点分布(0—1分布):其分布律为 即 0 1 p 1–p p (2)二项分布 (ⅰ)二项分布的来源—重伯努利试验:设是一个随机试验,只有两个可能的结果及,,将独立重复地进行次,则称这一串重复的独立试验为重伯努利试验。 (ⅱ)二项分布的定义 设表示在重伯努利试验中事件发生的次数,则随机变量的分布律为 , , 称随机变量服从参数为的二项分布,记作。 注:即为两点分布。 (3)泊松分布:若随机变量的分布律为 , , 则称随机变量服从参数为的泊松分布,记作(或。 1.4.常见的连续型分布 (1)均匀分布 设表示几何概型中的落点坐标,则其分布函数为 , 其概率密度为 , 称服从区间上的均匀分布,记为。 (2)指数分布 若随机变量的概率密度为 , 称服从参数为的指数分布,其分布函数是 。 (3)正态分布 (ⅰ)标准正态分布:若随机变量的概率密度为 ,, 则称服从标准正态分布,记为,其分布函数为 , (ⅱ)一般正态分布:若随机变量的概率密度为 ,, 则称服从参数为的正态分布,记为,其分布函数为 , (ⅲ)正态分布的性质: 满足对称性,即,; 若,则,即,从而有; 注:由上述性质,可将正态分布的计算转换为标准正态分布的计算,而对于标准正态分布的分布函数值,当时有表可查,根据对称性,当时,可根据算出的值。 若,则 (ⅳ)标准正态分布的上分位点:设,对于任给的,,称满足的点为标准正态分布的上分位点。 二 SAS概率计算函数与应用 2.1 概率函数掌握四个部分 1.概率密度PDF, 2.分布函数CDF 3.分位数函数 4.随机函数RANdom 作为一个统计计算语言,SAS提供了多种概率分布的有关函数。分布密度、概率、累积分布函数等可以通过几种统一的格式调用,格式为 分布函数值 = CDF(' 分布', x <, 参数表>); 密度值 = PDF(' 分布', x <, 参数表>); 概率值 = PMF(' 分布', x <, 参数表>); CDF计算由'分布'指定的分布的分布函数, PDF计算分布密度函数值,PMF计算离散分布的分布概率, 分布函数 分布类型取值可以为: BERNOULLI, BETA, BINOMIAL, CAUCHY, CHISQUARED, EXPONENTIAL, F, GAMMA, GEOMETRIC, HYPERGEOMETRIC, LAPLACE, LOGISTIC, LOGNORMAL, NEGBINOMIAL, NORMAL 或 GAUSSIAN, PARETO, POISSON, T, UNIFORM, WALD 或 IGAUSS, and WEIBULL。可以只写前四个字母。 例如,PDF('NORMAL', 1.96)计算标准正态分布在1.96处的密度值(0.05844),CDF('NORMAL', 1.96)计算标准正态分布在1.96处的分布函数值(0.975)。PMF对连续型分布即PDF。 分位数函数 分位数函数是概率分布函数的反函数。其自变量在0到1之间取值。分位数函数计算的是分布的左侧分位数。SAS提供了六种常见连续型分布的分位数函数。 PROBIT(p) 标准正态分布左侧p分位数。结果在-5到5之间。 TINV(p, df <,nc>) 自由度为df的t分布的左侧p分位数。可选参数nc为非中心参数。 CINV(p,df<,nc>) 自由度为df的卡方分布的左侧p分位数。可选参数nc为非中心参数。 FINV(p,ndf,ddf<,nc>) F(ndf,ddf)分布的左侧p分位数。可选参数nc为非中心参数。 GAMINV(p,a) 参数为a的伽马分布的左侧p分位数。 BETAINV(p,a,b) 参数为(a,b)的贝塔分布的左侧p分位数。 2.2 二项分布SAS程序计算 1、二项分布概率计算 X~B(n,p) 计算概率B(x,p,n)=PROBBNML(x,p,n) 例:计算二项分布概率,n=5, p=0.2, x=3 ① 密度 例:若已知不极格率20%,若抽5个学生,有三个不及格的概率 N=5, P=0.2, k=3 data; p=PDF('BINOMIAL',3, 0.2,5); p1=PMF('BINOMIAL',3, 0.2,5); put "p=" p "p1=" p1; run; 例:掷硬币10次出三次正面国徽的概率 N=10,K=3,P=0.5 data; p=PMF('BINOMIAL',3, 0.5,10); put "p=" p; run; ② 分布函数 例:上例中学生及格人数不超过3人的概率 data; p1=cDF('BINOMIAL',3, 0.2,5); p2=PROBBNML(0.2,5,3); put "p1=" p1 "p2=" p2; run; 结果为0.99328,说明给出的是分布函数F(X)=P(X≤x)的概率,累计概率 ③ 分位数 ④随机数 RANBIN(seed,n,p) 二项分布表的形式 data; do i=0 to 5; p1=PMF('BINOMIAL',i, 0.2,5); p2=PROBBNML(0.2,5,i); put "i=" i "p1=" p1 "p2=" p2; output; end; run; proc print;run; i=0 p1=0.32768 p2=0.32768 i=1 p1=0.4096 p2=0.73728 i=2 p1=0.2048 p2=0.94208 i=3 p1=0.0512 p2=0.99328 i=4 p1=0.0064 p2=0.99968 i=5 p1=0.00032 p2=1 所以概率计算程序应改写 data p; p=PROBBNML(0.2,5,3)-probbnml(0.2,5,2); p1=10*(0.2**3)*(0.8**2); put p p1; run; data p; y=probbnml(0.2,5,0); put 'x=0' 'p=' y; do x=1 to 5; p=(PROBBNML(0.2,5,x)-probbnml(0.2,5,x-1)); put "x=" x "p=" p; end; run; X~B(5,0.2) X 0 1 2 3 4 5 P 0.32768 0.4096 0.2048 0.0512 0.0064 0.00032 N次试验,成功不超过K次,每次成功概率为P的概率 P{X<K} Y=cdf('binomial',K,p,n); 例 K=3,P=0.5,n=12 data; Y=cdf('binomial',3,0.5,12); put Y; run; y=0.0729980469 例:对某上市公司调查,有50%的员工持有本公司股票,现随机抽10个员工人,问①持有本公司股票的员工恰有4个的概率?②持有本公司股票至少有4 个的概率? 二项分布SAS计算函数为 解: 当n=10,p=0.5,x=4,求概率 Data prob1; P=probbnml(0.5, 10,4)- probbnml(0.5, 10,3); P1=1-probbnml(0.5, 10,3); Run; Proc print; Run; Data prob1; p=1-probbnml(0.5, 10,3); Run; Proc print; Run; 模拟二项分布,二项分布随机数 语法Syntax RANBIN(seed,n,p) Arguments seed is an integer. If seed 0, the time of day is used to initialize the seed stream. Range: seed < 231-1 See: Seed Values for more information about seed values n is an integer number of independent Bernoulli trials parameter. Range: n> 0 p is a numeric probability of success parameter. Range: 0 < p < 1 模拟掷硬币10枚,正面概率0.5, 掷20次,正面的分布 data l; do i=1 to 20; x=ranbin(12345,10,0.5);/*随机种子12345,同时掷10枚,概率0.5*/ put x; output; end; run; proc freq data=l; table x; run; 练习题: p(x<=3) 2.3 .正态分布与计算 两个参数:μ,σ。 ①正态分布密度值PDF('NORMAL',x,u,s) N(100,15*15) data; y=PDF('NORMAL',100,100,15); put y; run; ②正态分布函数 yyy=PROBNORM(0.5); put yyy; ③分位数probit(0.5) ④随机数normal(seed) data; do i=1 to 10; y=normal(i); put i y; end; run; 例:某公司员工平均月收入1715元,标准差225,设收入服从正态分布,求(1)月收入在1500元到2000元之间的概率。(2)公司内工资收入最高的15%工资是多少?(3)月收入少于1200元的概率是多少? 解: Data normal; Y1=probnorm((2000-1715)/225)- probnorm((1500-1715)/225); x= probit(0.85)*225+1715; y2= probnorm((1200-1715)/225); Run; Proc print; Run; Obs Y1 x y2 1 0.72771 1948.20 0.011043 Data p; Y=probit(0.85); P=probnorm(y); Put y p; Run; data; p1=PROBNORM(1)-PROBNORM(-1); put p1=; p2= PROBNORM(2)-PROBNORM(-2); put p2=; p3= PROBNORM(3)-PROBNORM(-3); put p3=; run; data; p1=2*PROBNORM(1)-1; put p1=; p2=2*PROBNORM(2)-1; put p2=; p3=2*PROBNORM(3)-1; put p3=; run; Data; q1=abs(probit((1-0.6826894921)/2));put q1=; q2=abs(probit((1-0.9544997361)/2));put q2=; q3=abs(probit((1-0.9973002039)/2));put q3=; run; Data; q1=abs(probit((1-0.9)/2));put q1=; q2=abs(probit((1-0.95)/2));put q2=; q3=abs(probit((1-0.98)/2));put q3=; q3=abs(probit((1-0.99)/2));put q3=; Run; Data normal; Do i=-3 to 3 by 0.01; x=PDF('NORMAL',i); x2=PDF('NORMAL',i)/2; x3=PDF('NORMAL',i-0.5)/2; output; end; Run; Proc gplot data=normal; plot x*i x2*i x3*i/overplay; Run; 画正态分布图x1~N(100,4),x2~N(100,9),x3~N(120,4) 练习题: 例 设随机变量,求: (1) (2) 2.4 POISSON分布 泊松分布概率计算Piosson 若平均值λ ①密度 ②分布函数 ③分位数 ④随机数 F(X)= POISSON(λ,x) 例:当POISSON分布的参数 λ=0.8, x=3 ,求P(X<=3) Data p ; P=poisson(0.8,3) ; Put p ; Run; SAS的POISSON计算函数 例:某城市交通高峰期的发生交通事故平均每小时2起,早上高峰期为一个半小时,晚上为两个小时,求①一天早上高峰期发生4起以上事故的概率? ②一天晚高峰期恰发生两起事故的概率? 解:求参数,当每小时事故平均2起,时, Data prob1; P1=1- poisson(3,3); P2=poisson(4, 2)-poisson(4,1); Run; Proc print; Run; 例 如果在时间(分钟)内,通过某交叉路口的汽车数量服从参数与成正比的泊松分布,已知在一分钟内没有汽车通过的概率为,求在两分钟内多于一辆汽车通过的概率。 分析:从题意可以看出,须先求出参数,然后再根据分布律求概率。 解:用随机变量表示在时间内通过某交叉路口的汽车数,则 当时,所以,从而当时, 。 Poisson Distribution Syntax x = RAND('POISSON',m) where x is an integer observation from the distribution with the following probability density function: Range: x = 0, 1, ... m is a numeric mean parameter. Range: m > 0 练习: 2.5 指数分布 指数分布密度函数 指数分布是参数为λ. ①密度 ②分布函数 ③分位数 ④随机数 设x=10,λ=0.2, 1/λ=5 P(X<=10) Data exponential; y= cdf(‘exponential’,10,5); Run; Proc print; Run; Y=0.86466 例 设电视机的寿命(以年记),具有以下的概率密度函数 求(1)电视机的寿命最多为6年的概率, (2)寿命最在5到10年之间的概率, 分析:本题是已知连续性随机变量的概率密度函数求概率,按前面的公式求即可。 解:电视机的寿命记为,则有 (1) (2) P值 2.6 均匀分布 ①密度 ②分布函数 ③分位数 ④随机数 2.7 T分布 查T分布表 ①密度 ②分布函数 ③分位数 ④ 随机数 ⑤ T分布分位数 t=tinv(0.975,n-1); print t; *P值 tp=pdf('t',t,n-1); print tp; T分布表,分布函数的分位数 data t; do df=1 to 30 by 1; do p=0.6 to 0.95 by 0.05; x=tinv(p,df); put x @@; end ; put; end; run; 2.8 F分布表 ①密度 ②分布函数 ③分位数 ④随机数 data F; do df1=1 to 30 by 1; do df2=1 to 30 by 1; do p=0.9, 0.95 ,0.975 ; x=Finv(p,df1,df2); put p df1 df2 x ; end ; end; end; run; 2.10 卡方分布表 data chi; do df=1 to 30 by 1; do p=0.05 to 0.95 by 0.05 ; x=cinv(p,df); put p df x ; end ; end; run; 附录部分 Random Number Generation Functionality RANDGEN Call generates random numbers from specified distributions RANDSEED Call initializes seed for subsequent RANGEN calls 26
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服