1、实验一:实验一:概率函数及其应用概率函数及其应用一实验目的一实验目的掌握几类常见分布的概率分布曲线掌握几类常见分布的概率分布曲线和分布函数的图形和分布函数的图形会求常见分布的期望和方差会求常见分布的期望和方差二二.各个分布的概率密度函数语句各个分布的概率密度函数语句二项分布:二项分布:分布分布:指数分布指数分布:分布分布:正态分布正态分布:泊松分布:泊松分布:在matlab中输入lamda即可,其他类似。作为变量使用三三.命令语句命令语句:各各分布函数分布函数语句语句二项分布:二项分布:binocdf(x,n,p)分布分布:chi2cdf(x,n)指数分布指数分布:expcdf(x,)泊松分布
2、泊松分布:poisscdf(x,)正态分布正态分布:normcdf(x,)分布分布:fcdf(X,n1,n2)四例题演示四例题演示绘制二项分布的概率密度的图象绘制二项分布的概率密度的图象必做实验一必做实验一+号代表所有的号代表所有的x向量中的点使用加号绘出向量中的点使用加号绘出还可以使用还可以使用:、*或者或者o图象为:图象为:绘制指数分布的概率密度图象绘制指数分布的概率密度图象o是英文字母o,不是0图象为图象为绘制分布的分布函数图象绘制分布的分布函数图象图象为图象为五命令语句五命令语句:期望和方差的语句期望和方差的语句二项分布的期望和方差:二项分布的期望和方差:m,v=binostat(n,
3、p)正态分布的期望和方差正态分布的期望和方差:m,v=normstat()必做实验二必做实验二:求参数为的分布的数学期望和方差求参数为的分布的数学期望和方差输出为:求参数为的泊松分布的期望和方差求参数为的泊松分布的期望和方差输出为:必做实验三:必做实验三:求落在某一区间上的概率求落在某一区间上的概率分析分析:假设:假设求求解:解:输入语句:输入语句:实验二:实验二:统计函数及其应用统计函数及其应用参数估计与假设检验参数估计与假设检验一实验目的一实验目的掌握单个正态总体分布的均值和方差掌握单个正态总体分布的均值和方差的估计的估计.了解两个正态总体的均值和方差的了解两个正态总体的均值和方差的区间估
4、计区间估计二命令语句二命令语句正态总体参数估计的格式:正态总体参数估计的格式:指数最大似然参数估计的格式:指数最大似然参数估计的格式:a,b,c,d=normfit(x,alpha);alpha默认默认0.05m,n=expfit(x,alpha)a:均值的估计值:均值的估计值b:方差的估计值:方差的估计值c:均值的置信区间:均值的置信区间d:方差的置信区间:方差的置信区间m:的估计值的估计值n:的置信区间的置信区间三例题演示三例题演示对某种型号飞机的飞行速度进行15次试验,测得最大飞行速度如下:X=422.2,417.2,425.6,420.3,425.8,423.1,418.7,428.2
5、,438.3,434.0,312.3,431.5,413.5,441.3,423.0;假设最大飞行速度服从正态分布,利用上述数据,计算方差,并对最大飞行速度的期望方差进行区间估计(=0.05)。必做实验一必做实验一解解:在命令窗口中输入b=422.2,417.2,425.6,420.3,425.8,423.1,418.7,428.2,438.3,434.0,312.3,431.5,413.5,441.3,423.0;a,b,c,d=normfit(x,0.05)结果(结果(normfit函数把结果返回到函数把结果返回到a,b,c,d中)中)a=418.33b=929.315c=402.651
6、d=498.122 436.415 2311.43从自动车床加工的同类零件中抽取10件,测量其长度为A=12.15 12.12 12.01 12.28 12.09 12.03 12.01 12.11 12.06 12.14;sprintf(样本的均值%f,mean(A)%计算方差sprintf(样本的方差%f,std(A)%零件长度的均值mu和方差的置信水平为%0.95的置信区间junzhi,fangcha,junzhi_zhixinqujian,facha_zhixinqujian=normfit(A);qqplot(X)X为数据displays a quantile-quantile pl
7、ot of the sample quantiles of X versus theoretical quantiles from a normal distribution.qqplot(X,Y)displays a quantile-quantile plot of two samples.If the samples do comefromthesamedistribution,theplotwillbelinear.Qqplot例子X=6.683 6.681 6.676 6.678 6.679 6.672;Y=6.661 6.661 6.667 6.667 6.664 6.662;Qq
8、plot(X,Y)创新实验随机地从A批导线中抽取4根,从A批导线中抽取5根,测得其电阻为:A批导线=0.143,0.142,0.143,0.137;B批导线=0.140,0.142,0.136,0.138,0.140;设测试数据分别服从正态 和并且它们相互独立,期望和方差均未知.实验三:实验三:假设检验假设检验一实验目的一实验目的(注意参数是已知还是未知注意参数是已知还是未知)掌握单个正态总体当已知时的掌握单个正态总体当已知时的假设检验(假设检验(检验检验)掌握单个正态总体当未知时的掌握单个正态总体当未知时的假设检验(假设检验(t检验检验)了解两个正态总体均值差的假设检验了解两个正态总体均值差
9、的假设检验(t检验检验)使用的命令格式h,sig=ztest(list,mu,TALL )h,sig,ci=ttest2(list1,list2,alpha,TALL)h=ttest(x,m,alpha,tail)参数的解释可参考下页或者matlab的帮助文档二命令语句二命令语句1.单个正态总体已知的假设检验(单个正态总体已知的假设检验(检验检验)注:list:给出数据组的列表或数据组的名称 mu:给出待检验的均值:均方差:检验水平,默认值为0.05TALL=0 表示TALL=表示TALL=表示h=0则接受原假设;h=1则拒绝原假设;sig的值表示显著性水平某车间用一台包装机包装葡萄糖。包得的
10、袋某车间用一台包装机包装葡萄糖。包得的袋装糖重是一个随机变量装糖重是一个随机变量,它服从正态分布。当它服从正态分布。当机器正常时机器正常时,其均值为其均值为0.5公斤公斤,标准差为标准差为0.015公斤。某日开工后为检验包装机是否正常公斤。某日开工后为检验包装机是否正常,随随机地抽取它所包装的糖机地抽取它所包装的糖9袋袋,称得净重为称得净重为(公斤公斤):X=0.497,0.506,0.518,0.524,0.498,0.511,0.52,0.515,0.512;例例:解解:这是正态总体方差已知时,对均值的双边检验,需要检验假设输入代码并运行(回车):x=0.497,0.506,0.518,0
11、.524,0.498,0.511,0.520,0.515,0.512;h,sig=ztest(x,0.5,0.015,0.05,0)结果:h=1 sig=0.0248三命令语句三命令语句.单个正态总体未知的假设检验(单个正态总体未知的假设检验(t检验检验)h,sig=ztest(list,mu,TALL)注:list:给出数据组的列表或数据组的名称 mu:给出待检验的均值:检验水平,默认值为0.05TALL=0 表示TALL=表示TALL=表示h=0则接受原假设;则接受原假设;h=1则拒绝原假设则拒绝原假设解:例例:某电子元件的寿命(以小时计)服从正态分布,均未知现测得只元件的寿命如下:159
12、280 101 212 224 379 179 264 222 362 168 250 149 260 485 170问:是否有理由认为元件的平均寿命大于小时?输入:x=159,280,101,212,224,379,179,264,222,362,168,250,149,260,485,170;h,sig=ttest(x,225,0.05,1);clcdisp(假设检验的结果是:)if h=0disp(接受原假设H0,即均值小于225)elsedisp(拒绝原假设H0,即均值大于等于225)end结果:h=0 sig=0.2570假设检验的结果是:假设检验的结果是:接受原假设接受原假设H0,
13、即均值小于即均值小于2253.了解两个正态总体均值差的假设(了解两个正态总体均值差的假设(t检验检验)四命令语句四命令语句TALL=0 表示“期望不等”TALL=表示“的期望大于的期望”TALL=表示“的期望小于的期望”返回h=0则接受原假设;h=1则拒绝原假设则拒绝原假设h,sig,ci=ttest2(list1,list2,TALL)list:给出数据组的列表或数据组的名称list1,list2:分别表示给出的两组数据:检验水平,默认值为.例:例:在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的出炉率,试验是在同一只平炉进行的每炼一炉钢时除操作方法外,其他条件尽可能作到相同先用标
14、准方法炼一炉,然后采用新方法,以后交替进行,各炼10炉,其出炉率分别为(1)标准方法:标准方法:X=78.1,72.4,76.2,74.3,77.4,78.4,76.0,75.5,76.7,77.3(2)新方法:新方法:Y=79.1,81.0,77.4,79.1,80.0,79.1,77.3,80.2,82.1;问:建议的新方法能否提高出炉率?建议的新方法能否提高出炉率?解解:需要建立假设(数学的分析数学的分析,程序为输入后程序为输入后)输入:x=78.1,72.4,76.2,74.3,77.4,78.4,76.0,75.5,76.7,77.3;y=79.1,81.0,77.4,79.1,80
15、.0,79.1,77.3,80.2,82.1;h,sig,ci=ttest2(x,y,0.05,-1)结果结果:h=1 sig=2.1759e-004 ci=-4.756 -1.6350h=1则拒绝原假设则拒绝原假设,说明什么?说明什么?H1成立成立,即新方法的均值即新方法的均值大于以前的均值大于以前的均值,出炉率提高了出炉率提高了回归分析与方差分析回归分析与方差分析实验3使用的指令格式1.回归分析的指令(回归分析的指令(参考帮助的参考帮助的LinearRegression项项)b,bint,r,rint,stats=regress(Y,X,alpha)参数说明:参数说明:b返回回归系数;返回
16、回归系数;bint为回归系数所在的置信水平为为回归系数所在的置信水平为0.95的置信区间的置信区间;rint为残差区间;为残差区间;stats为一个结构体为一个结构体,包括包括R2、F和和p值。值。方差分析的指令(单因素)y=a+bx的形式up=anova1(X)uh=lillietest(x,alpha)此函数用来检验此函数用来检验uH0:向量向量X中的样本中的样本是否来自正态分布是否来自正态分布返回返回h=1意味着拒绝意味着拒绝H0(在显著性水平(在显著性水平alpha下)下)返回返回h=0意味着接受意味着接受H0(在显著性水平(在显著性水平alpha下)下)up=anova1(X,Y)u
17、P值小于值小于0.05或者或者0.01(根据题意确定)就认为有(根据题意确定)就认为有显著差异,显著差异,beta1(斜率)不为(斜率)不为0Anova1的原假设的原假设H0是:是:X中的所有样本来自同中的所有样本来自同一总体或者尽管来自不同总体但均值相同一总体或者尽管来自不同总体但均值相同例题 strength=82867983848586877482.78757677797977788279;alloy=钢钢,钢钢,钢钢,钢钢,钢钢,钢钢,钢钢,钢钢,.金属金属1,金属金属1,金属金属1,金属金属1,.金属金属1,金属金属1,金属金属2,金属金属2,.金属金属2,金属金属2,金属金属2,金
18、属金属2;p=anova1(strength,alloy)R2又称为方程的又称为方程的确定性系数确定性系数(coefficientofdetermination),表示方程中变量表示方程中变量X对对Y的解的解释程度。释程度。R2取值在取值在0到到1之间之间,越接近越接近1,表明表明方程中方程中X对对Y的解释能力越强的解释能力越强。通常将。通常将R2乘以乘以100来表示回归方程解释来表示回归方程解释Y变化的百变化的百分比。分比。F检验检验是通过方差分析表输出的是通过方差分析表输出的,通过通过显著性水平(显著性水平(significantlevel)检验回归方检验回归方程的线性关系是否显著程的线性
19、关系是否显著。说明说明一般来说一般来说,显著性水平在显著性水平在0.05以下以下,均有意义。均有意义。当当F检验通过时检验通过时,意味着方程中至少有一个回意味着方程中至少有一个回归系数是显著的归系数是显著的,但是并不一定所有的回归但是并不一定所有的回归系数都是显著的系数都是显著的,这样就需要通过这样就需要通过T检验来验检验来验证回归系数的显著性。证回归系数的显著性。同样地同样地,T检验可以通过显著性水平或查表来检验可以通过显著性水平或查表来确定确定。在上面所示的例子中。在上面所示的例子中,各参数的意义各参数的意义如表如表82所示。所示。表表82线性回归方程检验指标意义线性回归方程检验指标意义R
20、2=0.89“质量质量”解释了解释了89的的“用户满用户满意度意度”的变化程度的变化程度F=276.82回归方程的线性关系显著回归方程的线性关系显著T=16.64回归方程的系数显著回归方程的系数显著均在显著性水平下均在显著性水平下alpha=0.001讲义例9.1.2clcx=20,60,100,140,180,220,260,300,340,380;y=0.18,0.37,0.35,0.78,0.56,0.75,1.18,1.36,1.17,1.65;alpha=0.05;x1=ones(size(x)x;xishu,xishudequjian,r,rint,stats_value=regr
21、ess(y,x1,alpha);sprintf(回归方程回归方程y=ax+b为为%f*x+%f,xishu(2),xishu(1)sprintf(气流速度在气流速度在190cm/s时一滴燃料的蒸发系时一滴燃料的蒸发系数为数为%fmm2/s,xishu(1)+xishu(2)*190)%求置信水平是求置信水平是0.95的分位点值的分位点值f_alpah和和t_alphaf_alpha=finv(0.975,5,10);t_alpha=tinv(0.975,size(x,1)-2);%计算计算S_xx、S_yy和和S_xyS_xx=x*x-sum(x)2/size(x,1);S_xy=(x-mea
22、n(x)*(y-mean(y);S_yy=y*y-sum(y)2/size(y,1);%计算残差平方和计算残差平方和sprintf(残差平方和残差平方和SSE是是:%f,S_yy-S_xy2/S_xx)%stats_value变量中是统计值变量中是统计值R2、F和和%p,误差的方差,误差的方差S_e=sqrt(SSE/(size(x,1)-2);disp(sprintf(S_e:%f,S_e)qujian_left=y_evaluated-t_alpha*S_e*sqrt(1/size(x,1)+(190-mean(x)2/S_xx);qujian_right=y_evaluated+t_al
23、pha*S_e*sqrt(1/size(x,1)+(190-mean(x)2/S_xx);disp(sprintf(气流速度在190cm/s时一滴燃料的蒸发系数的期望值所在的估计区间是:(%f,%f),qujian_left,qujian_right)%计算在x=x0处的预测值(估计值)0.95置信水平下的置信区间,PV_qujian_left意思是预测值的左端PV_qujian_left=y_evaluated-t_alpha*S_e*sqrt(1+1/size(x,1)+(190-mean(x)2/S_xx);PV_qujian_right=y_evaluated+t_alpha*S_e*
24、sqrt(1+1/size(x,1)+(190-mean(x)2/S_xx);disp(sprintf(气流速度在190cm/s时一滴燃料的蒸发系数的预测值所在的估计区间是:(%f,%f),PV_qujian_left,PV_qujian_right)2.方差分析的指令下表给出了某一天中午到下午2点之间,一个汽车监测站里6人的工作周数和他们检测的汽车数工作周数x2791512检测的汽车数y132123141521(1)用最小二乘法确定x和y的线性关系(2)用(1)中得到的公式预测工作周数为8时,该工作人员在相应的两个小时里检测的汽车数的期望值y是多少?(3)对于回归方程中斜率beta1,在显著
25、性水平alpha0.05下作假设检验:原假设:beta11.2;备择假设:beta11.2散点图x=2 7 9 1 5 12;y=13 21 23 14 15 21;plot(x,y,*)axis(0 30 10 30)x=2 7 9 1 5 12;y=13 21 23 14 15 21;alpha=0.05;x1=ones(size(x)2 7 9 1 5 12xishu,xishudequjian,r,rint,tongjizhi=regress(y,x1,alpha)注意:ones(size(x)回归时要在x的列向量前加一行1,自己考虑为什么sprintf(回归方程y=ax+b为%f*x
26、+%f,xishu(2),xishu(1)结果为:回归方程回归方程y=ax+b为:为:y12.446970+0.897727*x下面作预测:系数存放在xishu矩阵中,执行命令 y1=xishu(1)+xishu(2)*8结果为y1=19.6288汽车数是一个整数,取整得floor(y1)结果为ans19该工作人员在相应的两个小时里检测的汽车数的期望值y是19(3)对回归方程作假设检验(左边检验)由于beta1表达了x每增加一个单位对应的Y的期望值的变化量。如果beta1=0,意味着斜率beta1的假设检验回归直线是一条水平线,并且Y的均值也不是线性依赖于x的值,因此,beta1是否为0的检验
27、就成为判断Y是否线性依赖于x的关键。这就是关于原假设H0:beta=beta0是否被接受的假设检验问题第三问第三问if tongjizhi(1,3)0.05 disp(H0不成立)end第四问:第四问:确定在监测站工作8周的工作人员在指定的时间区间内,平均检测汽车数期望y的0.95的置信区间代码如下:SSE=S_yy-S_xy2/S_xx;%误差的方差的估计值的计算S_e=sqrt(SSE/(size(x,1)-2);qujian_left=y_evaluated-t_alpha*S_e*sqrt(1/size(x,1)+(y1-mean(x)2/S_xx);qujian_right=y_ev
28、aluated+t_alpha*S_e*sqrt(1/size(x,1)+(y1-mean(x)2/S_xx);disp(sprintf(在监测站工作8周的工作人员在指定的时间区间内,平均检测汽车数期望y的0.95的置信区间是:(%f,%f),qujian_left,qujian_right)(5)第五问)第五问PV_qujian_left=y_evaluated-t_alpha*S_e*sqrt(1+1/size(x,1)+(y1-mean(x)2/S_xx);PV_qujian_right=y_evaluated+t_alpha*S_e*sqrt(1+1/size(x,1)+(y1-mea
29、n(x)2/S_xx);disp(sprintf(在监测站工作8周的工作人员在指定的时间区间内,平均检测汽车数预测值y的0.95的置信区间是:(%f,%f),PV_qujian_left,PV_qujian_right)方差分析的指令anova2说明load popcorn%加载数据,列是爆米花的商标加载数据,列是爆米花的商标%popcorn%行是炒爆的类型,油和空气的组合行是炒爆的类型,油和空气的组合%p=anova2(popcorn,2)结果为p=0.0000 0.0027 0.4558说明爆米花三个商标的p值是0.0000,关于两种炒爆类型的p值是0.0027,关于商标与炒爆类型的交互作用的p值是0.4558。说明爆米花的商标和炒爆的类型对生成的爆米花的数量有显著的影响,而商标与炒爆类型的交互作用不明显。从结果可以看出商标Gourmet空气炒爆法生成法生成的爆米花量最多利用cftool工具箱做曲线拟合提示符下键入:cftool执行下列代码x=2 7 9 1 5 12;y=13 21 23 14 15 21;可以利用可以利用regstats(y,x)计算需要的统计量值计算需要的统计量值然后在界面的data中的xdata中选择变量xYdata中选择y效果如下图,并点击Create data set点击fitting按钮,弹出界面fitting,点击New Fit