资源描述
,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,本资料仅供参考,不能作为科学依据。谢谢。本资料仅供参考,不能作为科学依据。谢谢您,第四单元 数据分析,第1页,Matlab,统计工具箱,一:统计工具箱介绍,二:概率分布,三:参数预计,四:描述性统计,五:假设检验,六:统计绘图,第2页,一.,matlab,统计工具箱(,statistics toolbox),介绍,统计学是处理数据艺术和科学,经过搜集,分析,解释和表示数据来探索事物中蕴含规律.伴随科技水平迅猛发展,知识经济时代降临,海量数据需要人们处理.,matlab,统计工具箱为人们提供了一个强有力统计分析工具.,统计工具箱基于,matlab,数值计算环境,支持范围广泛统计计算任务.它包含200多个处理函数(,m,文件)主要应用于以下几方面:,第3页,1.1 统计工具箱几大功效,*概率分布,*参数预计,*描述性统计,*假设检验,*统计绘图,第4页,统计工具箱提供了20种概率分布类型,其中包含,离散型,分布:,(如,binomial,二项分布,即,n,次贝努里试验中出现,k,次成功概率.,poisson,分布,和 分布等).,1.1.1概率分布-离散型,第5页,1.1.2 概率分布连续型,连续型分布,如正态分布,F(x)=,beta,分布,uniform,平均分布等.,每种分布提供5类函数:,1,概率密度 2(累积)分布函数 3 逆累积分布函数,4 随机数产生器 5 均值和方差函数.,第6页,1.1.3另外4大功效,*参数预计-依据原始数据计算参数预计值置信区域.,*描述性统计-方差,期望等数字特征.,*假设检验-提供最通用假设检验函数,t-,检验,z-,检验.,*统计绘图-,box,图函数,正态概率图函数等,.,注意:统计工具箱中说有函数都可用,type function_name,语句查看其代码,也可进行修改,从而变为己用,加入到工具箱中.,第7页,二 概率分布,随机变量统计行为取决于其概率分布,而分布函数惯用连续和离散型分布。统计工具箱提供20种分布。每种分布有五类函数。,1:概率密度(,pdf);2:,累积分布函数(,cdf);3:,逆累积分布函数(,icdf);4:,随机数产生器 5:均值和方差函数;,一:离散型概率密度函数:为观察到特定值概率。,连续型概率密度函数定义为:如存在非负函数,p(x)0,使对任意,ba,,X,在(,a,b),上取值概率为,paXb=;,则称,p(x),为随机变量,X,概率密度函数。,二:累积分布(,cdf):,它取决于,pdf.,表示式为,F(x)=.,逆累积分布(,icdf):,实际上是,cdf,逆,它返回给定显著概率条件下假设检验 临界值。,第8页,2.1,三:随机数产生器,全部随机数产生方法都派生于均匀分布随机数。产生方法有:直接法、反演法、拒绝法。,四:均值和方差,均值和方差是分布函数简单函数。在,Matlab,里用“,stat”,结尾函数可计算得到给定参数分布均值和方差。,以下以正态分布为例说明在,Matlab,里实现。,一:概率密度函数,X=-3:0.5:3;,f=normpdf(x,0,1);,(,其中,normpdf,为正态分布,Matlab,分布实现函数,可由以下介绍函数代替。),第9页,功效:可选分布概率密度函数。,格式:,Y=pdf(name,X,A1,A2,A3),说明:,name,为特定分布名称,如,Normal,Gamma,等。,X,为分布函数自变量,X,取值矩阵,而,A1,A2,A3,分别为对应分布参数值。,Y,给出结果,为概率密度值矩阵。,举例:,p=pdf(Normal,-2:2,0,1),给出标准正态分布在-2到2分布函数值。,而,p=pdf(Poisson,0:4,1:5),给出,Poisson,分布函数,。,2.2,第10页,累积分布函数与逆累积分布函数,一样地,累积分布和逆累积分布对每个分布都有特定地,Matlab,实现函数,这里只介绍通用,cdf,icdf.,-cdf,icdf,功效:计算可选分布累积分布函数和逆累积分布函数。,格式:,P=cdf(name,X,A1,A2,A3),X=icdf(name,X,A1,A2,A3),说明:,cdf,和,icdf,中参数使用和,pdf,中相同。只是计算结果不一样。,举例:,p=cdf(Normal,0:5,1:6),X=icdf(Normal,0.1:0.2:0.9,0,1),2.3,第11页,随机数产生器,在,Matlab,里和,pdf,cdf,与,icdf,一样,随机数产生也有通用函数,random.,-random,功效:产生可选分布随机数。,格式:,y=random(name,A1,A2,A3,m,n),说明:,random,函数产生统计工具箱中任一分布随机数。,name,为对应分布名称。,A1,A2,A3,为分布参数,意义同,pdf,参数。,m,n,确定了结果,y,数量,假如分布参数,A1,A2,A3,为矢量,则,m,n,是可选,但应注意,它们给出长度或矩阵行列数必须与分布参数长度相匹配。,举例:,rn=random(Normal,0,1,2,4),2.4,第12页,均值和方差,和以上其它函数不一样是均值和方差运算没有通用函数,只能用各个分布函数计算。对应于正态分布计算函数为,normstat();,它返回两个参数向量,分别为均值和方差。,举例:,m,n=normstat(mu,sigma),2.5,第13页,三.参数预计,参数预计:,某分布数学形式已知,应用子样信息来预计其有限个参数值,本节主要介绍,3.1,最大似然预计,(,Maximum likelihood estimation,),3.2,对数似然函数,第14页,3.1最大似然预计,基本思想:,已知一组观察值,给定这组值出自某类分布中,求得最有可能出现这组值一个分布.,调用方法:,phat,pci=mlsdist,data,alpha,phat,为参数预计结果,pci,为置信区间计算结果,dist,为用户给定分布名称,data,为数据列表,(1-,alpha),置信区域.,第15页,3.1.1 最大似然预计(,mls),举例,例:,rv=binornd(20,0.75),rv=17,p,pci=mle(binomial,rv,0.05,20),p=,0.8000,pci=,0.5634,0.9427,第16页,3.2 对数似然函数,统计工具箱提供了,分布,分布,正态分布和威布尔分布负对数似然函数值求取函数.,正态分布负对数似然函数,调用方法,L=normlike(params,data),Params,为正态分布参数:,params(1),为,params(2),为,第17页,3.2.1其它负对数似然函数,分布负对数似然函数,logL=betalike(params,data),分布负对数似然函数,logL=gamlike(params,data),威布尔分布负对数似然函数,logL=weiblike(params,data),参数设置与正态分布负对数似然函数类似,不加冗述.,第18页,四 描述性统计,概述:,人们希望用少数样原来表达样本总体规律。,描述性统计就是搜集、整理、加工和分析统计数据,使之系统化、条理化,以显示出数据资料趋势、特征和数量关系。,依据统计量特征性质不一样,工具箱提供了位置度量、散布度量、自助法以及在缺失数据情况下处理方法等方面描述性统计工具函数。,第19页,4.1中心趋势(位置)度量,数据样本中心度量目标在于对数据样本数据分布线上分布中心给予定位,即中心位置度量。,均值是对位置简单和通常预计量。但野值存在往往影响位置确实定。而中位数和修正均值则受野值干扰很小。中位数是样本50%分位点。而修正均值所蕴涵思想则是剔除样本中最高值和最低值来确定样本中心位置。,几何均值和调和均值对野值都较敏感。当样本服从对数正态分布或偏斜程度很大时,它们也都是有效方法。,以下介绍位置度量相关函数。,第20页,4.2.1:几何平均数(,geomean),功效:样本几何均值。,格式:,m=geomean(X),说明:几何均值定义为,m=(1.4.1),geomean,函数计算样本几何均值。,X,若为矢量,它返回,X,中元素几何均值;,X,若为矩阵,它结果为一个行矢量,每个元素为,X,对应列元素几何均值。,举例:,x=exprnd(1,10,6);,geometric=geomean(X);,average=mean(X);,第21页,4.2.2:(调和均值),harmmean,功效:样本数据调和均值。,格式:,m=harmmean(X),说明:调和均值定义为,举例:样本均值大于或等于调和均值。,X=exprnd(1,10,6);,harmonic=harmmean(X),average=mean(X),第22页,4.2.3,(平均值),mean,功效:样本数据平均值。,说明:平均值定义为,举例:,x=normrnd(0,1,100,5);,xbar=mean(X),第23页,4.2.4:,median,功效:样本数据中值。,说明:中值即数据样本50%中位数。中位数对野值出现影响较小。,举例:,xodd=1:5;,modd=median(xodd),meven=median(xeven),第24页,4.2.5:,trimmean,功效:剔除极端数据样本均值。,格式:,m=trimmean(X,percent),说明:函数计算剔除观察量中最高百分比和最低百分比数据后均值。,函数中,percent,代表百分比。,举例:,X=normrnd(0,1,100,100);,m=mean(X),trim=trimmean(X,10),sm=std(m),strim=std(trim),efficiency=(sm/strim).2,第25页,4.3散布度量,散布度量能够了解为样本中数据偏离其数值中心程度,也称离差。,极差,定义为样本最大观察值与最小观察值之差。,标准差和方差为惯用散布度量,对正态分布样本描述是最优。但抗野值干扰能力较小。,平均绝对值偏差对野值也敏感。,四分位数间距为随机变量上四分位数 和下四分位之差。,第26页,在,Matlab,里,相关散布度量计算函数为:,1:计算样本内四分位数间距,iqr(X).,2:,求样本数据平均绝对偏差,mad(X).,3:,计算样本极差,range(X).,4:,计算样本方差,var(X,w).,5:,求样本标准差,std(X).,6:,求协方差矩阵,cov(X).,这些函数详细说明能够参见,Matlab,帮助文档。,4.4,Matlab,里相关散布度量计算函数,第27页,4.5处理缺失数据函数,在对大量数据样本进行处理分析时,常会碰到一些数据无法找到或不能确定情况。这时可用,NaN,标注这个数据。而工具箱中有一些函数自动处理它们。,如:忽略,NaN,求其它数据最大值,nanmax.,格式:,m=nanmax(X),举例:,m=magic(3);,m(1 6 8)=NaN NaN NaN,nmax,maxidx=nanmax(m),第28页,4.6中心矩,中心矩是关于数学期望矩。对于任意,r 0,称,为随机变量,X,r,阶中心矩。一阶中心矩为0,二阶中心矩为方差:,函数,moment,计算任意阶中心矩。,格式:,m=moment(X,order),说明:,order,确定阶。,第29页,4.7相关系数,相关系数是两个随机变量间线性相依程度度量。,可用函数,corrcoef,计算它。,格式:,R=corrcoef(X),说明:输入矩阵,X,行元素为观察值,列元素为变量,,R=corrcoef(X),返回相关系数矩阵,R.,第30页,五.假设检验,假设检验,是统计基本问题.意在应用得到少许信息,判断整体是否满足给定条件或到达给定标准.,回顾一下我们以前在统计学中所学假设检验.,其步骤为:,第31页,5.1 假设检验步骤,1.设:,零假设.(成立则,h=0,不然,h=1).,2.,取得一组观察值(子样).,3.给定显著型水平,(,普通取0.05).,4.应用子样一些统计量特征.,5.在 成立前提下,若出现已知观察值概率小于5%,则拒绝,不然认为观察值与假设无显著差异.,第32页,5.2,ranksum,函数,调用方法:,p,h=ranksum(x,y,alpha),p,返回,x,y,母体一致显著性水平,h,为假设检验返回值.,x,y,为两组观察值,alpha,为显著性水平.,请参考下面例子,第33页,5.2.1 Ranksum,函数举例,例:检验两组服从,poisson,分布,随机数样本均值是否相同.,x=poissrnd(5,10,1);,y=poissrnd(2,10,1);,p,h=ranksum(x,y,0.05),p=,0.0028,h=,1,第34页,5.3,signrank,函数,调用方法:,p,h=signrank(x,y,alpha),参数与,ranksum,函数类似.,例:检验两个,正态分布,样本子样均值是否相等.,x=normrnd(0,1,20,1);,y=normrnd(0,2,20,1);,p,h=signrank(x,y,0.05),p=,0.2568,h=,0,第35页,5.4,ttest-t,检验,调用方法:,h,sig,ci=ttest(x,m,alpha),h,为假设检验返回值.,sig,与,T,统计量有,关,T=,.,ci,为均值,(1-,alpha),置信区,域.,m,为假设样本均值.,第36页,5.4.1 ttest,函数举例,例:给出理论均值为0、标准差为1100个正态随机数样本。当然,观察样本均值和标准差与理论值不一样,但假设检验结果却还原其本质规律,。,x=normrnd(0,1,1,100);,h,sig,ci=ttest(x,0);,h=,0,sig=,0.4474,ci=,-0.1165 0.2620,结果,h=0,意味着我们不能拒绝零假设。,第37页,5.5,ztest,函数,已知方差单样本均值检验假设.,调用方法:,h,sig,ci=ztest(x,m,sigma,alpha,tail),ztest(x,m,sigma),是在0.05显著性水平下检验正态分布样本是否含有均值,m,和标准差,sigma.,h=ztest(x,m,sigma,alpha),则可由您确定显著性水平,alpha,值,并返回检验结果,h,。,Sig,、,ci,与,ttest,函数中对应意义相同。,第38页,5.5.1,函数,ztest,举例,例:,x=normrnd(0,1,100,1);,m=mean(x);,m=0.0727,h,sig,ci=ztest(x,0,1);,h=,0,sig=,0.4669,ci=,-0.1232 0.2687,第39页,六 统计绘图,概述,统计工具箱在,Matlab,丰富绘图功效上又添加了图形表现函数,,box,图用于展现样本及其统计量内在规律,也用于经过图形来比较多个样本均值。正态概率图是确定样本是否为正态分布图形。分位数-分位数图用于比较两个样本分布。,第40页,6.1 Box,图,-,boxplot,功效:数据样本,box,图。,格式:,boxplot(X),boxplot(X,notch,sym,vert,whis),举例:,x1=normrnd(5,1,100,1);,x2=normrnd(6,1,100,1);,x=x1 x2;,boxplot(x,1),第41页,6.2误差条图,-,-,errorbar,功效:误差条图。,格式:,errorbar(X,Y,L,U,symbol),举例:,lambda=(0.1:0.2:0.5);,r=poissrnd(lambda(ones(50,1),:));,p,pci=poissfit(r,0.001);,L=p-pci(1,:),U=pci(2,:)-p,errorbar(1:3,p,L,U,+),第42页,还有其它函数,:,1:,fsurfht,画交互轮廓图,2:,gline,绘制交互,3:,gname,用实例名称或实例号来标识图中点,4:,lsline,绘制数据最小二乘拟合线,5:,normplot,图形化正态检验正态概率图,6:,pareto,帕累托图,7:,qqplot,两个样本分位数-分位数图,8:,rcoplot,回归残差图,9:,refcurve,在当前图形中给出多项式拟合曲线,6.3,第43页,几个统计绘图例子,画正态概率图,Normplot(x),画数据正态概率图,X=normrnd(0,1,50,1),H=normplot(x);,第44页,pareto,图,Pareto(y,names),defects=pits ;cracks;holes;dents;,quantify5,3,19,25;,quantity=5,3,19,25;,第45页,用实例名来标识图中点,Gname(case),功效:用实例名来标识图中点,Load cities,Eduation=rating(:,6);arts=ratings(:,7);,Plot(eduation,artsk,+),Gname(names),第46页,在大量应用领域中,人们经常面临用一个解析函数描述数据,(,通常是测量值,),任务。对这个问题有两种方法。,一个是插值法,数据假定是正确,要求以某种方法描述数据点之间所发生情况。,另一个方法是曲线拟合或回归。人们设法找出某条光滑曲线,它最正确地拟合数据,但无须要经过任何数据点。,本专题主要目标是:了解插值和拟合基本内容;掌握用,Matlab,求解插值与拟合问题基本命令。,第47页,内容提要,1.,拟合问题引例及基本理论,2.Matlab,求解拟合问题,3.,应用实例,4.,插值问题引例及基本理论,5.Maltab,求解插值问题,6.,应用实例,第48页,拟合问题,第49页,拟 合 问 题 引 例,1,温度,t(,0,C)20.5 32.7 51.0 73.0 95.7,电阻,R(,)765 826 873 942 1032,已知热敏电阻数据:,求,60,0,C,时电阻,R,。,设,R=at+b,a,b,为待定系数,第50页,拟 合 问 题 引 例,2,t(h)0.25 0.5 1 1.5 2 3 4 6 8,c(,g/ml),19.21 18.15 15.36 14.10 12.89 9.32 7.45 5.24 3.01,已知一室模型快速静脉注射下血药浓度数据,(t=0,注射300,mg),求血药浓度随时间改变规律,c(t).,作半对数坐标系,(semilogy),下图形,第51页,曲 线 拟 合 问 题 提 法,已知一组(二维)数据,即平面上,n,个点,(,x,i,y,i,)i=1,n,寻求一个函数(曲线),y=f(x),使,f(x),在某种准则下与全部数据点最为靠近,即曲线拟合得最好。,+,+,+,+,+,+,+,+,+,x,y,y=f(x),(x,i,y,i,),i,i,为点,(,x,i,y,i,),与,曲线,y=f(x),距离,第52页,线性最小二乘拟合,f(x)=a,1,r,1,(x)+a,m,r,m,(x),中函数,r,1,(x),r,m,(x),选取,1.,经过机理分析建立数学模型来确定,f(x),;,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,f=a,1,+a,2,x,f=a,1,+a,2,x+a,3,x,2,f=a,1,+a,2,x+a,3,x,2,f=a,1,+a,2,/x,f=ae,bx,f=ae,-bx,2.,将数据,(x,i,y,i,)i=1,n,作图,经过直观判断确定,f(x),:,第53页,曲线拟合问题最惯用解法,线性最小二乘法基本思绪,第一步,:,先选定一组函数,r,1,(x),r,2,(x),r,m,(x),m 0,算法收敛;,=0,到达最大步骤而停顿;,1,%,如有两个输出量(,目标函数,梯度,)。,g=,%,计算,g,为函数,x,点解析梯度(可省)。,if nargout 2,%,如有三个输出量(,目标函数,梯度,海森阵,)。,H=,%H,为函数在,x,点海森阵,(可省)。,end,第129页,Matlab,优化工具箱介绍,(,zxy6_4,讲解运行),bandemo.m,简化和剖析,程序,zxy6_4.m,是对,bandemo.m,简化,基本结构为:,(,1,)绘制香蕉函数等值线图,并将,Start Point,和,Solution,标在图形上。,(,2,)用,Switch,语句结构,允许程序选取,BFGS,、,DFP,、最速下降法和单纯形法等四种优化方法。,第130页,Matlab,优化工具箱介绍,多变量约束优化指令,fmincon,x,fval,exitflag,output,lambda,grad,hessian=fmincon(fun,x0,A,b,Aeq,beq,lb,ub,nonlcon,options,P1,P2,),上面命令等价于,第131页,Matlab,优化工具箱介绍,线性规划,linprog,指令,x,fval,exitflag,output,lambda=linprog(f,A,b,Aeq,beq,lb,ub,x0,options),算法选择:,options=optimset(largescale,off),,单纯形方法;,options=optimset(largescale,on),,内点法,(,默认,),。,第132页,Matlab,优化工具箱介绍,一元函数寻优,fminbnd,指令,x,fval,exitflag,output,=fminbnd(fun,x1,x2,options,P1,P2,.),此时,x,x,1,x,2,是标量,,f(x),为标量函数。,第133页,Matlab,优化工具箱介绍,Quadprog,:解二次规划,lsqnonlin,:解非线性最小二乘,lsqcurvefit,:非线性数据拟合,lsqnonneg,:非负系数最小二乘法。,lsqlin,:约束最小二乘,第134页,应用思索与练习,(计算最正确水槽断面面积),试推导对称,2n+1,边形面积普通公式,选择一系列,n,值,仿照,zxy6_6.m,计算它们最大断面面积,观察计算结果规律性。,在工程实践中并不能确保每一次计算都能够成功,不过本问题即使不成功,你是否也能洞察结果?,第135页,对盲人下山问题,引入一个有界约束区域,试用图形表现函数在区域边界上图象。,能够用等值线或用曲顶柱体曲面显示函数在区域改变情况。,不过提议单独用二维绘图指令,plot,画出它们曲线图,观察函数在边界极值情况。,应用思索与练习,(盲人约束下山),第136页,应用思索与练习,(盲人约束下山),结合高等数学知识,假如可能,用,Matlab,符号演算指令求出函数在不一样约束下极值点和最值点(比如可用,Lagrange,函数方法处理这些问题)。,你也能够在盲人下山模拟中对有约束情况进行讨论,这时盲人应该怎样前进呢?,第137页,应用思索与练习,(,啤酒配方问题,),某啤酒厂希望用原料掺水方法生产一个复合标准低成本啤酒。其标准要求为:酒精含量为,3.1,;发酵前平均比重在,1.034,1.040,之间;颜色在,8,10EBC,单位之间;每升混合物中,蛇麻子脂含量在,20,25mg,之间。,请依据相关数据算出最优配方。,第138页,应用思索与练习,(,储能飞轮设计,),下面表示式用于设计储能用飞轮。,准则是储备能量最大。,用约束条件限定了重量、直径、转速和厚度,,试计算最优解。你能确定算出解是最优吗?,第139页,应用思索与练习,(,齿轮减速器设计),抽去各变量物理意义,齿轮减速器最优设计模型以下:,这是一个含有,7,个变量、,23,个约束优化问题。试对其进行计算。,你可能会碰到很大困难,你能想方法处理这些困难吗?,第140页,应用思索与练习,(,齿轮减速器设计),第141页,作业与练习,第142页,练习,1,用给定多项式,如,y=x,3,-6x,2,+5x-3,,产生一组数据,(x,i,y,i,,,i=1,2,n),再在,y,i,上添加随机干扰,(,可用,rand,产生,(0,1),均匀分布随机数,或用,rands,产生,N(0,1),分布随机数,),,然后用,x,i,和添加了随机干扰,y,i,作,3,次多项式拟合,与原系数比较。,分别作,1,、,2,、,4,、,6,次多项式拟合,比较结果,体会欠拟合、过拟合现象。,第143页,练习,2,用电压,V=10,伏电池给电容器充电,电容器上,t,时刻电压为 ,其中,V,0,是电容器初始电压,是充电常数。试由下面一组,t,,,V,数据确定,V,0,,。,分别应用非线性最小二乘拟合以及非线性回归命令求解,并作比较,体会统计回归与拟合方法区分。,第144页,练习,3,在某海域测得一些点,(x,y),处水深,z,由下表给出,船吃水深度为,5,英尺,预计在矩形区域(,75,,,200,)*(,-50,,,150,)里哪些地方船要防止进入。,用插值方法作海底曲面图,.,作出水深小于,5,海域范围,即,z=5,等高线,.,第145页,Thanks!,第146页,
展开阅读全文