1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第六章 数据分析,制作,:,陈学明,关系运算,MATLAB,提供了,6,种关系运算符:,(,小于,),、,(,大于,),、,=(,大于或等于,),、,=(,等于,),、,=(,不等于,),。它们的含义不难理解,但要注意其书写方法与数学中的不等式符号不尽相同,。,关系运算符的运算法则,当两个比较量是标量时,直接比较两数的大小。若关系成立,关系表达式结果为,1,,否则为,0,。,当参与比较的量是两个维数相同的矩阵时,比较是对两矩阵相同位置的元素按标量关系运算规则逐个进行,并给出元素比较结果。最终的关系运算的结果是一
2、个维数与原矩阵相同的矩阵,它的元素由,0,或,1,组成。,关系运算符的运算法则,(3),当参与比较的一个是标量,而另一个是矩阵时,则把标量与矩阵的每一个元素按标量关系运算规则逐个比较,并给出元素比较结果。最终的关系运算的结果是一个维数与原矩阵相同的矩阵,它的元素由,0,或,1,组成。,逻辑运算,MATLAB,提供,3,种逻辑运算符:,&(,与,),、,|(,或,),和,(,非,),。,逻辑运算的运算法则为,:,(1),在逻辑运算中,确认非零元素为真,用,1,表示,零元素为假,用,0,表示。,(2),设参与逻辑运算的是两个标量,a,和,b,,那么,,,a&b,a,b,全为非零时,运算结果为,1,
3、否则为,0,。,a|b,a,b,中只要有一个非零,运算结果为,1,。,a,当,a,是零时,运算结果为,1,;当,a,非零时,运算结果为,0,。,逻辑运算,(3),若参与逻辑运算的是两个同维矩阵,那么运算将对矩阵相同位置上的元素按标量规则逐个进行。最终运算结果是一个与原矩阵同维的矩阵,其元素由,1,或,0,组成。,(4),若参与逻辑运算的一个是标量,一个是矩阵,那么运算将在标量与矩阵中的每个元素之间按标量规则逐个进行。最终运算结果是一个与矩阵同维的矩阵,其元素由,1,或,0,组成。,逻辑运算,(5),逻辑非是单目运算符,也服从矩阵运算规,则。,(6),在算术、关系、逻辑运算中,算术运算优先级最
4、高,逻辑运算优先级最低,。,多项式及运算,多项式的,MATLAB,表示法:,如:,P,S,3,2S,2,3S,4,MATLAB,可表示为系数向量,P,1 2 3 4,多项式的生成,直接输入系数向量,p=1 2 3 4,P,S,3,2S,2,3S,4,*,求多项式的根,可用函数,roots,(,P,),【,例,】r,roots,(,P,),ans,-1.6506,-0.1747+1.5469i,-0.1747-1.5469i,若已知多项式根向量,可用,poly,(,P,)生成多项式,【,例,】,已知,P1(s),(s+1)(s+2)(s+3),的,根为:,-1 -2 -3,则编写:,P1,pol
5、y,(,-1,-2,-3,),运行后,得,P1,1 6 11 6,表示已生成多项式为:,P=s,3,+6s,2,+11s+6,多项式的生成,多项式运算,1,求多项式值,polyval(p,x0),V=polyval(P1,1),V=24,2,多项式加、减,:,*,阶次相同,低阶缺项系数必须补,0,【,例,】,:(,s2+2s+1,),+2s2,P1=1 2 1,;,P2=2 0 0,;,P=P1+P2,P=,3 2 1,多项式运算,3,多项式乘法,conv,.,(卷积),(s+1)(s3+6s2+11s+6),P1=1 1;,P2=1 6 11 6;,P3=conv(P1,P2),P3=1 7
6、 17,17,6,P3=s4+7s3+17s2+17s+6,多项式运算,4,多项式除运算,deconv,a=1 2 3;,c=4 13 28 27 18,d=,deconv(c,a,),c=4 13 28 27 18,d,r=deconv(c,a),余数,c,除,a,后的整数,多项式运算,5,部分分式展开式residue,r,p,k,=,residue(b,a,),b(s,)r(1),r(2),r(n,),-=-+-+.+-+,k(s,),a(s,)s-p(1)s-p(2)s-,p(n,),p=p(1),p(2),p(n,),r=r(1),r)2),.,r(n,).,k(s,),直接项,多项式
7、运算,6,多项式微分运算polyder,【例】,f(x,)=2x5+5x4+4x2+x+4,p=2 5 0 4 1 4;,h=,polyder(p,),h=,10 20 0 8 1,练习,例:x,1,+2x,2,=8,2x,1,+3x,2,=13,=,方程,ax=b,a=1 2;2 3;b=8;13;,x=,inv(a,)*b,x=ab,x=x=,2.00,2.00,3.00,3.00,多项式拟合与插值,在分析试验数据中,常常要面临将试验数据作解析描述的任务,这个问题有曲线拟合和插值两种方法。,在曲线拟合中,假定已知曲线的规律,作曲线的最佳逼近,但不需要经过所有的数据点;在插值中,认为数据是准
8、确的,求取其中描述点之间的数据。,多项式,拟合,多项式的最小二乘曲线拟合,使用,polyfit,,它需要曲线的,x、y,值,以及曲线的阶数,。,曲线的阶数,:,如果曲线的阶数选择的过,小,拟合效果不好;如果曲线的阶数过高,虽然数据点上看到效果好,数据点之间,会,出现有数据振荡的问题,,,阶数不宜过高,,一般,小于,5阶,。,灵活使用拟合,插值,插值函数,1、曲线插值函数,interp1,方法,t=interp1(x,y,x0,method),x、y:,原始数据点,,x0,为进行插值的数组,,method,为插值算法,:,线性插值(,linear,),,三次样条插值(,spline,),三次多项
9、式插值,(cubic).,如果,x0,出界,则对应值为,NaN,三次样条插值,对于给定的离散的测量数据,x,y,(称为断点),要寻找一个三项多项式,y,=,p(x,),,以逼近每对数据,(,x,y,),点间的曲线。过两点,(xi,yi,),和,(xi,+,1,yi,+,1),只能确定一条直线,而通过一点的三次多项式曲线有无穷多条。为使通过中间断点的三次多项式曲线具有唯一性,要增加两个条件(因为三次多项式有,4,个系数):,1,三次多项式在点,(xi,yi,),处有:,p,i,(xi),=,p,i,(xi),;,2,三次多项式在点,(xi,+,1,yi,+,1),处有:,p,i,(xi,+,1)
10、p,i,(xi,+,1),;,3,p(x,),在点,(xi,yi,),处的斜率是连续的(为了使三次多项式具有良好的解析性,加上的条件);,4,p(x,),在点,(xi,yi,),处的曲率是连续的;,曲面(二维)插值,插值函数:,interp2,,,基本形式:,zi,=interp2(x,y,z,xi,yi,method),method,包括,linear:,线性,cubic:,三次多项式,nearest,:,粗略估计数据,集中趋势的测定,在统计研究中,需要搜集大量数据并对其进行加工整理,对这些数据进行整理之后发现:大多数情况下数据都会呈现出一种钟形分布,即各个变量值与中间位置的距离越近,
11、出现的次数越多;与中间位置距离越远,出现的次数越少,从而形成了一种以中间值为中心的集中趋势。这个集中趋势是现象共性的特征,是现象规律性的数量表现。,数据特征,设 是取自总体,X,的一个简单随机样本,在,n,次抽样以后得到样本的一组观测值 我们通过对数据的分析研究可以得到总体,X,的有关信息,在,MATLAB,中有专门的函数分析数据特征,如下表所示,.,位置特征,MATLAB,函数,变异特征,MATLAB,函数,算术平均,mean,极差,range,中位数,median,方差,var,切尾平均,trimmean,标准差,std,几何平均,geomean,四分位极差,iqr,调和平均,harmme
12、an,平均绝对偏差,mad,集中趋势的描述,1,均值函数,(,1,)算术平均数,(,2,)调和平均数,数值倒数的平均数的倒数。,(,3,)几何平均数,n,个观察值连乘积的,n,次方根。,集中趋势的描述,2,中位数(中位次数)函数,中位数是指全体数值按大小排列后位于中间的数值。,如果参数集合中包含有偶数个数字,中位数函数将返回位于中间的两个数的平均值。,集中趋势的描述,3,众数函数,众数是一组数列中出现次数最多的数值,众数函数返回某一数组或数据区域中出现频率最多的数值。,4,最大(小)值函数,最大(小)值函数可以返回数据集中的最大(小)数值。,三种平均数的特点,众数是一组数据中出现次数最多的变量
13、值,它用于对分类数据的概括性度量,其特点是不受极端值的影响,但它没有利用全部数据信息,而且还具有不惟一性。一组数据可能有众数,也可能没有众数;可能有一个众数,也可能有多个众数。,中位数是一组数据按大小顺序排序后处于中间位置上的变量,它主要用于对顺序数据的概括性度量。,均值是一组数据的算术平均,它利用了全部数据信息,是概括一组数据最常用的一个值。,表示变异程度的统计量,标准差,:,它是各个数据与均值偏离程度的度量,.,方差,:,标准差的平方,.,在样本容量相同的情况下,方差越大,说明数据的波动越大,越不稳定。,极差,:,样本中最大值与最小值之差,.,四分位数,四分位数是将中值的前后两部分数值再等
14、分为二,以数值小的一端算起,前半部的分区点称为第,1,四分位数,后半部的分区点称为第,3,四分位数,而中值即为第,2,四分位数。四分位数通常用于在销售额和测量值数据集中对总体进行分组。,数据特征示例一,例,4.,已知数据:,a=459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 649 697 515 6
15、28 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851;,计算该数据特征,.,数据特征示例二,已知数据:,1,,,1,,,1,,,1,,,1,,,1,,,100,;计算其数据特征,由此你有何发现?,计算结果为:,y=15.14
16、3 1 1.9307 1.1647 1 99 1400.1 37.418 0 24.245,如果本例的数据全部为,1,,则各种平均值都应等于,1,,所有的变异特征全部为零,由于有一个异常值,100,,于是导致上述的一些特征受影响(不稳健),但是中位数、切尾平均与四分位极差没有改变,它们对异常值是稳健的,.,异常值的判别,在探索性数据分析时,有一种判别异常值的简单方法,首先计算数据的下、上截断点,数据中小于下截断点的数据为特小值,大于上截断点的数据为特大值,二者都是异常值,.,数据的下、上截断点,计算上、下截断点的公式如下:,其中,,R,为四分位极差,分别称为下四分位数与上四分位数,.,注:,Q
17、1=prctile(w,25);Q3=prctile(w,75);,prctile,(),函数实现计算样本的百分位数功能,位于 以外的点,若数据服从正态分布,则称位于,以外的点,为异常点,.,分布形态的测定,只用集中趋势和离中趋势来表示所有数据,难免不够准确。分析总体次数的分布形态有助于识别整个总体的数量特征。总体的分布形态可以从两个角度考虑,一是分布的对称程度,另一个是分布的高低。前者的测定参数称为偏度或偏斜度,后者的测定参数称为峰度。,峰度是掌握分布形态的另一指标,它能描述分布的平缓或陡峭程度。如果峰度数值等于零,说明分布为正态;如果峰度数值大于零,说明分布呈陡峭状态;如果峰度数值小于零,
18、说明分布形态趋于平缓。,偏度函数,偏度函数返回分布的偏斜度。偏斜度反映以平均值为中心的分布的不对称程度。正偏斜度表示不对称边的分布更趋向正值,负偏斜度表示不对称边的分布更趋向负值。其计算公式为,峰度函数,峰度函数返回数据集的峰值,表示次数分布高峰的起伏状态。峰值反映与正态分布相比某一分布的尖锐度或平坦度。正峰值表示相对尖锐的分布,负峰值表示相对平坦的分布。其计算公式为,表示分布形状的统计量,偏度反映分布的对称性,,g1 0,称为右偏态,此时数据位于均值右边的比位于左边的多;,g1 fun=inline(3*x.2./(x.3-2*x.2+3);,Q1=quad(fun,0,2),Q2=quad
19、l(fun,0,2),一元函数的数值积分,二、函数,trapz,功能:梯形法数值积分,格式:,T=,trapz(Y,)%,用等距梯形法近似计算,Y,的积分。若,Y,是一向量,则,trapz(Y,),为,Y,的积分;若,Y,是一矩阵,则,trapz(Y,),为,Y,的每一列的积分;若,Y,是一多维阵列,则,trapz(Y,),沿着,Y,的第一个非单元集的方向进行计算。,T=,trapz(X,Y,)%,用梯形法计算,Y,在,X,点上的积分。若,X,为一列向量,,Y,为矩阵,且,size(Y,1)=,length(X,),,则,trapz(X,Y,),通过,Y,的第一个非单元集方向进行计算。,T=,
20、trapz,(,dim)%,沿着,dim,指定的方向对,Y,进行积分。若参量中包含,X,,则应有,length(X,)=,size(Y,dim,),。,二元函数重积分的数值计算,函数:,dblquad,功能矩形区域上的二重积分的数值计算,格式,q=,dblquad(fun,xmin,xmax,ymin,ymax,)%,调用函数,quad,在区域,xmin,xmax,ymin,ymax,上计算二元函数,z=,f(x,y,),的二重积分。输入向量,x,,标量,y,,则,f(x,y,),必须返回一用于积分的向量。,q=,dblquad(fun,xmin,xmax,ymin,ymax,tol,)%,用
21、指定的精度,tol,代替缺省精度,10-6,,再进行计算。,二元函数重积分的数值计算,q=,dblquad(fun,xmin,xmax,ymin,ymax,tol,method,)%,用指定的算法,method,代替缺省算法,quad,。,method,的取值有,quadl,或用户指定的、与命令,quad,与,quadl,有相同调用次序的函数句柄。,q=,dblquad(fun,xmin,xmax,ymin,ymax,tol,method,p1,p2,)%,将可选参数,p1,p2,.,等传递给函数,fun(x,y,p1,p2,),。若,tol,=,,,method=,,则使用缺省精度和算法,q
22、uad,。,二元函数重积分的数值计算,函数:,quad2dggen,功能:任意区域上二元函数的数值积分,格式,q=quad2dggen(fun,xlower,xupper,ymin,ymax)%,在由,xlower,xupper,ymin,ymax,指定的区域上计算二元函数,z=,f(x,y,),的二重积分。,q=,dblquad(fun,xlower,xupper,ymin,ymax,tol,)%,用指定的精度,tol,代替缺省精度,10,-6,,再进行计算。,二元函数重积分的数值计算,q=,dblquad(fun,xmin,xmax,ymin,ymax,tol,method,)%,用指定的算法,method,代替缺省算法。,method,的取值有缺省算法或用户指定的、与缺省命令有相同调用次序的函数句柄。,q=dblquad(fun,xlower,xupper,ymin,ymax,tol,method,p1,p2,)%,将可选参数,p1,p2,.,等传递给函数,fun(x,y,p1,p2,),。若,tol,=,,,method=,,则使用缺省精度和算法。,






