1、2024/9/2 周一1第五讲第五讲 数据分析处理数据分析处理建立数学模型建立数学模型解决现实问题解决现实问题目的真实世界的背景不容忽视真实世界的背景不容忽视需要收集、分析背景数据需要收集、分析背景数据数据作用于模型的形式:数据作用于模型的形式:初期:初期:寻求变量间的关系寻求变量间的关系中期:中期:模型参数估计模型参数估计后期:后期:模型检验模型检验2024/9/2 周一21.建立数学模型的初始研究阶段,对数据的建立数学模型的初始研究阶段,对数据的 分析有助于分析有助于寻求变量间的关系寻求变量间的关系部分模型完全建立在数据的基础上部分模型完全建立在数据的基础上如如数据拟合以及经验模型数据拟合
2、以及经验模型 2.利用数据来估计模型中出现的参数值,称利用数据来估计模型中出现的参数值,称为为模型参数估计模型参数估计3.利用数据进行利用数据进行模型检验模型检验:通常用实际数据:通常用实际数据对模型得到的理论值进行检验对模型得到的理论值进行检验 数据是建立数学模型的重要依据!数据是建立数学模型的重要依据!2024/9/2 周一31 数据的收集与整理数据的收集与整理 各种类型的数据为我们认识事物的各种类型的数据为我们认识事物的内在规律内在规律、研研 究究事物之间的关系事物之间的关系、预测预测事物今后的可能发事物今后的可能发展等一展等一 系列问题,提供了丰富的材料和科学依系列问题,提供了丰富的材
3、料和科学依据。据。如何收集、整理和分析数据,如何收集、整理和分析数据,挖掘有用结果?挖掘有用结果?2024/9/2 周一4着手建立模型时,关于数据需考虑以下问题:着手建立模型时,关于数据需考虑以下问题:1.需要哪些以及何种形式的数据需要哪些以及何种形式的数据?2.2.如何去获得数据?如何去获得数据?怎样表达数据?怎样表达数据?3.如何对数据进行整理、分析?如何对数据进行整理、分析?获获取取方方式式图书馆文件检索图书馆文件检索网上资料检索网上资料检索询问相关部门人员询问相关部门人员试验、观察并记录试验、观察并记录2024/9/2 周一5例例1 有人想分析出一所大学开水房拥挤的有人想分析出一所大学
4、开水房拥挤的原因,并提出解决方案。原因,并提出解决方案。例例1 开水房拥挤成因分析数据采集开水房拥挤成因分析数据采集 需要什么形式的数据,与建模目的和所选择需要什么形式的数据,与建模目的和所选择的模型的特点有关。的模型的特点有关。例例2 渡口模型数据性质渡口模型数据性质收集数据并非多多益善收集数据并非多多益善,要善于剔除冗余数据要善于剔除冗余数据2024/9/2 周一6 用用数学模型描述现实问题,数学模型描述现实问题,模型中模型中参数的估计参数的估计、模型的模型的求解求解以及模型的以及模型的合理性合理性很大程度取决于数很大程度取决于数据的准确可信。据的准确可信。实验数据中总存在实验误差实验数据
5、中总存在实验误差 在建模工作的各个环节,实验误差都可能在建模工作的各个环节,实验误差都可能造成造成失之毫厘,谬之千里失之毫厘,谬之千里的失误。的失误。2024/9/2 周一7实实 验验 误误 差差随机误差:随机误差:系统误差:系统误差:过失误差:过失误差:由一系列偶然因素引起的一类由一系列偶然因素引起的一类不易控制的测量误差。不易控制的测量误差。实验观察过程中服从确定性规实验观察过程中服从确定性规律的误差。律的误差。明显歪曲实验结果的误差。明显歪曲实验结果的误差。v 无法避免,可无法避免,可增加试验次数,取算术增加试验次数,取算术平均平均来减小。来减小。v 不能通过增加实验次数求算术平均值不能
6、通过增加实验次数求算术平均值来消除。但可用其他方法来消除。但可用其他方法识别、消除识别、消除。v 可以可以识别识别、并加以、并加以处理。处理。2024/9/2 周一8在实验数据中,三类实验误差常常在实验数据中,三类实验误差常常同时错综复杂的存在着。同时错综复杂的存在着。控制实验数据的质量控制实验数据的质量整理实验数据整理实验数据消除实验误差消除实验误差重重要要工工作作2024/9/2 周一9例例3 施肥效果分析施肥效果分析 误差的处理方法:误差的处理方法:1.用用统计检验统计检验方法检验出异常数据;方法检验出异常数据;2.尽可能寻找产生异常点的技术上或物理上的尽可能寻找产生异常点的技术上或物理
7、上的 原因原因,作为处理异常值的依据,作为处理异常值的依据。3.根据经验和实际背景知识做出实验数据的检根据经验和实际背景知识做出实验数据的检查查修正修正,异常数据的舍弃处理。,异常数据的舍弃处理。2024/9/2 周一102 经经 验验 模模 型型 一一.基于数据分析的建模方法基于数据分析的建模方法 在建立数学模型的过程中,经常在建立数学模型的过程中,经常需要建立变需要建立变量之间的关系量之间的关系,但往往由于对研究对象的内部机,但往往由于对研究对象的内部机理不甚了解,不能通过合理的假设,或根据物理理不甚了解,不能通过合理的假设,或根据物理定律、原理,经过机理分析法而得到。定律、原理,经过机理
8、分析法而得到。可借助于由实验或可借助于由实验或测量得到测量得到的一批离散数据,的一批离散数据,通过对数据充分观察和通过对数据充分观察和分析分析,获得数据所含信息,获得数据所含信息,揭示变量间的内在联系,并选择适当的数学式对揭示变量间的内在联系,并选择适当的数学式对变量间的关系进行变量间的关系进行拟合拟合,建立经验模型,或者进,建立经验模型,或者进行数据曲线拟合。行数据曲线拟合。2024/9/2 周一11两两类类变变量量关关系系 确定性关系确定性关系:确定的函数关系。:确定的函数关系。相关关系:相关关系:存在相依关系,但未达到存在相依关系,但未达到 相互确定的程度。相互确定的程度。两两类类数数据
9、据 一类是已知规律(函数)的测试数一类是已知规律(函数)的测试数据(在特定时间点或距离上的数据)。据(在特定时间点或距离上的数据)。另一类数据呈现随机性,可看成具另一类数据呈现随机性,可看成具有某种概率分布的随机样本值。有某种概率分布的随机样本值。2024/9/2 周一121.数据拟合法数据拟合法(适用于第一类数据)(适用于第一类数据)基本思想:基本思想:已知函数已知函数 y=f(x)的一组测试数据的一组测试数据 (xi,yi),(i=1,2,n),要寻求一个函数要寻求一个函数(x),使,使(x)对上述测试数据对上述测试数据的误差较小,即的误差较小,即(xi)yi,于是可以用,于是可以用(x)
10、来来近似替代近似替代f(x)。常用的数据拟合方法常用的数据拟合方法:一般插值法、最小二一般插值法、最小二乘法、样条函数光顺法等。乘法、样条函数光顺法等。针对两种不同类型的数据,有不同的建立针对两种不同类型的数据,有不同的建立模型方法:模型方法:2024/9/2 周一13插值法的基本思想插值法的基本思想:寻找寻找 f(x)的近似替代函数的近似替代函数(x),在插值节点在插值节点xi 上满足上满足 (xi)=yi,(i=1,2,,n),其余点用其余点用(x)近似替代近似替代f(x),称称(x)为为f(x)的的插值函数插值函数。最小二乘法基本思想最小二乘法基本思想:寻找寻找 f(x)的近似替代函数的
11、近似替代函数(x),使使min.2.回归分析方法回归分析方法 对于随机数据进行拟合,用到统计学中的回对于随机数据进行拟合,用到统计学中的回归分析方法。归分析方法。2024/9/2 周一14二经验模型的建立二经验模型的建立 以上两种建模方法都是建立在对数据进行充分以上两种建模方法都是建立在对数据进行充分分析的基础上。分析的基础上。寻找或选择适当的函数拟合变量之间的关系寻找或选择适当的函数拟合变量之间的关系(函数关系或回归关系)是重要的环节。(函数关系或回归关系)是重要的环节。一一般般步步骤骤 1)绘制数据散布图(或连线图);)绘制数据散布图(或连线图);2)分析数据散布图(或连线图)分析数据散布
12、图(或连线图);3)选择函数关系形式。)选择函数关系形式。通过分析数据散布图可以获得对变量间关系通过分析数据散布图可以获得对变量间关系的感性认识,形成初步的看法,以便于对问题的感性认识,形成初步的看法,以便于对问题做进一步的分析。做进一步的分析。2024/9/2 周一152)分析数据散布图;)分析数据散布图;对数据散布图进行分析,可以分析出变量的对数据散布图进行分析,可以分析出变量的关系是:关系是:1)线性的还是非线性的?)线性的还是非线性的?2)有无周期性?)有无周期性?3)呈现何种变化趋势?变化率如何)呈现何种变化趋势?变化率如何?,等等有用的初步结论。等等有用的初步结论。例例2.1 建立
13、一个简洁的函数关系式来描述建立一个简洁的函数关系式来描述某个地区人的身高和体重的对应关系,数据见表某个地区人的身高和体重的对应关系,数据见表7.4(p156)。)。曲线特征是体重曲线特征是体重W 随身高随身高H 的增长而单调增的增长而单调增长,但可以观察到是非线性增长。长,但可以观察到是非线性增长。2024/9/2 周一16 1.氮施肥量氮施肥量N、磷施肥量磷施肥量 P 关于土豆产量的数关于土豆产量的数据散布图据散布图(P157图图7.2及及图图7.3)。)。2.海浪潮高度海浪潮高度x 随时间随时间t 的数据散布图。的数据散布图。练习练习试分析试分析3)选择函数关系形式。)选择函数关系形式。1
14、.形式尽可能简洁,尽可能线性化;形式尽可能简洁,尽可能线性化;原则原则2.依据实际问题的精度要求,合乎实际规律。依据实际问题的精度要求,合乎实际规律。续例续例2.1 选择幂函数选择幂函数 W=,描述描述身高体重关系。身高体重关系。优点优点:此函数可以线性化。此函数可以线性化。2024/9/2 周一17两边取对数,有两边取对数,有令令 变换为线性函数变换为线性函数 y=ax+b 例例2.2 可选二次函数可选二次函数 y=b0+b1 x+b2 x2 描述氮肥施肥量与土豆产量间的变量关系。描述氮肥施肥量与土豆产量间的变量关系。注:注:其中其中 b0=y(0)=15.18 关于磷肥施肥量和土豆产量的变
15、量关系可选择关于磷肥施肥量和土豆产量的变量关系可选择威布尔模型:威布尔模型:2024/9/2 周一18合理性合理性有有 1.2.3.y是单调升函数是单调升函数;也可以选择也可以选择S 函数函数:S函数也满足:函数也满足:1.当当2.3.y 是单调升函数;是单调升函数;哪个模哪个模型更好型更好?2024/9/2 周一19分析:分析:S 模型所含参数更少,另外若令模型所含参数更少,另外若令可得线性模型可得线性模型2024/9/2 周一203 模型的参数估计模型的参数估计 数学建模数学建模的一个重要工作是建立变量间的数的一个重要工作是建立变量间的数学学关系式关系式,但公式中几乎总是涉及一些,但公式中
16、几乎总是涉及一些参数参数。如用下面三个数学式描述肥素的施肥水平对如用下面三个数学式描述肥素的施肥水平对 土豆产量的影响:土豆产量的影响:氮肥氮肥:yb0十b1xb3x2磷肥:磷肥:或或 y=ABeCx要得到最终可应用于实际的经验模型,要得到最终可应用于实际的经验模型,必须确定公式中的各个参数。必须确定公式中的各个参数。2024/9/2 周一21求模型中参数的估计值有三种常用方法:求模型中参数的估计值有三种常用方法:图解法、统计法、机理分析法图解法、统计法、机理分析法 对经验模型的精度要求不高,只需对参数做对经验模型的精度要求不高,只需对参数做出粗略估计时可采用图解法。出粗略估计时可采用图解法。
17、例例3.1 磷施肥量与土豆产量的关系式磷施肥量与土豆产量的关系式 y=ABeCx 需估计三个参数需估计三个参数A、B、C,观察图,观察图7.3,数据数据点都位于直线点都位于直线 y=43的下方,并且数据点越来越靠的下方,并且数据点越来越靠近这条直线,近这条直线,可以估计可以估计A=43。1图解法图解法2024/9/2 周一22例例3.23.2(见(见P158P158例例7.2.17.2.1)表中给出了表中给出了1212月月1 1日日(星期二)和(星期二)和1212月月2 2日(星期三)两天内的海浪日(星期三)两天内的海浪潮高度值(相对于海堤上的零标尺记号,以米潮高度值(相对于海堤上的零标尺记号
18、,以米为单位)。我们能依据此表来预测为单位)。我们能依据此表来预测1212月月5 5日(星日(星期六)下午期六)下午1 1:0000的海浪高度值吗?的海浪高度值吗?分析:分析:根据对数据散布图的分析根据对数据散布图的分析,采用函数采用函数 x(t)=asinb(tt*),其中其中x(t*)=0 (1)或采用函数或采用函数 x(t)=asin(bt)+ccos(bt)(2)需估计振幅需估计振幅 a 和和 频率频率b解决方法:解决方法:直接量出高低浪之间的高度差为直接量出高低浪之间的高度差为6.66.6米,米,(米)(米)2024/9/2 周一23量出海浪变化周期约为量出海浪变化周期约为12.3小
19、时小时(每小时)(每小时)得经验模型得经验模型 x(t)=3.3sin0.511(tt*)t0。将频率的估计代入(将频率的估计代入(2)式,有)式,有x(t)=asin(0.511t)+ccos(0.511t)代入代入x(0)=c=2.4 及及 x(23)=3.6 得关于海浪潮随时间变化的另一经验模型得关于海浪潮随时间变化的另一经验模型x(t)=2.4cos(0.511t)2.7sin(0.511t),t0。模型应用模型应用预测预测1212月月5 5日下午日下午1:001:00的海浪潮高度为的海浪潮高度为 2024/9/2 周一24x(109)=2.4cos(5.11109)2.7sin(5.
20、11109)=2.4cos(55.7)2.7sin(55.7)=2.4cos(5.4302.7sin(55.7)3.6(米米)误差分析:误差分析:这一时刻潮位的实际观察值为这一时刻潮位的实际观察值为4.1米,米,相对误差大约是相对误差大约是12%,请考虑一下成因请考虑一下成因。思考:思考:仔细分析图仔细分析图5.5,可发觉图中,可发觉图中(1)x=0似乎不是海浪高低潮位的中值似乎不是海浪高低潮位的中值;(2)振幅随时间的延续似乎在轻微地增大。振幅随时间的延续似乎在轻微地增大。我们怎样考虑这些细节来修改模型,以获得我们怎样考虑这些细节来修改模型,以获得更准确的预报呢?更准确的预报呢?参数估计的统
21、计处理,往往运用最小二乘法参数估计的统计处理,往往运用最小二乘法估计。估计。2.统计法统计法 2024/9/2 周一25设有一组样本值设有一组样本值:(x1,y1),(),(x2,y2),),(,(xn,yn),),对选定的一元回归函数对选定的一元回归函数(x)(x),回归模型为,回归模型为 Y=(x),N(0,2)令令 =(xi),i=1,2,n,称称S=为模型的残差平方和。为模型的残差平方和。应选取应选取(x)中的未知参数中的未知参数,使使S达最小值达最小值。当回归函数为当回归函数为(x)=a+bx,回归模型回归模型 Y=a+b x+,N(0,2)2024/9/2 周一26称为一元线性回归
22、模型,其残差平方和为称为一元线性回归模型,其残差平方和为S=对对S 分别求关于分别求关于 a,b 的偏导数,并令其等于零的偏导数,并令其等于零得得整理得正规方程(组)如下:整理得正规方程(组)如下:2024/9/2 周一27有有其中其中一元线性回一元线性回归模型参数归模型参数估计公式估计公式2024/9/2 周一28 部分非线性回归函数经变量代换可化为线性部分非线性回归函数经变量代换可化为线性函数,利用线性函数,利用线性参数估计公式进行估计,参数估计公式进行估计,如如 例例3.1 磷施肥量和土豆产量磷施肥量和土豆产量 的回归函数选为的回归函数选为令令对数据进行相应变换,可估计出对数据进行相应变
23、换,可估计出 2024/9/2 周一29=0.0232,=0.0073,得到磷施肥量和得到磷施肥量和土豆产量的经验公式土豆产量的经验公式x0分析:分析:有有 ,与目测法的结论惊人一致。,与目测法的结论惊人一致。例例3.2 若若 用威布尔函数作为磷施肥量和土用威布尔函数作为磷施肥量和土豆产量豆产量 的回归函数的回归函数y=43BeCx,x0 令令 z=43y,得得 z=BeCx,x0 两边取对数两边取对数,有有2024/9/2 周一30 lnzlnBCx相对于新变量相对于新变量x x,lnzlnz,这是一元线性函数。,这是一元线性函数。特点:特点:统计分析法应用于变量间存在相关关系统计分析法应用于变量间存在相关关系的情形,并且需要较多数据为基础。的情形,并且需要较多数据为基础。3机理分析法机理分析法 通过对问题的内部机理进行分析,找出变量通过对问题的内部机理进行分析,找出变量间的因果关系,从而确定出参数。间的因果关系,从而确定出参数。例例3.3 录像机磁带计数器模型录像机磁带计数器模型 注注1.由于数据个数太少由于数据个数太少,不能用统计法估计参数不能用统计法估计参数2.这里采用机理分析法求参数的估计值,可这里采用机理分析法求参数的估计值,可利用的数据个数已是允许的最少个数了。利用的数据个数已是允许的最少个数了。