1、第七章第七章 数据分析建模办法数据分析建模办法(上上)建立数学模型是为了利用它有效地分析、建立数学模型是为了利用它有效地分析、处理现实问题处理现实问题,真实世界背景不容忽略真实世界背景不容忽略.通过观测、测量等手段搜集数据来自于现实通过观测、测量等手段搜集数据来自于现实世界世界,带有我们关注研究对象大量信息带有我们关注研究对象大量信息.数据作用于模型形式:数据作用于模型形式:1.建立数学模型初始研究阶段建立数学模型初始研究阶段,对数据分析有对数据分析有助于助于寻求变量间关系寻求变量间关系;第1页第1页部分模型完全建立部分模型完全建立在数据基础上在数据基础上.如数据拟合如数据拟合以及经验模型以及
2、经验模型 2.利用数据来预计模型中出现参数值利用数据来预计模型中出现参数值,称称为为模型参数预计模型参数预计.3.利用数据进行利用数据进行模型检查模型检查,通惯用实际数据,通惯用实际数据与模型运算出相应理论值进行比较与模型运算出相应理论值进行比较.数据是建立数学模型主要依据!数据是建立数学模型主要依据!第2页第2页7.1 数据搜集与整理数据搜集与整理 各种类型数据为我们结识事物内在规律、研各种类型数据为我们结识事物内在规律、研 究事物之间关系、预测事物此后也许发展等一究事物之间关系、预测事物此后也许发展等一 系列问题系列问题,提供了丰富材料和科学依据提供了丰富材料和科学依据.如何搜集、整理和分
3、析数据,如何搜集、整理和分析数据,挖掘有用结果?挖掘有用结果?着手建立模型时着手建立模型时,关于数据需考虑下列问题:关于数据需考虑下列问题:第3页第3页1.需要哪些以及何种形式数据需要哪些以及何种形式数据?2.如何去取得数据?如何去取得数据?如何表示数据?如何表示数据?3.如何对数据进行整理、分析?如何对数据进行整理、分析?获取方式获取方式图书馆文献检索图书馆文献检索网上资料检索网上资料检索问询相关部门人员问询相关部门人员试验、观测并统计试验、观测并统计第4页第4页 例例1 开水房拥挤成因分析数据采集开水房拥挤成因分析数据采集 有些人想分析出一所大学开水房拥挤原因有些人想分析出一所大学开水房拥
4、挤原因,并提出处理方案并提出处理方案.在连续一周中午在连续一周中午11:4012:20进行实地观进行实地观测测,得到开水房人到达情况数据得到开水房人到达情况数据 表表1 每每10秒到达人数及相应频数秒到达人数及相应频数人数人数012345678频数频数6613213111050221043 猜想也许是管道阻塞造成拥挤猜想也许是管道阻塞造成拥挤,统计下两组统计下两组数据数据,用于比较分析用于比较分析.第5页第5页表表2 管道通畅时用户打水时间及相应频数管道通畅时用户打水时间及相应频数 打水时间打水时间303540455055606570频数频数123221394打水时间打水时间758085909
5、5105125频数频数5352422表表3 管道阻塞时用户打水时间及相应频数管道阻塞时用户打水时间及相应频数 打水时间打水时间455565707580859095频数频数332341114打水时间打水时间100125130135160175205240300频数频数113211211第6页第6页 *需要什么形式数据需要什么形式数据,与建模目的和所选与建模目的和所选择模型特点相关择模型特点相关.分析数据就初步可找到开水房拥挤原因分析数据就初步可找到开水房拥挤原因.例例2 渡口模型数据性质渡口模型数据性质 船主搜集到有一组数据是船主搜集到有一组数据是:需要摆渡需要摆渡车辆中车辆中“平均平均40车为
6、轿车车为轿车,55车为卡车为卡车车,5车为摩托车车为摩托车.”.”第7页第7页 *搜集数据并非多多益善搜集数据并非多多益善,要善于剔除冗要善于剔除冗余数据余数据.平均值更含有代表性平均值更含有代表性,更如实地反应了渡口更如实地反应了渡口实际情况实际情况 其中其中“平均平均”两字至关主要两字至关主要,因一次摆渡因一次摆渡各类车所占百分比是无意义各类车所占百分比是无意义.需做较多次数观测得到一大批数据需做较多次数观测得到一大批数据,并求并求相应平均值得到上述数据相应平均值得到上述数据.第8页第8页 用用数学模型描述现实问题数学模型描述现实问题,模型中模型中参数参数预计预计、模型、模型求解求解以及模
7、型以及模型合理性合理性很大程很大程度取决于数据准确可信度取决于数据准确可信.试验数据中总存在试验误差试验数据中总存在试验误差 在建模工作各个环节在建模工作各个环节,试验数据误差试验数据误差都也许造成失之毫厘都也许造成失之毫厘,谬之千里失误谬之千里失误.第9页第9页实实 验验 误误 差差随机误差随机误差系统误差系统误差过失误差过失误差 由一系列偶然原因引起由一系列偶然原因引起一类不易控制测量误差一类不易控制测量误差.试验观测过程中服从拟定性试验观测过程中服从拟定性规律误差规律误差.明显歪曲试验结果误差明显歪曲试验结果误差.无法避免无法避免,可可增长试验次数增长试验次数,取算术平均取算术平均来减小
8、来减小.不能通过增长试验次数求算术平均值来不能通过增长试验次数求算术平均值来消除消除.可用一定办法可用一定办法辨认、消除辨认、消除.能够能够辨认辨认、并加以、并加以处理处理.第10页第10页 *在试验数据中在试验数据中,三类试验误差经常同时三类试验误差经常同时错综复杂存在着错综复杂存在着.控制试验数据质量控制试验数据质量整理试验数据整理试验数据消除试验误差消除试验误差主要工作主要工作办法:办法:1.用统计检查办法检查出异常数据;用统计检查办法检查出异常数据;参见电子科大概率论与数理统计参见电子科大概率论与数理统计p192“统计数据中异常值检查统计数据中异常值检查”.第11页第11页 3.依据经
9、验和实际背景知识做出试验数依据经验和实际背景知识做出试验数据检查修正据检查修正,异常数据舍弃处理异常数据舍弃处理.2.尽也许寻找产生异常点技术上或物理上原因,作为处理异常值依据.例例3 施肥效果分析施肥效果分析 某地域作物生长所需营养素主要是氮某地域作物生长所需营养素主要是氮(N)、钾钾(K)、磷、磷(P).(P).某作物研究所在某地域对土某作物研究所在某地域对土豆与生菜做了一定数量试验豆与生菜做了一定数量试验,试验数据以下试验数据以下列列表所表示表所表示,其中其中ha表示公顷表示公顷,第12页第12页t表示吨,表示吨,kg表示公斤表示公斤.当一个营养素施肥量当一个营养素施肥量改变时改变时,总
10、将另两个营养素施肥量保持在第总将另两个营养素施肥量保持在第七个水平上七个水平上,如对土豆产量关于如对土豆产量关于 N N施肥量做施肥量做试验时试验时,P与与 K施肥量分别取为施肥量分别取为 196kgha与与372kgha.试分析施肥量与产量之间关系试分析施肥量与产量之间关系,并对所得并对所得结果从应用价值与如何改进等方面做出估结果从应用价值与如何改进等方面做出估价价.第13页第13页施肥量施肥量(kg/ha)产量产量(t/ha)015.183421.366725.7210132.2913534.0320239.4525943.1533643.4640440.8347130.75施肥量施肥量(
11、kg/ha)产量产量(t/ha)034.462432.474936.067337.969841.0414740.0919641.2624542.1729440.3634242.73施肥量施肥量(kg/ha)产量产量(t/ha)018.984727.359334.8614039.9218638.4427937.7337238.4346543.8755842.7765146.22N P K第14页第14页经查阅农业资料可知:经查阅农业资料可知:2)在一定范围磷施肥量能够促使土豆在一定范围磷施肥量能够促使土豆产量增长产量增长,过多施磷肥对土豆产量不起作过多施磷肥对土豆产量不起作用用.1)氮(氮(N)施肥量在一定范围内)施肥量在一定范围内,土豆土豆产量随施肥量增长而增长产量随施肥量增长而增长,施肥量超出一施肥量超出一定范围后,土豆产量反而会减少定范围后,土豆产量反而会减少.对氮施对氮施肥量一土豆产量试验数据进行分析肥量一土豆产量试验数据进行分析,可认可认为其中没有明显异常点为其中没有明显异常点.第15页第15页能够认为能够认为y(0)、y(24)是病态数据是病态数据,并可取并可取y(0)与与y(49)一次线性插值一次线性插值 来取代来取代.记记 x为磷施肥量为磷施肥量,y(x)为土豆产量为土豆产量,磷施磷施肥量肥量土豆产量试验数据中有土豆产量试验数据中有第16页第16页