1、第一章数据分析模型,1.1,薪金到底是多少,1.2,评选举重总冠军,1.3,估计出租车的总数,1.4,解读,CPI,1.5 NBA,赛程的分析与评价全国,大学生数学建模竞赛,2008,年,D,题,1.,数据分析模型,1.1,薪金到底是多少,日常生活中遇到,的,数据,:,一个班,的,考试成绩及按成绩的排,名,一个年级全部男同学的身高,超市中各个品牌牙膏一个月的销量,公司里每位职工一个月的薪金,用,几,个数简明地,表示,一组数据,整体,的大小,.,n,个数据的代表数,平均数,n,个数据的算术平均值,.,n,个数据的,代表数,中位数,n,个数据从小到大,(或从大到小),排序,位于正中的数,.,若,n
2、为偶数,取位于正中的,2,个数的平均值,.,众数,n,个数据中出现次数最多的那个,(,或几个,),数,.,3,个,代表数,反映一组数据,整体,大小的,不同侧面,.,某公司,100,位,职工的月薪,/,千元,月薪,40,25,20,15,10,8,6,5,4,3,人数,1,2,6,8,12,17,18,24,10,2,薪金到底是多少,平均数,:,8.6,千元,.,中位数,:,6,千元,(,第,50,、,51,人都是,6000,元,),.,众数,:,5,千元,(,5,千元,的人数最多),.,公司高层对外宣传,.,工会干部为职工争取福利,.,税务部门调查个人所得税的起征点,.,3,个代表数的特点,
3、平均数,平等利用每一数据的信息,反映数据整体,大小,;,有方便的计算公式,应用最广,.,受少数特大或特小数据影响,,会,失去代表性,.,中位数,只取决于按大小排列的位置,不受特大或,特小数据影响,能反映数据的中等水平,.,未,充分利用信息,;,数据量大时计算较繁,.,众数,常作为选择,“,最多,”,“,最佳”的依据,.,未,充分利用信息,;“,并列第一,”,时,无法,做,唯一抉择,.,如何,选用代表数,与,10,年前同龄男生身高作对比,估计增长量,.,数据:,某高三年级全部男同学的身高,.,定制校服尺寸的参考,.,数据:,生产小组,15,个工人每人一天生产零件的数目,与其他小组比较,作为评选先
4、进的参考,.,制定标准日产量,使多数人能超产,.,平均数,众数,平均数,中位数,数据,:,班上,20,名学生一次考试成绩,:,15,人,80,分,,2,人,90,分,,1,人,10,分,,1,人,15,分,,小李,75,分,.,如何,选用代表数,与其他班级或本班以前成绩对比,.,小李衡量自己,的,标准,.,其他代表数,平均分,74,分,中位数,80,分,高于平均分,!,倒数第,3,名,!,跳水比赛的评分标准,7,位裁判,的,分数去掉一个最高分和一个最低分,剩下,5,个分数,的,总和乘以动作难度系数,为最后得分,.,中位数和平均数的结合,哪种解读更有道理,某股份制公司,50,名职工和,5,位股东
5、近,3,年的利润分配,年份,职工薪金总额,/,万元,股东分红总额,/,万元,2011,300,100,2012,400,150,2013,500,200,职工薪金,股东分红,500,400,300,200,100,2011 2012 2013,a.,总额,/,万元,职工薪金,股东分红,200,150,100,2011 2012 2013,b.,增长率,/,%,职工薪金,股东分红,40,30,20,10,2011 2012 2013,c.,人,均,/(,万元,/,人,),公司老板:,职工薪金比股东分红增长得更多、更快,可谓有福同享,.,哪种解读更有道理,工会负责人,:,2013,年职工薪金增长到
6、167%,,股东分红增长到,200%,,应更顾及职工利益,.,职工,:,与股东,人,均分红相比,职工,人,均薪金增长得太慢,呼吁大幅度增加职工的薪金,.,职工薪金,股东分红,500,400,300,200,100,2011 2012 2013,a.,总额,/,万元,职工薪金,股东分红,200,150,100,2011 2012 2013,b.,增长率,/,%,职工薪金,股东分红,40,30,20,10,2011 2012 2013,c.,人,均,/(,万元,/,人,),哪种解读更有道理,职工薪金,股东分红,500,400,300,200,100,2011 2012 2013,a.,总额,/,
7、万元,职工薪金,股东分红,200,150,100,2011 2012 2013,b.,增长率,/,%,职工薪金均值,股东分红均值,40,30,20,10,2011 2012 2013,c.,均值,/(,万元,/,人,),k,=0,1,2 (2011,2012,2013),x,k,职工薪金总额,y,k,股东分红总额,x,k,斜率,大于,y,k,斜率,y,k,/,y,0,斜率,大于,x,k,/,x,0,斜率,斜率相差,5,倍,职工薪金,增长快,股东分红增长快,股东,人,均分红增长快,数值随时间的变化可以用绝对增长,或,相对增长表示,二者说明,同,一问题的不同侧面,.,小结与评注,同样的一组数据可以
8、有,不同的表述和解读,办法,取决于,要说明什么问题,达到什么目的,.,3,个常用的代表数,:,平均数、中位数和众数,具有,各自,的特点和用法,.,举重,1.2,评选举重总冠军,依靠运动员全身力量完成,的体育项目,按照运动员体重划分,级别,进行比赛,.,赛艇,拳击,摔跤,每个级别都,有,一个,冠军,.,能评选出一个,“,总冠军,”,吗?,56kg,62kg,69kg,77kg,85kg,94kg,105kg,105kg,以上,.,1.2,评选举重总冠军,男子举重比赛按运动员体重,(,上限,),分为,8,个级别,:,问题,每个级别设,3,个项目:抓举、挺举,、,总成绩,.,每个级别,、每个项目都产
9、生,一个冠军,.,同一项目,(,如抓举,),的,8,个冠军,中,怎样,选出,“,总冠军,”,?,不同级别冠军成绩,按体重,“,折合,”,到,某个标准级别,比较,折合成绩,,选出最高的作为,总冠军,.,1.2,评选举重总冠军,问题分析,比赛,产生,各级别冠军成绩的,实际值,建立体重与举重成绩的,数学模型,计算各级别冠军举重成绩的,理论值,计算实际值与理论值的,比值,构造一个简单、合适的指标作为,折合成绩,各级别冠军折合成绩最,高的,为,总冠军,数据收集,利用举重比赛的,世界纪录,建立,数学模型,.,62 kg,级,抓举,153 kg,石智勇(中国),2002.6.28,世界大学生举重锦标赛,挺举
10、182 kg,乐茂盛(中国),2002.10.2,第,14,届亚洲运动会,总成绩,327 kg,金恩国(朝鲜),2012.7.31,伦敦第,30,届奥运会,69 kg,级,抓举,165 kg,马尔科夫(保加利亚),2000.9.20,悉尼第,27,届奥运会,挺举,198 kg,廖辉,(中国),2013.10.23,2013,年世界举重锦标赛,总成绩,358 kg,廖辉(中国),2013.10.23,2013,年世界举重锦标赛,级别,项目,纪录,纪录保持者,日期,比赛名称,多年积累下来的世界记录与某一次比赛成绩相比,更能避免偶然性,.,不同级别成绩的差别基本上由运动员体重决定,.,不掌握创造记
11、录的运动员的实际体重,.,因为,体重越大、举得越重,比赛时运动员体重都会调整到非常接近各级别的上限,.,105,kg,以上级未设上限,只,在其余,7,个级别中选总冠军,.,数据收集,利用举重比赛的,世界纪录,建立,数学模型,.,用,每个级别的,上限,代表运动员的实际体重,.,世界记录与体重数据,的,散点图,数据分析,大致呈线性关系,大级别成绩的增加变慢,线性关系有所改进,幂函数,(,幂次小于,1),可能更合适,世界记录,体重,普通坐标,世界记录,体重,对数坐标,建立举重,总成绩,y,与,运动员,体重,w,的,数学,模型,模型建立,模型,1,线性模型,最小二乘法编程计算,k,=2.7039,-6
12、0,k,430/160=2.69,估算,线性模型,y,w,430,160,模型,2,幂函数模型,运动生理学,确定幂函数的幂次,举重,总成绩,y,与,运动员,体重,w,的模型,s,肌肉截面积,l,身体尺寸,最小二乘法编程计算,k,=20.4711,幂函数模型,y,w,2/3,模型,3,幂函数改进模型,举重,总成绩,y,与,运动员,体重,w,的模型,最小二乘法,举重过程中力量的损失及身体尺寸的变化,.,50,名顶尖运动员成绩,的,统计分析,幂函数,改进,模型,非肌肉部分,举重,总成绩,y,与,运动员,体重,w,的模型,线性模型,幂函数模型,幂函数,改进,模型,级别,总成绩纪录,线性模型,幂函数模型
13、幂函数改进模型,56 kg,级,305 kg,313.6486 (-2.76%),299.6405 (1.79%),298.2689 (2.26%),62 kg,级,327 kg,329.8718 (-0.87%),320.6784 (1.97%),324.3317 (0.82%),69 kg,级,358 kg,348.7988 (2.64%),344.3827 (3.95%),350.2363 (2.22%),77 kg,级,379 kg,370.4298 (2.58%),370.5121 (2.56%),375.7952 (1.12%),两个幂函数模型比线性模型改进,不大,.,1.71%
14、2.32%1.47%,总平均误差,评选总冠军,w,i,(,i,=1,2,7),从轻到重,7,个级别,的,体重,(,上限,),线性模型,幂函数模型,幂函数,改进,模型,各级别冠军的,理论成绩,y,i,一次比赛中各级别冠军的,实际成绩,级别,i,冠军在评选总冠军中,实力,以,线性模型,为例,评选总冠军,任取级别,i,=4(,w,4,=77kg,级,),为,标准,使,z,4,=,y,4,与,实力,成正比的,指标,按,7,个级别冠军的折合成绩排名,第一者为,总冠军,.,将体重折合成,77kg,级后级别,i,冠军的实际成绩,.,折合成绩,模型中系数,k,随世界纪录的刷新而改变,.,评选总冠军,折合成绩,
15、线性模型,幂函数模型,幂函数,改进,模型,评选,2008,年北京奥运会男子举重比赛,总冠军,级别,冠军获得者,总成绩,折合成绩及名次,线性模型,幂函数模型,幂函数改进模型,56 kg,级,龙清泉(中),292 kg,344.8621,(,7,),361.0644,(,5,),367.8969,(,4,),62 kg,级,张湘祥(中),319 kg,358.2213,(,6,),368.5729,(,3,),369.6175,(,3,),69 kg,级,廖辉(中),348 kg,369.5814,(,2,),374.4039,(,1,),373.3957,(,1,),77 kg,级,史才秀(韩)
16、366 kg,366.0000,(,3,),366.0000,(,4,),366.0000,(,6,),85 kg,级,陆永(中),394 kg,372.2621,(,1,),368.8735,(,2,),371.7543,(,2,),94 kg,级,伊利亚(哈),406 kg,361.1818,(,5,),355.4413,(,6,),362.5143,(,7,),105 kg,级,阿拉姆诺夫(白),436 kg,362.0121,(,4,),354.5581,(,7,),367.7366,(,5,),69 kg,级,廖辉(中),348 kg,369.5814,(,2,),374.4039
17、1,),373.3957,(,1,),3,个模型中都,只有一个,以因子形式出现的,系数,k,可以在,构造折合成绩,时消去,便于评选,总冠军,.,小结与评注,举重成绩与体重,关系,的数学模型,是评选总冠军方法的基础,.,通过世界纪录,数据观察,和,机理分析,分别,建立线性模型、幂函数模型和幂函数改进模型,.,1.3,估计出租车的总数,一些人喜欢,记驶过身旁,的,汽车,牌,号,.,两难境地的决策,与朋友打赌的“骰子”,共识,:,出现,任何号码汽车的,机会,相同,.,随意记下驶过的,10,辆出租车牌号:,0421,0128,0702,0410,0598,0674,0712,0529,0867,
18、0312,估计这座城市出租车的总数,.,出租车牌号从某一个数字,0101,按顺序发放,.,1.3,估计出租车的总数,问题分析,0,x,0,x,1,x,2,x,3,x,4,x,5,x,6,x,7,x,8,x,9,x,10,x,10,个号码从小到大重新排列,.,x,0,x,区间内全部整数值,总体,x,1,x,2,x,10,总体的一个,样本,根据样本和,x,0,对总体的,x,作出估计,.,起始号码,(,已知,),终止号码,(,未知,),出租车总数为,x-x,0,+,1,起始号码,x,0,平移为,0001,模型建立,总体,全部号码,0001,0002,x,样本,总体中的,n,个号码从小到大排列,x,1
19、x,2,x,n,建立由,x,1,x,2,x,n,估计,x,的模型,基本假定,:,每个,x,i,取自总体中任一号码的概率相等,.,x,出租车总数,1.3,估计出租车的总数,模型,1,平均值模型,模型建立,总数是样本均值的,2,倍,模型,2,中位数模型,x,0,=1,x,1,x,2,x,3,x,n,-1,x,n,x,x,1,-1,x,-,x,n,假定,:,样本的最小值与最大值在总体中对称,.,模型,3,两端间隔对称模型,x,1,-1=,x,-,x,n,模型,4,平均间隔模型,把起始号码和样本排成数列:,1,x,1,x,2,x,n,相邻两数,有,n,个间隔,:,x,1,1,x,2,x,1,1,x,
20、n,x,n,-1,1,n,个间隔,的,平均值,作为,x,n,与,x,间隔的估计,模型,5,区间均分模型,将总体区间,1,x,平均分成,n,份,.,每个小区间长度,假定,:,样本中每个,x,i,都位于小区间的中点,.,x,x,n,应是小区间长度的一半,计算与分析,第,1,样本,:,0321,0028,0602,0310,0498,0574,0612,0429,0767,0212,第,2,样本,:,0249,0739,0344,0148,0524,0284,0351,0089,0206,0327,设,定,x,0,=0001,模型,1,模型,2,模型,3,模型,4,模型,5,最大相差,第,1,样本,
21、870,926,794,843,807,134,第,2,样本,651,610,827,812,778,217,相差,221,316,33,31,29,用,5,个模型估计出租车总数,x,不合理,(,x,=,651,610 739,),651,610,0739,不稳定(相差大),1.,平均值模型,2.,中位数模型,3.,两端间隔对称模型,4.,平均间隔模型,5.,区间均分模型,计算与分析,用全部样本,有,统计依据,数值模拟,样本估计结果与总体对比,评价各,个,模型,.,用,5,个模型分别对,每个,样本估计总体,x.,画,m,个样本估计的,x,的直方图,,,分析,x,的分布,.,给定总体,1,2,x
22、x,=1000,从,总体,中,取,n,=10,个数为一个样本,,共,m,=200,个,样本,对每个模型,计算,m,个样本估计的,x,的,平均值,、,标准差,及平均值,与真值,x,=1000,间,的误差,模型,1,模型,2,模型,3,模型,4,模型,5,平均值,1023.2,1037.4,1010.0,1005.6,962.3,平均值误差,23.2,37.4,10.0,5.6,-37.7,标准差,170.1,261.0,126.3,90.9,87.0,模型,1,模型,2,模型,3,模型,4,模型,5,平均值,986.5,985.4,980.8,992.9,950.1,平均值误差,-13.5
23、14.6,-19.2,-7.1,-49.9,标准差,181.4,271.1,107.9,86.6,82.8,数值模拟,第,1,次,模拟,第,2,次,模拟,总体,x,=1000,每个样本,n,=10,m,=200,个,样本,平均值误差,小,标准差,大,标准差,小,平均值误差,大,模型,4(,平均间隔模型,),较优,.,5.6,90.9,-7.1,86.6,模型,1,模型,2,模型,3,模型,4,模型,5,数值模拟,第,1,次模拟的直方图,左低右高的非对称型,左右对称,型,模型,中,起始号码已知,(,平移至,1),限制了应用范围,.,小结与评注,5,个模型,中,平均值和中位数模型用,到,一点统
24、计,,,其他,3,个模型来自常识,后者,竟然,较前者更优,.,数值模拟,是,模型检验,的重要方法,:,给定总体通过模拟产生样本,根据模型得到总体参数,进行比较和评价,.,问题:,哪些模型可以推广到起始号码未知,的情况?,与“估计出租车的总数”相关的历史事实,二战中一支盟军,的,指挥部急需掌握德军,坦克的数量,.,盟军俘获了若干辆德军坦克,得到它们的,序列号码,.,情报人员获知这支,部队的,坦克号码,按顺序编排,.,以俘获的坦克号码为,样本,,,估计,出坦克,总量,.,英美情报机构通过捕获德军武器,的,序列编号,对军用轮胎、枪支、装甲车等众多装备的产量做出估计,.,战后将估计值与从档案中得到的实
25、际产量进行比较,多数估计的,误差在,10%,以内,!,1.4,解读,CPI,CPI,(,C,onsumer,P,rice,I,ndex),居民消费价格指数,每月,9,日左右国家统计局发布上月全国,CPI,数据,.,反映购买消费品和服务项目时价格变动趋势的数字,.,观察通货膨胀水平的重要指标,.,从,数学建模的思路,按照数据分析方法解读,CPI.,按照时间顺序解读,CPI,环比,价格指数,以,上月为基期,进行对比,消除季节变化和节日对价格的影响,同比,价格指数,反映当前价格的波动,以,上年同月为基期,进行对比,通常公布价格指数,增长率,(%),方便,了解价格上涨幅度,2011.3,环比增长率,-
26、0.2%,2011.2,环比增长率,1.2%,基期指数,100,2011.3,同,比增长率,5.4%,环比指数,101.2,(2011.1,为,100),同,比指数,105.4,(2010.3,为,100),环比指数,99.8,(2011.2,为,100),月份,k,1,2,3,4,5,6,7,8,9,10,11,12,环比,(%),1.0,1.2,0.2,0.1,0.1,0.3,0.5,0.3,0.5,0.1,0.2,0.3,全国,2011,年,CPI,各月份,环比增长率,环比,价格指数,p,k,某年,k,月环比增长率,(%),P,k,以上年,12,月为基期,本,年,k,月,的,价格指数,p
27、k,为正,P,k,上升,p,k,为负,P,k,下降,p,k,涨幅回落,P,k,上升变缓,2011CPI,环比,月份,k,1,2,3,4,5,6,7,8,9,10,11,12,2011,4.9,4.9,5.4,5.3,5.5,6.4,6.5,6.2,6.1,5.5,4.2,4.1,2012,4.5,3.2,3.6,3.4,3.0,2.2,1.8,2.0,1.9,1.7,2.0,2.5,q,k,某年,k,月同比增长率,(%),同比,价格指数,全国,2011,2012,年,CPI,各月份,同,比增长率,2012,年比,2011,年每月价格上涨的幅度明显减少,.,q,k,(,j,),j,年,k,月,
28、同比,指数,环比,价格指数,与,同比,价格指数,的关系,p,k,(,j,),j,年,k,月,环比,指数,x,k,(,j,),j,年,k,月价格指数(以,j,-2,年,12,月为基期),从,1,月到,k,月以上年同一,时期,为基期进行对比,.,累计,价格指数,月份,k,1,2,3,4,5,6,7,8,9,10,11,12,同,比,(%),4.5,3.2,3.6,3.4,3.0,2.2,1.8,2.0,1.9,1.7,2.0,2.5,累计,(%),4.5,3.9,3.8,3.7,3.5,3.3,3.1,2.9,2.8,2.7,2.7,2.6,全国,2012,年,CPI,各月份,同,比,增长率,和,
29、累计,增长率,第,k,月的累计是,1,月,至,k,月同比的平均值,(,k=,1,2,,,,,12,),几,个月的价格指数,以其各,个月价格指数的平均值,度量,.,年,价格指数,每年,1,至,12,月同比的平均值,年,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013,(%),3.9,1.8,1.5,4.8,5.9,-0.7,3.3,5.4,2.6,2.6,CPI,100,103.9,105.8,107.4,112.5,119.1,118.3,122.2,128.8,132.2,135.6,全国,2004,年至,2013,年,CPI,的增
30、长,从,2003,年到,2013,年全国,CPI,增长,35%,每年与上年比较的增长率,按照分类结构解读,CPI,与,许多人,对物价的亲身感受有,较大差距,.,近,10,年,CPI,平均,年增长率不过,3.5%.,原因之一:,CPI,由,国家统计局对全国居民家庭衣食住行各类消费品和服务价格,综合加工,得到,.,消费品和服务项目分,8,大类,约,700,个代表品种,.,权重,根据居民家庭用于各种消费品和服务项目的开支占总消费支出的比重确定,.,CPI,由价格及其权重二者共同决定,.,大类,中类,权重,(%),1,食品,粮食、油脂、肉禽及其制品、水产品、蛋、鲜菜、鲜果、液体乳及乳制品,31.79,
31、2,烟酒及用品,烟草、酒,3.49,3,衣着,服装、鞋,8.52,4,家庭设备及维修服务,耐用消费品、家庭服务及加工维修服务,5.64,5,医疗保健个人用品,中药材及中成药、西药、医疗保健服务,9.64,6,交通和通讯,交通工具、车用燃料及零配件、通讯工具、通讯服务,9.95,7,娱乐教育文化用品及服务,教育服务、文娱用耐用消费品及服务、文化娱乐类、旅游,13.75,8,居住,建房及装修材料、住房租金、水、电、燃料,17.22,我国消费品和服务项目的类别及权重,(2011,年,),按照分类结构解读,CPI,居住次之,上世纪,80,年代食品权重,约,60%,每次调整,都下降,.,随着人们生活水平
32、的提高及消费结构的变化,权重每,5,年、,10,年会有较大的调整,.,居住中并不包含,近年,飞涨的购房支出,官方的解释是购房属于投资而非消费,.,按照分类结构解读,CPI,大类,食品,烟酒,衣着,家庭,医疗,交通,教育,居住,权重,(,%),31.79,3.49,8.52,5.64,9.64,9.95,13.75,17.22,食品权重最大,教育,、,娱乐,第三,v,i,第,i,大类价格指数,v,CPI,总水平,w,i,第,i,大类权重,v v,的增长率,v,i,v,i,的增长率,w,i,,,v,i,,,v,i,按照分类结构解读,CPI,每个月,CPI,总水平的环比,、,同比指数,v,及,增长率
33、v,权重对,CPI,总水平的大小有很大影响,引起对权重数值合理性的,研究,和,讨论,.,权重随时调整的具体情况不能为,民众,及时掌握,.,利用每个月公布的,CPI,数据,校核权重,是否变化,、,估算,调整后的,权重,成为,关注,者,、,研究者的课题,.,按照分类结构解读,CPI,对,权重,的关注和讨论:,几种校核与估算,权重,的方法,1.,利用公布的,v,i,w,i,计算,v,检查与公布的,v,是否相符,月份,食品,v,1,烟酒,v,2,衣着,v,3,家庭,v,4,医疗,v,5,交通,v,6,教育,v,7,居住,v,8,总水平,v,总水平,计算值,1,2.9,1.4,2.5,1.5,1.8,
34、0.3,0.5,2.9,2.0,1.9802,2,6.0,1.1,2.1,1.6,1.8,0.2,2.0,2.8,3.2,3.1655,3,2.7,1.0,2.3,1.6,1.7,-0.3,1.7,2.9,2.1,2.0466,4,4.0,0.8,2.5,1.6,1.5,-1.1,1.5,2.9,2.4,2.3435,5,3.2,0.5,2.5,1.6,1.5,-1.2,1.3,3.0,2.1,2.0585,6,4.9,0.3,2.3,1.5,1.4,-0.7,1.4,3.1,2.7,2.6404,7,5.0,0.2,2.2,1.4,1.2,-0.1,1.3,2.8,2.7,2.6295,8
35、4.7,0,2.2,1.4,1.2,0,1.2,2.6,2.6,2.4889,9,6.1,-0.2,2.3,1.4,1.1,-0.2,1.9,2.6,3.1,3.0022,10,6.5,-0.2,2.4,1.5,1.0,-0.6,2.5,2.6,3.2,3.1766,11,5.9,-0.2,2.0,1.3,1.0,-0.5,2.8,2.6,3.0,2.9917,12,4.1,-0.4,2.1,1.4,0.9,-0.1,2.9,2.8,2.5,2.5050,2013,年,CPI,同比分类和总水平增长率,如果,计算值与公布的,v,相符,不能说明所有的,w,i,没有改变,.,如果,稍有,不符,无法
36、确认是否数字舍入误差所致,.,几种校核与估算,权重,的方法,公布的指数只有,2,位有效数字,对计算结果影响很大,.,1.,利用公布的,v,i,w,i,计算,v,检查与公布的,v,是否相符,2.,利用公布的,v,i,及其对,v,的影响计算权重,,检查与原,有,的,w,i,是否相符,几种校核与估算,权重,的方法,2013,年,1,月食品同比上涨,2.9%,,影响总水平约,0.95%,月,1,2,3,4,5,6,7,8,9,10,11,12,v,1,2.9,6.0,2.7,4.0,3.2,4.9,5.0,4.7,6.1,6.5,5.9,4.1,v,0.95,1.98,0.88,1.33,1.05,1
37、59,1.61,1.54,1.98,2.11,1.92,1.33,w,1,0.328,0.330,0.326,0.336,0.328,0.325,0.322,0.328,0.325,0.325,0.325,0.324,由,2013.112,公布的,v,1,和,v,计算,w,1,原,有,w,1,=0.3179,2.,利用公布的,v,i,及其对,v,的影响计算权重,,检查与原来的,w,i,是否相符,几种校核与估算,权重,的方法,如果数据完整,可以对各个权重,w,i,分别计算、校核,.,由于公布数据的有效数字所限,舍入误差对结果有不小影响,.,3.,利用公布的,n,个月的,v,i,和,v,作,拟合
38、估计权重,.,v,ik,v,k,(,i,=1,8,k,=1,n,),用,MATLAB,命令,w=Ab,可得,Aw,=,b,的,最小二乘解,.,含,8,个未知数,w,1,w,8,的,n,+1,个方程,.,几种校核与估算,权重,的方法,3.,利用公布的,n,个月的,v,i,和,v,作,拟合,,,估计权重,.,几种校核与估算,权重,的方法,原始数据精度太低,(1,或,2,位有效数字,),权重,n,=72,(,2011-2013,),加非负约束,原始,w,1,0.3142,0.3143,0.3179,w,2,-0.0035,0,0.0349,w,3,0.0956,0.0953,0.0852,w,
39、4,0.0834,0.0817,0.0564,w,5,0.1378,0.1337,0.0964,w,6,0.0693,0.0698,0.0995,w,7,0.1475,0.1487,0.1375,w,8,0.1426,0.1439,0.1722,20112013,逐月环比和同比数据,对权重,加,非负约束,计算,结果,有较大差距,甚至出现,负值,对权重,加,非负约束,后,结果仍相差,较大,按照地区差别解读,CPI,不同地区的经济发展和,居民,生活水平的差异较大,全国,CPI,环比、同比总水平与,各,地区,情况,不同,.,国家统计局,还,分“城市”和“农村”公布,CPI,数据,.,31,个省、市、
40、自治区统计局逐月公布,当地,CPI,数据,.,可以用类似方法解读,当地的,CPI,数据,.,从,数据分析和数学建模,角度看,资料较少且不够完整,只能根据查到的,有限数据,进行,解读,.,小结与评注,CPI,是当今社会的热门词汇,各种媒体特别是互联网上有大量经济政策方面的报道和评论,.,权重的几种校核与估算,方法是,编者,的初步尝试,,尚待进一步研究,.,1.5 NBA,赛程的分析与评价,全国大学生数学建模竞赛,2008,年,D,题,参考,工程数学学报,2008,年增刊上参赛学生的优秀论文和,命题人,的文章,介绍建模过程,.,NBA,是全世界篮球迷们最钟爱的赛事之一,姚易加盟以后更是让中国球迷宠
41、爱有加,.NBA,共有,30,支球队,西部,联盟、,东部,联盟,各,15,支,大致按照地理位置,西部分西南、西北和太平洋,3,个区,东部分东南、中部和大西洋,3,个区,每区,5,支球队,.,对于,20082009,新赛季,常规赛阶段从,2008,年,10,月,29,日,(,北京时间,),直到,2009,年,4,月,16,日,在这,5,个多月中共有,1230,场赛事,每支球队要进行,82,场比赛,附件,1,是,30,支球队,20082009,赛季常规赛的赛程表,附件,2,是分部、分区和排名情况,(20072008,赛季常规赛的结果,),见,期 时 间 星 期 客队 主队,2008-10-29 0
42、8:00,星期三 克里夫兰骑士 波士顿凯尔特人,2008-10-29 08:30,星期三 密尔沃基雄鹿 芝加哥公牛,2008-10-29 10:30,星期三 波特兰开拓者 洛杉矶湖人,2008-10-30 07:00,星期四 新泽西网 华盛顿奇才,比赛间隔的均衡分配用间隔天数的标准差表示,.,2.,给出赛程影响球队战绩的数量指标,编程检索,:,背靠背比赛的次数 连续客场比赛的次数,连续与强队比赛的次数,常规赛,5,个多月每队比赛,82,场,.,比赛间隔天数,(0,1,2,),平均,2,天一场,,间隔天数,为,1,对每一因素的原始指标,a,i,作,标准化,处理:,利用平移和伸缩将,a,i,归一化
43、到区间,0,1,内,.,直接用原始指标,a,i,,构造综合指标会遇到困难!,2.,给出赛程影响球队战绩的数量指标,极小型指标,a,i,的,标准差,3.,确定综合指标、建立赛程评价模型,对标准化的各指标加权平均,用层次分析法,(AHP),得到权重,根据自己的知识直接给出权重,问卷调查,:,对各因素重要性打分,综合得到权重,.,客观判断,关键是确定权重,AHP,、,信息熵法,见本书提高篇第,8,章,信息熵法,:,计算各指标的区分度,得到权重,.,主观判断,回归分析:以最后战绩,(,排名或胜率,),为因变量,以各分指标为自变量,建立线性回归模型,.,3.,确定综合指标、建立赛程评价模型,利用上赛季的
44、数据,计算,回归系数,作为各指标的权重,.,赛程不是影响战绩的主要因素,而不包含影响因变量主要因素的回归模型是没有意义的,.,此法不可取!,4.,求解模型、得出赛程对各队战绩的影响,将赛程评价模型用于,20082009,赛季,30,支球队常规赛的赛程,得到,赛程对各队战绩影响的排序,.,最有利球队,最不利球队,火箭队排序,优秀论文,1,凯尔特人,森林狼,第,4,优秀论文,2,魔术,森林狼,第,22,两篇优秀论文得到的结果,若采用的指标不同,其结果也不同,.,选择赛,3,场球队的模型,每年赛程中唯一不确定之处:从同部不同区,(2,区,),的,每区,5,队中选择,2,队赛,3,场,(,其余,3,队
45、赛,4,场,).,题目要求给出选择赛,3,场的球队的方法,.,每年,NBA,常规赛,30,支球队及分部、分区形式不变,.,如,20082009,赛季,西部西南区,火箭赛,3,场球队,:,西北区,:,爵士、掘金、开拓者、森林狼、雷霆,太平洋区,:,湖人、太阳、快船、勇士、国王,2,支,2,支,选择赛,3,场球队的模型,1.,分析,20082009,赛程,找不到从,5,队中选,2,队的规律,.,2.,转化为,分配问题,:在,55,矩阵,X,=,x,ij,中确定,x,ij,(=0,1),使矩阵的每一行及每一列有且只有,2,个,x,ij,=1,,如,随机选择,给出算法,程序实现,.,有多种解法,,结果
46、不唯一,.,3.,分配问题,化为,0-1,规划模型,求解,从,NBA,联盟的商业性运作和比赛的观赏性出发,应让实力相差较大的两队少赛一场,(,赛,3,场,).,求解,0-1,规划模型,使目标函数最大,.,用上赛季两队之间的排名或胜率差衡量两队实力差,以每两队实力差之和为,目标函数,.,设,0-1,变量,x,ij,约束条件,与,分配问题,相同,.,4.,查阅,20042005,以来,5,个赛季赛程,发现选择规律,.,采取,5,年为周期的,特定模式循环,进行!,东部东南区,热火队,东部中部区,活塞,骑士,公牛,步行者,雄鹿,20042005,赛季,3,3,4,4,4,20052006,赛季,4,4
47、3,3,4,20062007,赛季,3,4,4,4,3,20072008,赛季,4,3,3,4,4,20082009,赛季,4,4,4,3,3,20092010,赛季,3,3,4,4,4,20112012,赛季,4,4,3,3,4,20112012,因劳资纠纷比赛减至,66,场,赛程被打乱,.,?,小结与评注,对一个,方案,(,如赛程,),的,评价,包括确定各项准则,(,指标,),及其权重、计算综合准则,(,指标,),等步骤,属于,多属性决策,本书第,8,章有详细介绍,.,NBA,完全,赛程的编制,非常复杂,除保证一定的公平性外,还有一些,要考虑的,因素,如尽可能每天都有强队与强队比赛,以提
48、高电视收视率,;,两支球队间,几场,比赛的时间尽可能拉开,;,两支球队共用,一个,球场,的比赛,时间要错开等,.,小结与评注,与,5,支球队全赛,4,场相比,总共,只少,4,场比赛,(,约,8,天时间,).,而,整个赛季,共,82,场比赛,(160,多天,).,NBA,常规赛赛程中,为什么规定,与同部不同区的每区,5,支球队中的,2,队赛,3,场,?,是为了,缩短,赛季长度,吗?,如果,每个赛季每支球队对手和比赛场次都不变,可以,找一个,固定,的,、,对所有球队公平的,赛程,.,每个赛季,与同部不同区对手的比赛场次,有,变化,使,整个赛程重新安排,给球员和观众带来,新鲜感,.,死板!,无趣!,此课件下载可自行编辑修改,仅供参考!感谢您的支持,我们努力做得更好!谢谢,






