收藏 分销(赏)

第一章 大样本数据的处理方1.doc

上传人:pc****0 文档编号:6116304 上传时间:2024-11-28 格式:DOC 页数:10 大小:348KB 下载积分:10 金币
下载 相关 举报
第一章 大样本数据的处理方1.doc_第1页
第1页 / 共10页
第一章 大样本数据的处理方1.doc_第2页
第2页 / 共10页


点击查看更多>>
资源描述
实验1.3 . 数据的属性与处理方法 1.3.1实验目的 (1) 熟练掌握效益型、成本型、固定型、区间型数据处理的方法. (2) 掌握常见的建立客观性权向量的基本方法. (3) 掌握综合评价建模方法 1.3.2 实验背景知识介绍 设有n个决策方案的集合:A= 其中是第i个方案关于第m项评价指标的指标值向量.于是我们可以得到n个方案关于m项评价指标的指标矩阵 A= 其中表示第i个方案关于第j项评价因素的指标值. 通常评价指标分为效益型、成本型、固定型和区间型指标.而对各评价方案进行综合评价,必须首先统一评价指标的属性.我们用分别表示效益型、成本型和固定型指标,对于指标矩阵,我们针对上述的几种指标建立效益型和成本型矩阵,即通过无量纲化,将矩阵的各元素均转化为效益型和成本型指标. (1)效益型矩阵 , 其中 为第项指标的适度数值. (2)成本型矩阵 , (3) 建立客观性权向量的方法 变异系数法:首先计算变异系数,然后将其归一化就得到权向量. 夹角余弦法:利用[1]中的方法可得到各方案与理想最佳和最劣方案的相对偏差矩阵为 , 其中 ; 计算U,V的对应列向量的夹角余弦得到初始权重,归一化后得到客观性权向量. 1.3.3实验内容 【例1.6】 近年来我国淡水湖水质富营养化的污染日趋严重,表1.20、表1.21分别为我国五个湖泊的实测数据和湖泊水质评价标准. 利用距离判别法对上述五个湖泊的水质进行综合评估,确定水质等级. 表1.20 全国5个主要湖泊评价参数的实测数据 指标 湖泊 总磷 (mg/L) 耗氧量 (mg/L) 透明度 (m) 总氮 (mg/L) 杭州西湖 130 10.30 0.35 2.76 武汉东湖 105 10.70 0.40 2.0 青海湖 20 1.4 4.5 0.22 巢湖 30 6.26 0.25 1.67 滇池 20 10.13 0.50 0.23 表1. 21 湖泊水质评价标准 评价参数 极贫营养 贫营养 中营养 富营养 极富营养 总磷 <1 4 23 110 >660 耗氧量 <0.09 0.36 1.80 7.10 >27.1 透明度 >37 12 2.4 0.55 <0.17 总氮 <0.02 0.06 0.31 1.20 >4.6 题目分析: (1).建立无量纲化实测数据矩阵和评价标准矩阵 根据表1.20和表1. 21,我们得到实测数据矩阵和等级标准矩阵 , 然后建立无量纲化实测数据矩阵:A=(aij) (i=1,2,3,4,5;j=1,2,3,4) 无量纲化等级标准矩阵 B=(bkt), (k=1,2,3,4,;t=1,2,3,4,5) 利用Matlab我们得到: (2). 计算评价指标的权重 首先计算矩阵B的各行向量的均值与标准差: (i=1,2,3,4) 然后计算变异系数: (i=1,2,3,4) 最后对变异系数归一化得到各指标的权向量为w=[ 0.2767 ,0.2444,0.2347 ,0.2442] 根据权重的大小,即可说明总磷、耗氧量、透明度和总氮四种指标对湖泊水质富营养化所起作用.由上可知,各指标的作用很接近,比较而言总磷所起作用最大,耗氧量、总氮次之、透明度的作用最小. (3). 建立各湖泊水质的综合评价模型 我们利用欧氏距离和绝对值距离进行建模. 计算A中各行向量到B中各列向量的欧氏距离 若,则第i个湖泊属于第k级.(i =1,2,3,4,5) 计算A中各行向量到B中各列向量的绝对值距离 若,则第i个湖泊属于第k级.(i =1,2,3,4,5) 表1.22 欧氏距离判别表 距离 湖泊 级别 杭州西湖 1.8472 1.8312 1.7374 1.3769 0.2881 5 武汉东湖 1.5959 1.5798 1.4859 1.1271 0.5034 5 青海湖 0.2185 0.2045 0.1367 0.3383 1.7917 3 巢湖 1.3201 1.3038 1.2082 0.8392 0.9591 4 滇池 1.0793 1.0650 0.9867 0.7328 1.3450 4 表1.23 绝对值距离判别表 距离 湖泊 级别 杭州西湖 3.6631 3.6303 3.4374 2.6783 0.3231 5 武汉东湖 3.1436 3.1108 2.9178 2.1587 0.8427 5 青海湖 0.4062 0.3734 0.2110 0.5787 3.5800 3 巢湖 2.4071 2.3743 2.1814 1.4223 1.5791 4 滇池 1.6701 1.6374 1.4444 1.0660 2.3161 4 从上面的计算可知,尽管欧氏距离与绝对值距离意义不同,但是对各湖泊水质的富营养化的评价等级是一样的,表明我们给出的方法具有稳定性. 计算程序: %输入原始数据 X=[130,10.30,0.35,2.76;105,10.70,0.40,2.0;20,1.4,4.5,0.22;30,6.26,0.25,1.67;20,10.13,0.50,0.23]; Y=[1,4,23,110 ,660;0.09 ,0.36,1.80,7.10,27.1;37,12,2.4,0.55,0.17;0.02,0.06,0.31,1.20,4.6]; %建立无量纲化的数据矩阵与无量纲等级矩阵 B1=Y(1,:)./660; B2=Y(2,:)./27.1; B3=0.17./Y(3,:); B4=Y(4,:)./4.6; B=[B1;B2;B3;B4] A1=X(:,1)./130; A2=X(:,2)./10.7; A3=0.25./X(:,3); A4=X(:,4)./2.76; A=[A1,A2,A3,A4]; % 建立权向量 b=B'; t=std(b)./mean(b); w=t/sum(t); % 计算绝对距离与欧氏距离 jd=dist(A,B), mjd=mandist(A,B), 结果说明: (1) 此题也可以用夹角余弦法建立权向量,建议读者选取不同的方法建立权向量,比较判别结果; 【例1.7】根据北京、上海、天津和云南四个城市的6项经济指标统计数据建立综合评价模型,对上述四个地区进行评估. 表1.24 经济效益统计数据 地区 资金 利润率 销售 利润率 全员劳动生产率 综合 能耗 物耗 技改占固定 资产投资比率 北京 29.09 24.05 1.94 4.55 67.40 67.60 上海 36.97 22.90 2.60 2.43 67.90 54.55 天津 29.13 20.40 1.97 3.60 68.70 64.00 云南 23.92 27.20 1.17 7.92 58.10 55.20 题目分析:在这些指标中,除了综合能耗和物耗是成本型指标外,其余指标均为效益型指标. 我们计算步骤如下: (1) 计算各评价指标的客观性权重 利用[1]中的方法可得到理想最佳和最劣方案为: u=(36.97,27.2,2.6,2.43,58.1,67.6), v=(23.92,20.4,1.17,7.92,68.7,54.55) 相对偏差矩阵为: 将上述两个矩阵的对应列向量的夹角余弦作为初始权重,归一化后得到客观性权向量: W=(0.2151 ,0.2148,0.2231,0.1774,0.0733,0.0962) (2) 建立效益型矩阵和成本型矩阵, 其中 () () ( (3)计算综合评价值 由矩阵、可得:,() 由矩阵、可得:, () 表1.2 5综合评价值与排序 地区 排序 排序 排序 排序 北京 0.5347 2 0.7799 2 0.4652 2 0.7452 2 上海 0.7002 1 0.9369 1 0.2999 1 0.6541 1 天津 0.4199 3 0.7725 3 0.5800 3 0.7600 3 云南 0.2930 4 0.6607 4 0.7070 4 0.9338 4 从表2可以看出:对于两类不同的效益型矩阵和成本型矩阵,综合评估的结果完全一样,表明我们的方法具有较高的可靠性. 计算程序: A=[29.09 24.05 1.94 4.55 67.40 67.60 36.97 22.90 2.60 2.43 67.90 54.55 29.13 20.40 1.97 3.60 68.70 64.00 23.92 27.20 1.17 7.92 58.10 55.20]; %理想最佳和最劣方案 U=[max(A(:,1:3)),min(A(:,4:5)),max(A(:,6))] V=[min(A(:,1:3)),max(A(:,4:5)),min(A(:,6))] %相对偏差矩阵 R=abs(A-ones(4,1)*U)./(ones(4,1)*range(A)) T=abs(A-ones(4,1)*V)./(ones(4,1)*range(A)) %建立权向量 r=normc(R); t=normc(T); w=sum((r.*t))/sum(sum(r.*t)) %建立成本型矩阵与效益型矩阵 B=[(A(:,1:3)-ones(4,1)*min(A(:,1:3))),(ones(4,1)*max(A(:,4:5))-A(:,4:5)),A(:,6)-min(A(:,6))]./(ones(4,1)* range(A)) D=[A(:,1:3)./(ones(4,1)*max(A(:,1:3))),(ones(4,1)*min(A(:,4:5)))./A(:,4:5),A(:,6)/max(A(:,6))] %计算综合评价值 H=B*(w') F=D*(w') 结果说明:(1) 计算程序中只给出了成本型矩阵B与效益型矩阵D的程序,C,E的程序请读者自己给出,相应的综合评价值的程序也请自行给出.(2) 如果是成本型矩阵,则综合评价值越小排名越靠前;如果是效益型矩阵,则综合评价值越大排名越靠前. 1.3.4 练习 1. 根据我国部分省、市、自治区电力消费量的数据统计,解决以下实际问题: (1) 哪些地区的电力消费量逐年增长? (2) 计算自治区之间的夹角余弦与欧氏距离、绝对距离,哪两个自治区最接近? (3) 将电力消费量从大到小排列,给出2000年的各地区排名 (4) 将原始数据进行变换: (a) 各数据减去均值再比上标准差, (b) 各数据减去均值再比上极差, (c) 各数据比上均值 表1.26分地区电力消费量(单位:亿千瓦小时) 地 区 1990 1995 1999 2000 2001 北 京 174.13 261.74 344.13 384.43 399.94 天 津 124.15 178.99 211.19 234.05 247.94 河 北 354.16 602.68 745.72 809.34 867.55 山 西 255.47 399.16 459.34 501.99 557.58 内蒙古 121.82 186.83 236.77 254.21 280.89 辽 宁 462.19 622.81 756.11 748.89 764.77 吉 林 190.77 267.60 295.46 291.37 295.08 黑龙江 296.38 409.38 422.58 442.28 456.86 上 海 264.74 403.27 501.20 559.45 592.98 江 苏 411.81 684.80 848.74 971.34 1078.44 浙 江 230.29 439.59 611.67 738.05 848.40 安 徽 185.67 288.97 312.96 338.93 359.59 福 建 136.66 261.28 355.26 401.51 439.19 江 西 127.65 181.21 193.91 208.15 222.28 山 东 448.69 741.07 805.47 1000.71 1104.53 河 南 338.17 571.48 672.09 718.52 808.41 湖 北 281.33 414.99 487.65 503.02 526.02 湖 南 226.73 374.76 376.74 406.12 439.78 广 东 359.00 787.66 1086.24 1334.58 1458.42 广 西 125.58 220.77 289.06 314.44 331.92 海 南 13.96 32.00 38.65 38.37 42.96 重 庆 303.86 307.61 220.54 四 川 350.23 582.85 462.26 521.23 589.57 贵 州 103.21 203.70 274.22 287.78 335.19 云 南 124.55 223.71 296.70 273.58 320.75 陕 西 170.29 239.68 273.63 292.76 321.54 甘 肃 177.84 241.06 291.58 295.33 306.09 青 海 42.21 69.02 107.24 109.10 111.90 宁 夏 55.02 92.38 115.32 136.17 151.81 新 疆 69.99 119.67 169.30 182.98 197.92 注:2000、2001是电力公司数 2. 根据开发高新区技术企业主要经济指标,解决以下问题: (1) 计算各地区人均总产值、人均总收入和人均出口总额并与全国的平均作比较; (2) 总产值、人均总产值从大到小排列,两者排名向量的绝对距离是多少? (3) 以总产值、总收入、出口总额为评价指标建立综合评价模型对各开发区进行评价; (4) 以人均总产值、人均总收入、人均出口总额为评价指标建立综合评价模型对各开发区进行评价,如此得到的结果与(3)中的结果有何不同?对此你有何看法? (5) 用box-cox公式对原始数据作变换 表1.28 开发高新区技术企业主要经济指标 地区 职工人数(人) 总产值 (万元) 总收入 (万元) 出口总额(千美元) 全国 2761433 119284135 101167793 22664390 北京 282720 19864908 12558935 2928876 天津 113855 3832819 3227151 1134032 石家庄 41504 1267797 1053351 100288 保定 36668 728747 700186 61018 太原 57871 1130051 1025280 73940 包头 31538 541004 479834 100983 沈阳 61543 3201592 1835767 329158 大连 81519 2107786 1391670 423152 鞍山 59621 1045661 952291 46953 长春 94984 2769444 2589852 212564 吉林 83022 2800544 2850054 38588 哈尔滨 70129 1884145 1824274 144095 大庆 26223 817382 809712 12198 上海 73652 9394164 8378717 2512629 南京 53293 5104254 4390947 579174 常州 36063 1007976 999797 230445 无锡 49383 3785148 3101962 1400823 苏州 64551 3707141 3717248 2579484 杭州 24300 2342928 1884582 408727 合肥 42940 1351731 1069186 62165 福州 22670 1168191 1118540 232599 夏门 26200 1439294 1463737 723445 南昌 36941 809138 745018 29635 济南 42834 1590290 1348096 69886 青岛 38040 3736229 3816631 561789 淄博 55675 1365796 1401501 82658 潍坊 14491 728463 693006 24814 威海 36798 1066401 1046824 485620 郑州 36336 1013273 872032 101174 洛阳 34912 639437 472495 37610 武汉 100541 3335884 2874497 142184 襄樊 39924 1008385 667766 9431 长沙 64503 2468192 2188070 143626 株洲 37109 805887 715286 121503 广州 45167 2682206 1708097 310246 深圳 82308 5955125 6309337 2530961 珠海 30145 1092448 1071416 343966 惠州 17737 1427902 1650524 919177 中山 54398 1474272 1635215 1048949 佛山 20980 1953135 1867576 493531 南宁 24252 866373 615865 19829 桂林 36546 700191 736295 60636 海南 11430 411287 448484 27393 重庆 76396 2928952 2763023 101689 成都 101622 1927856 1521481 178520 绵阳 39204 1300834 1364297 116102 贵阳 27469 400164 441673 6630 昆明 27623 917726 729701 124087 西安 121434 3868631 2753010 175469 宝鸡 34084 506550 529598 27334 杨凌 3916 95821 55352 5743 兰州 26592 705030 538411 17862 乌鲁木齐 7777 209554 164146 11000 10
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 行业资料 > 医学/心理学

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服