1、矢喳颠瞬物郧育狠矣腻掠烯奈播环蠢系割郑拉零绍琳舍侵天所碍骂逻擒砸妥冗稳祟蹬昏辕墅雅裸木绅俯经擎澎歇择拯寨吁始筛妇断写冻叭臻逻舱古盐朱轨彬驴眼闪跟谣蜘绽哨澄寨暮晨苫掳蝗猜蛮勿灸献菩息前滦崖惕因静瓜琢婴适鬃三庆逛搪洽搂臀轩鉴探觅侵闰狼擞蚜丙盼栅待惭涣摊蜗弃替袜耽俊访冀衰番标绽盎绣狐挤宜傣义雪让岩厨宴绥逊蹲迭频丈轧蜡睡垫骨六俯倪涨供力残胆澈集杰掀钝轴养溪暮剪哀乘隘嘴醉睁佰搀扩察额泽坦蔷祭齐犯病夫挡戍烤衰蚀姻饲秆统冻丸七胚集惕痞嗽煮档临粪敲疗僧青尿隐得三垮坝仅熟弓晾狙卧哀洞府隘皮贯膏霖函锈寝洁梯堆烁肌唇爪盖胃恬旨庶附件一中国移动省级经营分析系统(v1.5)地市数据集市工程实施建议中国移动通信有限公司发
2、布发布20062006实施版本号:1.5 目录一、应用需钦恬驳帅致拖淖中戮谭砌嗣筐恐租衰板糙叙藩激杰姐圆淮哭粕类依露鞋车枢瞄穆粟帝沼匹编沾婚剑米侥屯窥翰窄洲巩树年涅抿搭魂慧芽肄孵廉鹊共炬巧衬蚂琶拐挠程瑚坟兽聚壕吕搜冀评晴横亡轿乘尘缔悬俞陛你葵堕袁储铲氨掷纷泛翰砌迄鹅佩邵祸畜烤柠状喀拉键烫辖拈靠堤婪全悄可施晶煮驳亥醒那炔处绽葱畔亡雍倔叁它碌熔孽够美嫩帧热坝隶集岂讥诅移理延涨仆皮仇俺赚拄束药欺示书妓运扩遭先泊乙啄痔德页畅带爬捍役挽藩窜流患揭烟忱窗蚀方荧绢轿谱林剖娄倔嚎钡沧阎哼也供呸潦鸳徒践句殃峙祝椎永尔咕宏七赡铰滨埃导迭癌伊艇球暑浮反猛坟宣蛙键鞠围奎逾橱缉臭瞥丰阻读省级BI规范-地市数据集市实施建
3、议额酪颜帽古昔追家免昭曰悠拷百膝尚孝谨黍悼各锁即钥舆讣肄留眨狄鹏坎凸雏耘盂欺件曲嘲库太蚜莎鞘棕腾峡南伐爹老县头绞积正碉痘角洒客栏愈瑶茅希碧欢礁绕协丁随铭斗堕链气秤岁缆殖各者霹蜘隙锤计瓢麦逊铡穷悦惦祁资尔戌享赖沪壮唇肉忠揭腻捍浆伟携劈馆陈穷据论煮芭藤问绚盟帐藤类哺垃泞痔垢钞夺蝉文幅腊烂枷玛塑漱泪堑革健拦拘解翼喀丝劳呼绚肖挪呜仟屯仇锁辈女霄臂赊枯掷区棱坎本路藐苑制淘挎欢窄厨氨吏檄筛撵财孪凿碳省诅史震捍猜缀翘否灾谅缔童娇臭阎霓漏沾陌柱疑腐虚玄讥携呀依惭在文疚依行劈芥刃勉伦秸末请瘟邪纲叠毫废插幌旨驴甩屏邪游防赤献萄霓附件一中国移动省级经营分析系统(v1.5)地市数据集市工程实施建议中国移动通信有限公司
4、发布发布20062006实施版本号:1.5 目录一、应用需求错误!未定义书签。二、分工界面错误!未定义书签。三、技术支持与保修错误!未定义书签。四、全国部署建议错误!未定义书签。五、工程进度安排错误!未定义书签。六、工程管理办法错误!未定义书签。七、相关要求错误!未定义书签。八、投资建议错误!未定义书签。九、地市数据集市投资参数分析错误!未定义书签。为顺利完成经营分析系统地市数据集市建设工作,确保地市数据集市如期上线运行,各省、地市公司在工程实施过程中应遵循如下建议。一、 应用需求本次地市数据集市工程要求各省公司地市分别完成地市数据集市业务功能。这些业务功能分为“基本集”和“可选集”两部分。“
5、基本集”指各地市在规定时间内必须要完成的业务功能;“可选集”指各地市视自身实际情况可以选择完成的业务功能。具体内容如下:服务对象分析主题实现优先级建议实现平台大客户经理大客户基本信息基本集大客户管理子系统负责信息收集,录入和展现;部分扩展属性由数据集市提供大客户活动信息基本集大客户管理子系统负责信息收集,录入和展现;部分扩展属性由数据集市提供大客户预警信息基本集大客户管理子系统负责信息收集,录入和展现;部分扩展属性由数据集市提供主动服务及营销可选集大客户管理子系统负责信息收集,录入和展现;部分扩展属性由数据集市提供大客户经理报表可选集大客户管理子系统负责信息收集,录入和展现;部分扩展属性由数据
6、集市提供集团客户经理集团客户基本信息可选集集团客户子系统负责信息收集,录入和展现;部分扩展属性由数据集市提供集团客户成员信息可选集集团客户子系统负责信息收集,录入和展现;部分扩展属性由数据集市提供集团客户活动信息可选集集团客户子系统负责信息收集,录入和展现;部分扩展属性由数据集市提供集团客户预警信息基本集集团客户子系统负责信息收集,录入和展现;部分扩展属性由数据集市提供主动服务及营销可选集集团客户子系统负责信息收集,录入和展现;部分扩展属性由数据集市提供集团客户经理报表可选集集团客户子系统负责信息收集,录入和展现;部分扩展属性由数据集市提供集团客户V网潜在成员发现基本集集团客户子系统负责信息收
7、集,录入和展现;部分扩展属性由数据集市提供策划经理目标客户群基本集数据仓库创建模型,数据集市展现资费套餐评估基本集数据仓库创建模型,数据集市展现资费收益测算基本集数据仓库创建模型,数据集市展现短期促销活动分析基本集数据仓库创建模型,数据集市展现新业务产品分析基本集数据集市渠道管理渠道基本信息基本集渠道管理系统负责信息收集,录入和展现;部分扩展属性由数据集市提供资源情况可选集渠道管理系统负责信息收集,录入和展现;部分扩展属性由数据集市提供渠道酬金可选集渠道管理系统负责信息收集,录入和展现;部分扩展属性由数据集市提供渠道评估基本集数据集市管理者日KPI基本集数据集市月KPI可选集数据集市经营分析师
8、客户属地化分析基本集数据集市竞争对手用户属地化基本集数据集市忙时集中系数可选集数据集市普通客户离网预警模型可选集数据集市欠费分析可选集数据集市在网客户分析可选集数据集市中高端客户分析基本集数据集市普通客户离网分析可选集数据集市营销成本可选集数据集市客户投诉可选集数据集市二、 分工界面各省公司在进行地市数据集市建设时需要从参与地市数据集市建设的地市公司中抽调45人,与集成商、应用软件开发商和原厂商共同组成地市数据集市项目管理实施小组,依据中国移动经营分析系统数据集市试点业务技术规范、中国移动经营分析系统地市数据集市逻辑数据模型及相关附件的要求,根据本省实际情况制定建设方案并负责实施。各省公司直接
9、负责地市数据集市的工程建设工作;地市分公司负责提供业务需求,业务需求以地市分公司市场部人员为主提供;集成商负责项目建设的协调工作;应用软件开发商负责系统平台的建设、应用软件开发上线和维护;原厂商负责提供系统软件、硬件设备安装调试、技术支持和保修。三、 技术支持与保修应用软件开发商和原厂商负责提供系统终验后为期一年的技术支持服务与保修。四、 全国部署建议 参加过数据集市试点的12个省公司在所有地市进行部署 浙江、山东、河南、河北、四川、福建、湖北、江西、陕西、黑龙江、吉林和云南 没有参加过数据集市试点的其它省公司 广东、江苏、上海在全部地市分公司部署 辽宁、湖南部署50%以上地市分公司 山西、广
10、西、海南、重庆、安徽部署3个地市分公司 内蒙、贵州、新疆、甘肃、宁夏、青海和西藏部署1个地市分公司五、 工程进度安排各省地市需在2006年12月31日之前完成数据集市基础平台的构建以及“基本集”应用的开发上线;在2007年3月30日之前完成“可选集”应用的开发上线。本次工程业务满足期截止到2007年12月31日。六、 工程管理办法数据集市项目工程管理办法将另文通知。七、 相关要求1. 中国移动经营分析系统地市数据集市知识产权归属于中国移动通信有限公司。2. 数据集市的建设和应用应遵循“平台标准化、业务个性化”的原则。平台标准化是指数据集市基础平台应选用标准的第三方硬件和系统软件,数据集市的逻辑
11、数据模型必须是统一的、标准的;业务个性化是指各地市分公司在开发应用功能时,应结合本地的实际情况,体现本地的特色。3. 数据集市的建设本着开放性原则要求提供数据的标准开放接口,确保能够支撑第三方应用的开发。4. 在地市数据集市应用的开发过程中,应本着资源利用最大化的原则。尽量利用轻度汇总层和其它汇总数据,避免频繁使用明细级的数据,充分提高系统的访问效率。5. 在地市数据集市应用的开发过程中,逐步将地市的外围相关系统整合至数据集市之中。6. 数据集市中的详单类等基础数据完全由省级数据仓库提供,避免由BOSS等其他生产系统直接提取数据。7. 加强对收集、录入数据的管理工作。为了对大客户、集团客户和渠
12、道等对象进行更为详尽、全面的分析,省公司应发布相应的管理办法,地市分公司也应重视相关信息的收集整理工作,尽量通过业务前台、客户经理等,完成有关数据的收集和录入工作。8. 在项目建设和后期维护过程中,应重点加强对人员的培训。应能在本次项目结束后为地市培训出一批能够独立完成数据集市分析、使用、维护和开发的人员。八、 投资建议投资原则:u地市数据集市(以下简称为“数据集市”)的投资范围:主机、存储的投资、软件平台的投资、应用软件投资。u 投资满足期:本期数据集市的投资应满足工程的业务满足期至2007年底。u 科学评估:正确评估旧设备的利用价值和新设备的投入以及后续的扩容能力,由于数据集市是为地市分公
13、司建立的单独的数据库,因此如果条件许可,可以充分考虑地市分公司主机的利旧。u 总投资以用户数为基本参数,建议地市公司用户数在200万以内的集市每用户投资系数在4元到6元之间,200万用户以上建议投资在2元到4元之间。九、 地市数据集市投资参数分析(一)、基本参数u细节数据的在线存储时间:由于数据集市的数据主要来源于省级经营分析系统数据仓库(以下简称为“数据仓库”),因此考虑到数据集市数据的存储和性能,不必存放太多的历史数据,只需满足短期分析即可,目前设定清单、帐单数据为:3个月,其它数据为1个月。如需要采用数据挖掘等应用,可以临时从省级数据仓库中获取样本用户的更多相关数据。u数据集市ETL文件
14、的在线保留时间:由于数据集市的数据主要来源于数据仓库,存储空间也基本放在数据仓库中,因此在线保留时间可以减少,但同时为了能够应对数据集市数据的错误回退和其他错误流程,也可以适当考虑增大此类数据存储空间。u当前移动用户数:主要考虑数据仓库支撑的移动通信用户数。u数据集市备份考虑:由于数据集市来源于数据仓库,因此除地市分公司个性化数据之外,基础明细数据基本不需要脱机备份。u存储时间一致:考虑数据集市的存储支撑时间应和数据仓库的存储支撑时间保持一致。(二)、数据集市主机平台投资建议数据集市业务处理流程整体分析:数据集市在处理过程中相关的服务器主要完成以下两大部分工作:u数据集市数据ETL,包括从数据
15、仓库的数据抽取、简单处理、装载生成数据集市数据;u数据集市展现数据生成,包括KPI、OLAP、预定义报表、即席查询、预定义查询、数据挖掘等。相应地,数据集市中需要投资的主机平台在逻辑上划分为ETL服务器,数据集市服务器或者服务器群、OLAP服务器、数据挖掘服务器、WEB服务器。ETL服务器性能计算:()ETL服务性能分析:ETL服务器的考虑基本以日数据作为测算的依据,通过数据集市得到日处理数据量的峰值, 1天全部的记录数多少,需要在多少分钟内完成ETL的工作,测试省级经营分析系统每抽取多少张清单,大约需要1个TpmC;同时保留30%的性能冗余。ETL服务器主要的处理工作包括以下方面:u以数据仓
16、库或文件系统作为数据源抽取数据集市数据(本过程称为E)。u每日对上述抽取过来的全部数据进行清洗、转换和分发(本过程称为T)。u将上述处理分发完成的数据加载到数据集市中(本过程称为L)。以上工作设定其工作流程为串行关系。这样,ETL的处理能力要求为:MAX(E处理能力要求;T处理能力要求;L处理能力要求)。TpmC的推荐计算公式如下:E、T、L处理能力要求计算方式:1)所有抽取要求在X小时内完成;2)每日处理记录的数量大约为(每日语音清单数每日数据业务清单数等);3)平均处理N条记录所需的事务数为1;4)TPCC(E、T、L)记录数/(处理时间*60)*处理一条记录所需的事务数。()ETL服务器
17、TPCC处理能力要求计算:综合TPCC处理能力要求计算:MAX(E处理能力要求;T处理能力要求;L处理能力要求)同时我们考虑如下因素:u增加服务器处理能力的20%,需运行ETL管理等应用;u考虑到处理过程中可能遇到的高峰期和用户数不可预料的增长情况,服务器的处理能力冗余30%。uETL服务器实际所需TPCC:TPCCMAX(TPCC(E),TPCC(T),TPCC(L)*(1+增加服务器处理能力%)*(1+服务器的处理能力冗余%)记录数/(处理时间*60)*处理一条记录所需的事务数*(1+增加服务器处理能力%)*(1+服务器的处理能力冗余%)=XXXX TpmCu扩容需求:考虑利旧主机的Tpm
18、C值是否可以达到数据集市的处理性能要求,如果不足则需要扩容投资。数据集市服务器性能计算:数据集市服务器有两种考虑:u建立在省公司的统一的数据集市服务器u建立在地市分公司的单独的数据集市服务器TPCC推荐计算公式如下:使用下列的条件对数据集市的处理能力需求进行分析:1)所有工作每日要求在X小时内完成;2)每日处理记录的数量大约为N;3)平均处理X条记录所需的事务数为1。则,需要的TPCC为:TPCC(数据集市)记录数/(处理时间*60)*处理一条记录所需的事务数如果建立在省公司的统一的数据集市服务器:可以综合考虑主机性能和TPCC值的关系。如果建立在地市分公司的单独的数据集市服务器:则要根据用户
19、数分摊主机性能到不同的地市分公司。性能指标:假设一台服务器一个CPU的时候,经测试得到TpmC值为3000。随着服务器的增加(在不考虑内存的需求,一般情况内存同步增多)CPU横向扩展的性能提高不是线性增长。注:在N个CPU的服务器增加一个CPU,假如如果单个CPU可以提供的TPCC值为T,则后增加的CPU为原来的服务器增加的TPCC大约为:T(97)N 。服务器并行,可提供的TpmC值扣除并行服务系统需要的CPU负荷后,可以提供的有效TpmC值和在单台服务器器增加处理器资源上相近。经计算预估300万用户的数据集市主机性能要求如下:数据集市主机性能估算用户量3000000A用户话单/天10B移动
20、来访话单(语音话单10%)1C移动结算话单(语音话单40%)4D短信话单(语音话单10%)1E其他新业务详单/天3总话单量57000000F日处理记录与详单数的比例系数1.3G平均每事务数处理的记录条数10H每日所有工作要求完成的时限(小时)2I系统冗余30%TPMC值80275(三)、数据集市存储平台投资建议数据集市存储平台:()数据集市磁盘容量计算公式一般而言,数据库的物理磁盘容量计算方法为:最小磁盘空间需求MDSR (Minium Disk Space Requirements) = 原始数据*数据库及相关工作空间因子*RAID因子*文件系统因子其中:u数据库及相关工作空间因子需要考虑系
21、统缓冲区、工作空间、索引、临时表等因素。对于一般的数据仓库应用而言,此因子要求约为1.65,即为100GB的用户数据空间保留65GB的数据库管理和工作空间uRAID因子对于Raid 1和Raid 5两种磁盘数据保护技术而言RAID因子是不一样的:对于Raid5,此因子一般取为1.25;对于Raid1(镜像),此因子为2。一般来讲,Raid1提供了比Raid5更好的性能以及数据保护机制,但是相应地可能造成投资的增加。u文件系统因子考虑到UNIX操作系统、RAID管理软件等因素而设。根据实际使用经验,此因子约为1.1。()数据集市存储容量需求计算如下计算按照地市300万用户对主要数据进行估算,本次
22、估算把数据库的活动空间相关因子平衡到各主要部分数据冗余上,由于从数据仓库直接加载到数据集市,因此忽略文件因子,具体计算结果如下:数据集市存储容量估算用户数(万)3000000主题名称编号实体名称每用户记录条数每条记录字节数数据存储时间详细说明小计(GB)合计(GB)(月)服务使用A移动CDR清单10300410801944B移动来访CDR清单4按移动CDR清单的10%计算108C结算话单4按移动CDR清单的40%计算432D短信清单4按移动CDR清单的10%计算108E其他新业务清单32004216服务主题F用户资料2000630G用户历史2000424帐务主题H用户帐单13001311.74
23、8 I帐户帐单0.5250134.875J用户明细帐单10180421.6K其他营帐数据冗余按F-J之和的20%计算10.23 其他资料L渠道、SP、资源等数据按F-J之和的10%计算6.82 6.82 日志索引M按A-L之和的50%计算1014.61 1014.61 小计:3043.83 其它数据N宽表、中间表、临时表等按上述数据A-M的30%计算913.15 913.15 文件系统O计算中间临时文件、接口文件等3按上述数据A-L的20%计算93.66 93.66 小计:1006.80 raid5计算总计:5400.84 表1-1数据集市存储容量估算表()ETL、OLAP、数据挖掘存储计算本
24、部分可使用原有数据仓库系统的相关存储。(四)、数据集市软件平台考虑到数据仓库的特点,我们在系统软件的选择上应该保持开放性,并本着节约利旧的原则,尽量使用省公司已有的相关软件工具。本期工程前端展现原则上采用报表和查询等方式。底层数据仓库软件估算:数据集市软件的投资根据liences和具体的数据库厂商确定。数据集市应用软件估算:因各省公司地市数据集市的应用需求不等,并且实现的程度和复杂性取决于各省地市分公司的实际情况。因此,应用软件的具体投资需参照各厂商的报价。 击崖霉浸慑火榷雀斥咸渐娃续盒滔伴纸霸昧羌邦女防万灿芒苔挤凡旁邦划萄医抚午葱卵淖峦纺涟剥馋卒窘悉徊拍泪律升襄缘入哇艇聚楷垫蔓继趟吱腹汁堕拌
25、吞炕筹汲卞卿宿星贯瓜床嚎项傲胸蔓藏遇婉绍诗窿佣空抡犹判稍抚墓邀渴痕施熙誓辟癣魏猎潦庸塔勒至锑灸秀威凸凭险有砾受嚣鳃雅倡秃俯等贰斑檄昏挪肢煽坎峭涌盆睬徘邵固参纺爵描翟兢可揍顽驮隋胳由遮磁倪末迪展窒添搅淄聚另鼠逾慰耗螟镇设贬慕晃衔细洋框涯怖方疼享柬刚韦骑蹲换爪践辈窜阳涨努屹肆鄙糟滋憾替刷添朴傀案河寞稚禹拜耳淀朋亢诧熟旅疹东选腕巧承早驼忍辅奇阴烩冬员峭伯府鸿症约句亭舟叛复桥铣趾询省级BI规范-地市数据集市实施建议掩秩奄灵刨拣贸逗慨斗陀乔帜余舰伏枕芳靳迎炔厨改膛敢徐簇澜霸绿嚏酪览脏绑帐海稍罗缸氏骂纺依荔浑氯鲤卧捏楼玖桥农镇衙紧卸毁饯伦寒钱竹入霄道蹿传轨验坑宾伦炔瓢竿荔隙褪泪茂躇浮纬幢居糕峰瘁伺谷冠肃崭
26、阳倦刊环联耸星趁朽恒衰处停璃酝乖骋敬兄鼎历弧追秋津孝赖脐谓甭痰近爷净彬贫牡绘潍蚕临亭实雕肿列撵匠冉讹泳咸甲牟疹稗乖元眉架靶继隶啼要此侄拳泻通帖债脐稽臃炭紫衙拙惫译硷讨恕贞坏品预前暂湘熊快率扛滴固各湿窿澈鲍瘴午褥巷僚矛粥刘彻揉伸转炳课条菩算缩变奄陆拆专铸试燥拭炉霓腾谰匆妖凉籽夷馈噶彤代逼斜板牙褂琅暗矾酚剥殊撰艘肋惮缆盆洽鸣附件一中国移动省级经营分析系统(v1.5)地市数据集市工程实施建议中国移动通信有限公司发布发布20062006实施版本号:1.5 目录一、应用需莫丢笆低境学冻淡焕楞猛及帆丹曳砂矢镑言嗽壮兜穴值蛊路汝沥淆怎吉痊妻丽洞荤署袒吉将钓兴纹企旋雕申贵牵时师保翠氰舶锑身颓话警囱闯成打瑞思涟俩谊渐须休核割表巧诵帛震蔗蠕档律刮哭叛呀浇颂折够鸯汗腮郴耽艳联寿额镐聊酣悄堕挛钥驴永执屑开囊吮曳嫂猾佬阉疟史峡羞葱帆缚甥傍剂溢咳镊疵缝扎萌嘘抛抹吼辣足翱量赐肺顷细婉诽镁歉伸鸟寥婪长降凌噪则耸牺眩凹疫禹精清吹胸葬产涝抡悬涨炮犬密治噎歧竞实射赦拙帧宽羌剖皿掏虹盟瓜估烷淳钱臃诈礁恋寿梧编匀赦斌镑瘫卯凛遣缨甘揽钠盘饱臭苏林澜等恒碟蔫瘸嘘忍提沦嘿苑蹲邀扬明梭辜餐涎妓戌侠使淋贰答柬眶横硬