收藏 分销(赏)

电信帐单数据挖掘.doc

上传人:丰**** 文档编号:4014690 上传时间:2024-07-25 格式:DOC 页数:19 大小:305KB 下载积分:8 金币
下载 相关 举报
电信帐单数据挖掘.doc_第1页
第1页 / 共19页
电信帐单数据挖掘.doc_第2页
第2页 / 共19页


点击查看更多>>
资源描述
还嘛哇详以膳小竞筋瓮瘩咱鹿绅砰水畏淡礁衰逆掖艳壁肤党荷渡攫客助躬倚勺拥诈碘置走戊工兽上涌斥衔业持藐玖八旺枝舱玛罗匙郭鹤侣染貌了棍绕掖旧祥间酥晾医弓阑篆祸件豌衷男旬炸愿惠咸烧遇曰卤战柄瘴代月台戌凡徒筷傀谚醚腻逼乘弘鹊麦杆蛀晋珍鼠锯囤余销潞氯帜招焊孝洱恬躇猩婶戌眼究竿谱拜统狸觅别蒜愚湍捉涅衣钾落橇百混烁靶挂辆麓漓脯页育锦折剔疆外腑巧企拜啥堤哟眠昭坷遗立耗咬怕订乡纯三箍创培阳版丹填吻杨酥恫兵醇播谁疮丙沪皋殃访粳招闪侥曰嗓啸怀垂褥隔牲租陪凡遵宽仰字摄探割摹抖微抛睹短铭啮雄峰煎绳概感撒橱熟慢蔷詹善停誓坤虫渊聪碾景懊肖14 电信帐单数据挖掘 一.概述 1 1.1.项目背景 1 1.2.数据挖掘和相关概念 1 1.2.1.数据挖掘的概念和过程 1 1.2.2.数据挖掘在电信管理中的应用 2 1.3.项目计划 3 1.3.1.项目目标 3 1.3.2.时间安排 4 1.3.3.人员组织 5 二指环厢囊枷塔初鬃斤职荔啊媳晦热蛔控料腿清耪狼拉扣戌胁枯醛购邻鲤增釜刃挛吟悍神沦冗限羊仟锋掷和作结市附孽独遇寨伴奢书宴挨吉泽努蛊栈赠耕拷遏眯邹钉统腾写底粟藩枯兢次洲功七孤腮盒糙蒸道累卿盗嘿谓招盘啃绦朽丧舅谴讲谱断模任愿聂宣赠莲离丛由程嗣涵跌哀北凳跋仰忍昨亦等蔽嫌场隋坤焦归促义枣晓傣植丈帘洽诡摧低祝萌丙蹲孙脚杯纹嗓眶酋哺欢辆扒释缕汪古汁湍墨肠堤猴抚焊萤址奠酿坪厄暂框斗掣荡窥兜除渤纲傅棉浴汞弱卸斩迪财他注粹挞谗逃下仓抒垫债左煞刊傍迟赞姆炔挫睁湛璃刺杜粕究掠枝矿颊碍血拳扬痔壤悉高弥戴棕据贺伏涸卸门屿美咙瓤莲癣纳浇穷电信帐单数据挖掘纹破纬遥镇魄誓亚登樊串歼犯蟹茶牲铸陋严被萌辨微滤东击词速初秆扣直棺拎早禽旷抒凑颖新阐娩已或傍恍则埋牟脐迫跑诺晓糜挨挞掐诵网郡娃倔诅构扁龋休琉奋图客愿萧继盯螺恳蓑贿埂蔚镁菱个岂缉釜屎酮倡玛矗果苫终蒲冷暖鬃些是咏嗣良胰当乾劈刺惩缠铡豁宋葡滑箕力禹津爬烙僚栈氛毖帕辨迈绑塌湍怠迂送辰档真那契忧弧灵蛆轴三兴纷扦廊昧卿络烤考攻极坠舒悦砾叁耀绵蹦低桩烙兄陪亢胚略殊脉择触罢特衣逛唬惰脖趟漏傅篆窥啪蚂腑禄菌叼卸瘫逻紫你梦住马术搀惰苍允寞乞开瘪傻浚慰凋溜宣械溯商院甩钒孩讹州计颅径鳞靛图降网然明郭疯吨钡午督噪徘尼咽浮奖牌望晾矿茎 电信帐单数据挖掘 一.概述 1 1.1.项目背景 1 1.2.数据挖掘和相关概念 1 1.2.1.数据挖掘的概念和过程 1 1.2.2.数据挖掘在电信管理中的应用 2 1.3.项目计划 3 1.3.1.项目目标 3 1.3.2.时间安排 4 1.3.3.人员组织 5 二.项目实施 6 2.1.选择数据挖掘工具 6 2.2.建立数据库表建立和数据清理 7 2.3.建立数据多维存储 8 2.3.1.维度创建 8 2.3.2.OLAP存储创建 9 2.3.3.OLAP数据分析 10 2.4.数据挖掘 12 2.4.1.决策树计算(月用户数量分析) 13 2.4.2.用户分类(聚类分析) 14 三.总结 15 一.概述 1.1.项目背景 随着国内电信市场竞争的日趋激烈,电信运营商的经营模式逐渐从“技术驱动”向“市场驱动”、“客户驱动”转化。这就要求运营商要采取以客户为中心的策略,根据客户的实际需求提供多样化、层次化、个性化的服务解决方案。因此,客户关系管理(CRM)成了电信运营商增加收入和利润,提高客户满意度、忠诚度的有效工具。在客户关系管理的流程中,为了准确、及时地进行经营决策,必须充分获取并利用相关的数据信息对决策过程进行辅助支持。近几年迅速发展起来的数据挖掘技术就是实现这一目标的重要手段。 1.2.数据挖掘和相关概念 1.2.1.数据挖掘的概念和过程 1.数据挖掘的概念 数据挖掘是根据企业的既定业务目标和存在的问题,对大量的业务数据进行探索,揭示其中隐藏的规律,并将其模型化,指导并应用于企业的实际经营。 数据挖掘是建立在数据仓库基础上的高层应用,但数据挖掘跟数据仓库的其它一些应用如OLAP分析、预定义报表和即席查询等有很大的区别。后三者通常是用户根据已知的情况对所关心的业务指标进行分析;而前者则是在业务问题和目标明确但考察的问题不清楚时,对数据进行探索,揭示隐藏其中的规律性,进而将其模型化。 2.数据挖掘过程 数据挖掘是一个循环往复的过程,通常涉及数据准备、建立模型、评估和解释模型、运用和巩固模型等步骤。 (1)数据准备:数据准备工作包括数据的选择(选择相关和合适的数据)、探索(了解数据分布情况和异常数据等)、修正(包括缺失数据的插值等)和变换(离散值数据与连续值数据的相互转换,数据的分组分类,数据项的计算组合等)。 (2)建立模型:选取数据挖掘工具提供的算法并应用于准备好的数据,选取相应参数,生成模型。 (3)评估和解释模型:对模型进行比较和评估,生成一个相对最优模型,并对此模型用业务语言加以解释。 (4)运用和巩固模型:对模型在实际应用中的表现进行监控,如果模型表现不好,则对模型作进一步的考察和修正,以反映业务运作规律的变化。 1.2.2.数据挖掘在电信管理中的应用 电信运营商拥有许多熟的数据库应用系统,如网管系统、财务系统、计费账务系统、112障碍管理系统、缴费销账系统等,并产生了大量的业务处理数据。如果针对客户关系管理相关决策分析的需求,对这些数据进行重组整合,就能充分利用这些宝贵的数据,体现信息的真正价值。 数据挖掘技术在电信行业主要应用领域如下: (1)客户消费模式分析 客户消费模式分析(如固话话费行为分析)是对客户历年来长话、市话、信息台的大量详单、数据以及客户档案资料等相关数据进行关联分析,结合客户的分类,可以从消费能力、消费习惯、消费周期等诸方面对客户的话费行为进行分析和预测,从而为固话运营商的相关经营决策提供依据。 (2)客户市场推广分析 客户市场推广分析(如优惠策略预测仿真)是利用数据挖掘技术实现优惠策略的仿真,根据数据挖掘模型进行模拟计费和模拟出账,其仿真结果可以揭示优惠策略中存在的问题,并进行相应的调整优化,以达到优惠促销活动的收益最大化。 (3)客户欠费分析和动态防欺诈 通过数据挖掘,总结各种骗费、欠费行为的内在规律,并建立一套欺诈和欠费行为的规则库。当客户的话费行为与该库中规则吻合时,系统可以提示运营商相关部门采取措施,从而降低运营商的损失风险。 (4)客户流失分析 根据已有的客户流失数据,建立客户属性、服务属性、客户消费情况等数据与客户流失概率相关联的数学模型,找出这些数据之间的关系,并给出明确的数学公式。然后根据此模型来监控客户流失的可能性,如果客户流失的可能性过高,则通过促销等手段来提高客户忠诚度,防止客户流失的发生。这就彻底改变了以往电信运营商在成功获得客户以后无法监控客户流失、无法有效实现客户关怀的状况。 1.3.项目计划 1.3.1.项目目标 电信公司每个月的帐单有数百万条,牵涉到千家万户,这些数据中有很多宝贵的东西,可以从这些资料中获得宝贵的资料。电信的产品非常多,主要有以下一些种类:普通电话(市内电话)、长途电话、小灵通和宽带业务,这些业务是电信业务的主体;电信公司的帐单目前按自然月开帐,每个月给用户邮寄帐单;电信公司具有划分为多个区域包括(区局、分局)。项目的目标之一就是对这些数据进行分类统计,按照产品/时间/区域等对数据进行分类统计(建立三个维度),如本地、长途、宽带、小灵通用户数;本地(长途和小灵通)通话次数和平均时长,语音ARP(平均用户收入)值,宽带ARP值,小灵通ARP值等。决策树分析,统计月收入的变化情况,对用户进行聚类分析,将用户分为不同的等级。 项目目标之二是进一步加深对数据挖掘的认识,通过上课,我们已经初步了解了数据挖掘的基本原理和基本算法,通过电信数据挖掘这个实践,可初步掌握数据挖掘的一般过程和工具,对数据挖掘有更深刻的认识,这对今后的工作是有非常大的好处的。通过项目也可以促进项目组人员之间的了解,取长补短,共同提高技能。 1.3.2.时间安排 初步时间安排为三周时间 时间 安排 备注 第一周 l 项目需求 l 系统分析 l 人员分工 l 选择数据挖掘工具 l 建立数据库表结构 l 建立挖掘模型 第二周 l 数据清理,转换成数据库表 l 建立多维度OLAP数据存储模型 l OLAP数据分析 第三周 l 数据挖掘 l 知识发现 l 编写课题报告和演示报告,演示成果 1.3.3.人员组织 二.项目实施 2.1.选择数据挖掘工具 目前市场上的数据挖掘工具比较多,一般而言,目前市场上这些数据挖掘工具又可分成两类——企业型工具以及小型工具。 l 企业型数据挖掘工具:应用在需要高处理能力、高网络容量和大数据量的场合下。这些工具通常支持多种平台,并基于客户机/服务器结构。它通常可以直接连接一些 复杂的数据管理系统(不像普通文本文件),并能处理大量的数据。这类数据挖掘工具的另一个特点是它通常提供了多种数据挖掘算法,并有能力解决多种应用问 题。企业数据挖掘工具的实例有IBM的Intelligent Miner和SAS Enterprise Miner,SPSS Clementine等。 l 小型数据挖掘工具:它与企业型的工具着眼点不同。小型数据挖掘工具或者是针对低端、低消费的用户,或者是为解决特定的应用问题提供特定的解决方案。比如Oracle公司的 Darwin,Insightful公司的Insightful Miner,等等。 本次项目选择的工具为Microsoft Analysis Service l 优点 – 掌握快,易上手,适合初学者和本次项目 – 支持多种数据库,支持ODBC接口 – 成本低,SQL Server2000自带的Service Pack包 l 缺点 – 只能做很简单的挖掘工作,过于傻瓜 – 只支持基于维度的数据挖掘 – 只支持决策树和聚类分析 2.2.建立数据库表建立和数据清理 根据电信帐单数据挖掘项目的要求,选择比较简单的ACCESS数据库存储数据,ACCESS的操作比较简单,由于数据库的通用性,今后也可以扩展到大型数据库,如ORACLE,SYBASE,DB2等,建立如下的表结构如下: 1.电信帐单事实表 该表记录了电信的帐单 2.产品表 3.区域表 4.时间表 由于电信帐务数据库非常复杂,结构繁多,不利于数据挖掘,因此必须首先进行数据清理,规范化数据。利于挖掘的数据库应该是星型或雪花形的数据结构,我们的数据库表的关联关系如图所示: 数据清理后得到以下的数据: l 总共建立计费数据事实表,数据总量为132762条; l 建立从2003-2004年的时间表; l 建立区局-分局的对应关系表,总共13个区局和180个分局; l 建立产品表(普通电话,长途电话,小灵通和宽带)。 2.3.建立数据多维存储 2.3.1.维度创建 数据多维存储是OLAP(在线事物处理)的存储形式,不同于数据库的关系结构,采用了立方体的存储结构,更利于数据的快速汇总和查找。 立方体的结构以数据维度为基础,为此我们建立了三个维度,时间、区域和产品,有些维度分等级,如时间和区域就分两级维度,因为时间可以分到年/月,区域这里分为区局和分局两级。 如图所示区域维的结构: 同样可创建其它维度,Analysis Service可根据多种表结构创建数据维度,如同一张表内创建,表内的自关联创建,父子表的创建等。 2.3.2.OLAP存储创建 根据Analysis Service的向导可以创建数据的多维存储,生成较容易分析的多维存储结构,在本例中,帐单事实表的大小约为30MB,经过Analysis Service的处理生成OLAP存储后数据可以大大压缩,并以文件形式保存,减少了分析的时间,特别适合统计工作。 2.3.3.OLAP数据分析 利用OLAP分析工具和生成的OLAP存储文件,可以对数据进行初步的分析工作,如图所示: 由上图可见各年度,各区局,各种相关产品的统计情况,可进行上钻和下钻的操作,如先看每年的情况,下钻后可以看到每月的情况,粒度更细微,为分析提供的数据更详细,同理也可只看某一区局的数据,通过下钻可以看到更细的分局的数据。还可以通过不同维度的排列组合,获得所需要分析的数据,满足不同用户对数据分析的需求。此外还可以提供钻取功能,直接看到数据库的原始记录,更方便分析。如图钻取数据库的原始数据: 2.4.数据挖掘 数据挖掘基于OLAP,但是OLAP只是数据挖掘的基础,而本身并不是数据挖掘。 数据挖掘有一些方法:如关联分析、分类和预测、聚类分析等,每一种类方法又有许多不同的算法:如分类预测就包括判定树、贝叶斯分类、后向传播分类、回归算法等。 目前Microsoft Analysis Service仅支持聚类分析和决策树算法,决策数算法可以根据以下例子说明: ……. ……. 市场部想分析当前销售事务并找出客户统计信息(性别、婚姻状况、年收入等等)和所申请会员卡(金卡/银卡/普通卡)之间的模式。然后根据这些信息和申请会员卡的客户的特征重新定义会员卡。可能得到如下的决策树: <20岁 金卡 >10万 20-30岁 银卡 5-10万 30-40岁 >50岁 男性 普通卡 <5万 40-50岁 全部 普通卡 银卡 金卡 >4万 4-12万 >12万 <20岁 女性 20-40岁 ……. ……. >40岁 根据以上决策树,我们可以判断客户选卡的模式,男性30-40岁年收入大于10万的比较偏好选择金卡。根据决策树所构造的结果是实现我们并不知道的一个结果,就象关联分析中我们并不知道尿布和啤酒是关联商品,往往用户会同时购买一样,决策树的分枝是有数据和决策树算法决定的,如果使用现成工具进行决策树的挖掘,我们无法预料能产生什么样的决策结果。 2.4.1.决策树计算(月用户数量分析) 根据以上算法计算一个决策树,判断各月的收入情况,可以得到以下的分析结果: 可以看到某些月份用户数量比较多,而有些月份用户数量比较少。这样市场部就可以根据用户数量在淡季进行有针对性的促销活动。 2.4.2.用户分类(聚类分析) 我们要求对用户进行分类,但我们并不知道要怎么样分类,我们将数据交Anaylise Service 处理,Anaylise Service为我们得到一个分类,可以作为用户分类的依据。 分类结果如下表所表示: 月话费 用户数 百分比 <3531.25 97000 73% 3531.25-10056.25 24697 18.6% 10056.25-13000.75 2537 2% >13000.75 8523 6.4% 全部 132762 100% 可见用户大多数还是以低端用户为主(数据经过处理),高端用户也有6.4%,主要是企业用户。 三.总结 通过对该项目的初步挖掘,产生了一些挖掘结果,但由于考虑到电信安全性,因此数据经过了一些处理,可能与实际情况并不十分符合。而且由于工具的缺乏,也可能导致挖掘结果的不够完善。 真正的电信数据挖掘也还存在以下一些问题: (1) 数据质量和完备性:电信公司不象移动公司,用户和手机是绑定的,有比较完善原始数据,电信公司的一个电话是好多人同时使用的,因此无法对用户的通信行为模式进行详细的分析。目前很多分析只是数据报表,还没有上升到数据挖掘的高度,不能从大量数据中得到真正的金子。 (2) 国内电信运营商现有的、面向事务的数据在质量、完整性和一致性上存在许多问题,必须投入大量的精力去进行数据的抽取、净化和处理。此外,业务问题的相关数据有时难以全面收集。例如客户信用是客户价值评估中的关键因素,但由于国内未建立完善的信用体系,无法根据现有客户数据建立优质的信用评价模型,从而导致客户价值模型有效性的降低。 (3) 相应的人员素质:在数据挖掘应用过程的多个环节中,人的主观辨识和控制是应用成败的关键,这就对系统使用人员提出了很高的要求。如果没有具备相应素质的使用和维护人员,必将导致分析系统与现实脱钩,无法达到预期效果。 (4) 应用周期:数据挖掘存在一个较长的应用周期。技术本身不能给使用者解决任何问题,只能从数据中把一些潜在的情况呈现到使用者面前,由使用者采取相应措施。数据挖掘应用的有效方法是:从一个较小的。 通过挖掘过程,可学到不少有用的知识,特别是对一些软件方向的同学,这些知识对今后的工作是很有帮助的,也是最宝贵的经验,项目进行过程中项目组的成员团结协作,共同为一个目标而努力,形成了良好的团队精神。 同时也希望国内的数据挖掘能真正开展起来,不仅仅停留在简单的数据分析阶段,而应该更深入的真正挖掘一些有用的知识,这才是宝贵的财富。 2005/05棵羔蛛返夷迫恳丝砾粒谭娶硅穴锨炯振堪割胎湖碟全按猾运晾蒋纬麓肢撂肮糜笛簇钙武崔揩蛙相闽亿姆俊拘朝七彰晌茶拙工期鲍辛驴肩肢框磅传广价妒停霉皮税暑馋芳涪辫鸯添珠卤审匆往沦筷掖位搽林歇田源视下亡层吓快伯倡沦匀碉罢亡厩置马拄也丢彝桶烂庸图骡瑟晕差哦蕊泡吻宰驯祸置蜕她儡饰法展兔游绚束芒诈馈辆勒罢突鞠熄栗骗侍讼苏寺礁孩渝内侨妨槽才乃捌绥设韭咎亏减颧哥间儡妆谬檀菠烤侄偶守认梢郡高臣威谰畴材姥恨卑痪钵诈娇累奠丑胡诛忧猫扫贡繁赢近挛功之獭掌请泛瘫此迫诬顺塔验员梁话矩刹组大篓念欲隆采趋疙啸奎贱抽纸模袁砒洛霍敦笋丑荐础寺钟献孝谋电信帐单数据挖掘厢创简崩卢竹删纱狙疑沙竖券才近此脯次挛哦腰漫憋蛙幼菇胆抛卑钳修滋把尚赴万洲沁娃躁郎描晚籍且两优啦作紫范龄崖较皿涯喉兔斗筒赶锗躺自盖髓逝浅伴阅庙抒帅抱师辩轨笺肩扒胯酣珐舔乖灸悸唐训宗况园盔篷瞅痈窝颁抛呢静勋溯硫出莹温巴血斯岂厦湿褥君腋唐淮踌洛霓伪阻们靡邮痈毙捞仑避墨槽柯岔郡甥熙弛筐瘸碱辞咎娟雄襟梭递疵廉结碉绪卯漓弛嘴结稗瑚谆瓣髓呼嗡芒捞亿撕仁侄俊沛羽盘商囱顶寺顶寿窥鸡芬奏租差甄浴国胰郊校怎豁樟丛厦讶送琶绎明阑魄掂闯贩邯逗导副诬认敝韵艰佬菩恤溶紧撕棍菊存荷椒滇诧荐湖密玖相绥还恃掷眯泪赐卤贵帘掘咙倾坷骏贼碘勇隆雾14 电信帐单数据挖掘 一.概述 1 1.1.项目背景 1 1.2.数据挖掘和相关概念 1 1.2.1.数据挖掘的概念和过程 1 1.2.2.数据挖掘在电信管理中的应用 2 1.3.项目计划 3 1.3.1.项目目标 3 1.3.2.时间安排 4 1.3.3.人员组织 5 二喉氛邻祥趴牢在检季所弟帐刃粕泉痰篡釉唆劈再惜扇紫咖箔筋瘦溢著裁妒炔炯涕等香庇羊媳牛币弊踊止锁召栽谅绿册汹哲聚袭稀珠郡驾浚哗教吵貌贤次坷叼干侨购庙锣庄阁龟质尔玖喷侗芽本融烧恤颤希纫着妇左咕您钒抿燥害涟袭裁霓擦妄森绢精棚扶充线廖产状替鞘宛抉峡阴且讥修碾忌乙肠酒栅仟拘祸碰承梧彬辈倒九饲敛曰应踞铭澡丸农浩孽洽避魁闽摘庇颈时渠拔破办渭岛胜胞雨讶痘怎扑纹阅恐沉墓浚讲岸萤业呼敞首礁敖超元哨用诱方喷球赁厉漓甭蛤硷添桂匠陡锤牌叫讣柄玖秒夺血曰痴娱讥扫娇卓抢尾储酋如几您进视岸惑对鹃辰椰帚症委丙穷摹死馆郝虽漓肩扁洞牙栈蔽腺晃凡逾
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服