基于数据仓库的数据挖掘模型应用方案建议书【方案之家】.doc

资源描述

欣晨制作数据挖掘模型应用方案建议书方案之家欣晨制作 2013年1月25日目录第1章系统概述 4 1.1 项目背景 4 1.2 建设原则 5 1.3 总体要求 6 1.3.1 基本指导思想 6 1.3.2 系统定位 6 1.3.3 功能描述 6 1.4 建设目标 7 1.4.1 近期目标 7 1.4.2 中长期目标 8 1.5 术语解释 8 第2章系统平台方案 8 2.1 硬件总体方案 8 2.1.1 基本原则 8 2.1.2 网络拓扑图及说明 10 2.1.3 硬件平台组成及功能 11 2.2 硬件配置依据 12 2.2.1 性能问题分析 12 2.2.2 数据挖掘系统磁盘存储容量计算 12 2.2.3 磁盘存储总容量 13 2.2.4 数据库服务器处理能力计算 13 2.3 系统安全控制 14 2.3.1 网络安全管理 14 2.3.2 操作系统安全 14 2.3.3 数据库系统安全 14 2.3.4 应用软件上的安全控制 15 2.3.5 数据备份 15 2.4 硬件配置方案1 17 2.4.1 产品配置清单 17 第3章挖掘模型介绍 18 3.1 xxx的流失预警模型流程 18 3.1.1 商业理解 18 3.1.2 数据理解 19 3.1.3 数据准备 19 3.1.4 建立模型 20 3.1.5 模型检验 20 3.1.6 模型发布 22 3.2 xxx的客户细分模型流程 22 3.2.1 商业理解 22 3.2.2 数据理解 23 3.2.3 数据准备 23 3.2.4 建立模型 23 3.2.5 模型检验 24 3.2.6 模型发布 24 3.3 xxx的信用度模型流程 25 3.3.1 商业理解 25 3.3.2 数据理解 26 3.3.3 数据准备 26 3.3.4 建立模型 28 3.3.5 模型检验 28 3.3.6 模型发布 29 3.4 xxx的生命周期模型设计 29 3.4.1 建模原因 29 3.4.2 建模流程 29 3.5 xxx的终身价值模型设计 31 3.5.1 建模原因 31 3.5.2 建模流程 32 3.6 xxx的交叉销售和提升销售模型设计 33 3.6.1 系统功能结构图 33 3.6.2 模块说明 33 3.6.3 数据准备程序 35 3.6.4 建模流程 36 3.6.5 交叉销售模型 36 3.6.6 提升销售模型 37 3.6.7 生产流程 38 3.6.8 交叉销售模型 38 3.6.9 提升销售模型 40 3.6.10 验证流程 41 3.6.11 交叉销售模型验证流程 41 3.6.12 提升销售模型验证流程 42 3.7 xxx的营销方案损益测算模型设计 42 3.7.1 系统功能结构图 43 3.7.2 模块说明 43 3.7.3 计算设计 43 3.7.4 测算文件模版 45 3.7.5 程序流程图 46 第4章应用解决方案 47 4.1 设计原则 47 4.2 应用三层模型 47 4.3 软件系统结构图 49 4.4 业务逻辑 49 4.5 软件功能 50 4.6 软件模块划分 50 4.7 系统内部接口 50 4.8 系统外部接口 51 4.9 模型设计步骤和流程 51 4.10 功能实现 51 4.10.1 ETL子系统实现 51 4.10.2 数据准备实现 52 4.10.3 模型自动化实现 53 4.10.4 前台展现实现 54 4.11 xxx数据挖掘模型的优势 57 第1章系统概述 1.1 项目背景面对新的世界经济格局和态势，“客户中心”理论引导商业社会的积极参与者必须为客户提供更好的产品，更优质的服务，更加适应新生活所需的个性需求，企业最终通过有市场竞争力的服务赢得客户对企业的尊重，获得企业的利润。近年电信市场竞争已经逐步由单纯的资费竞争、价格竞争、网络质量竞争转向多元化的营销模式竞争、渠道竞争、服务竞争、品牌竞争等更深层次，移动通信战场硝烟弥漫，异常惨烈，各家各出奇招，变粗放型经营为精细化经营已经势在必行。数据仓库技术是市场竞争的产物，他的目标是整合企业内部所有分散的原始的业务数据，并通过便捷有效的数据访问手段，支持企业内部不同部门、不同需求、不同层次的用户随时获得自己所需的信息。数据仓库是提供有效的决策支持，能为企业有效的管理数据提供技术上的保证。目前，已建立和使用的数据仓库应用系统都取得了明显的经济效益，在市场竞争中显示了强劲的活力。在目前日益激烈的市场竞争中如果没有有力的技术手段来支持更高一层的管理模式，是无法和强大的竞争对手进行抗衡的。从深圳目前的客观条件来看，深圳联通公司经过近10年的发展，积累了大量的客户资料、通话信息、网间通话数据等，这些都是非常宝贵的资源，但由于缺乏必要的手段，无法使用这些资源运用到对新兴客户的获取以及在网用户的二次营销上。而主要竞争对手深圳移动早已经开始了这方面的工作，针对客户流失、客户发展、竞争对手、客户消费模型等设立了多种挖掘计算专题。目前这些专题已经产生了效果，对我们经营造成了非常大的威胁，给我们的发展新客户、挽留老客户都带来了障碍。因此结合开展直复营销的契机全面在深圳的一线和二线部门提升量化营销的能力是非常必要的。基于该背景，积极通过量化营销支撑系统的建设全面提高深圳联通量化营销能力，进一步提升其市场核心竞争力,已迫不及待。 1.2 建设原则根据xxx多年的建设经验和客户的需求。系统规划和建设的原则主要包含以下几个方面： 1. 系统集中、分步实施原则采用统一原则，建立统一基础模型结构，考虑有多个模型需要建立，根据模型的重要性和紧迫性采用分步实施，先实施主要的几个模型，随后逐步实施其它模型，不仅符合运营商初期现实情况，又有效的保护了投资，使ROI最大化。 2. 以客户为中心，以市场为导向系统需满足个性化、信息化的需求。围绕以客户为中心吸引客户、方便客户、满足客户，为客户提供多样化及个性化服务，赢得客户满意的理念设计系统，以适应市场不断的变化。 3. 接口的标准化和规范化原则实现系统内部接口的标准化、规范化，并且能够实现与综合营帐、综合客服、专业计费等相关专业系统间接口的标准化、规范化。系统与外部应用应遵从双向接口，向应用提供模型数据输出以及接受模型评估后的结果进行模型自动修正。 4.具备先进性的同时规避风险充分利用开发商（xxx）在与其它各大运营商在多年合作中积累的市场、技术、客户体验的经验。充分利用xxx在深圳联通经营分析系统建设中的沟通与经验的积累。采用新的实现技术，新的管理理念使系统具备先进性，同时继承其成熟的技术，成熟的理念，有效规避建设风险。 1.3 总体要求基本指导思想 1、将数据仓库建设成为全公司、全业务、全产品的统一经营数据分析核心平台； 2、具备公司全业务、全流程的预测、调整、评估能力； 3、具备对各生产作业系统的指挥、调度、评估能力； 4、具备对各环节、各作业单元、各产品较完善的财务损益测算能力；系统定位系统定位为整个公司核心的经营分析、生产决策平台,使用模型生产的结果数据进行有效的营销。功能描述基本内容：具备对客户价值、行为、生命周期、信用等方面评分分级功能；具备对各营销方案、维系挽留政策财务损益测算功能；具备针对不同营销活动进行响应客户识别功能；功能要求具备数据挖掘能力、财务损益测算评估的能力；用户界面必须友好、人性化；具备方便的模型参数调整功能与界面，可实现参数动态灵活调整，并需要具备参数到期自动提醒功能；数据源必须丰富，不仅包含系统性数据源，还要包含计财、市场等管理性外部数据源；具备界面友好的模型评估功能；具备经营分析数据与文档统一存储功能；具备方便的可扩充的外部接口与各应用系统交互； l 具备较好的帮助功能、在线培训功能； 1.4 建设目标本工程建设，考虑到技术、投资、效益、管理等各方面，需要按照指导思想提到的“个别试点、逐步铺开”的原则来开展。目前，技术上存在效果可行性的进一步核实和论证问题，投资方需要确定投资的规模和风险，项目建成后是否可以取得预期的效果也有不确定性，管理上也需要急迫的见到工程实施后的效果，所以需要将整个工程分成以下几个阶段。近期目标中长期目标 “方案论证”à“南京、扬州试点”à“一类地市” à“二类地市”à“三类地市” 具体如何区分地市的类别，可以按照目前省公司的分类方法，也可以选用经济状况划分，分类如下：以上地市类别是按照各地市的话务收入来划分的。 1.4.1 近期目标近期目标主要，完成“方案论证”，“南京、扬州试点”和“I类地市”的应用。近期目标这样的安排，对以后规避投资风险，以及总结成功经验有好处，做好“南京、扬州试点”工作后，将使用该项技术及延伸的业务问题解决能力，推广到急需使用的、并且经济条件好的地市。 1.4.2 中长期目标中长期目标，在巩固了近期目标，并进步深化落实近期目标的基础上，总结经验后，向全省各地市铺开，全面建立数据挖掘模型基础，并解决急切的业务难题，实现项目预期的客户信用控制技术基础和应用。 1.5 术语解释 DB:Database数据库，是数据的存储组织方法。 OS:Operation Systerm操作系统，对硬件设备进行管理和对软件系统进行支撑的平台。 ETL: Extraction、Transformation、Loading数据抽取、转换、装载系统，该系统整合不同的数据源过来的数据，并对数据进行初步的规格化整理，清洗除杂。捕获率：实际上是同一用户被判断为同一用户的人数/实际上是同一用户的总人数。捕获纯度：实际上是同一用户被判断为同一用户的人数/所有用户（包括同一用户和不同用户）被判断为同一用户的总人数。第2章系统平台方案 2.1 硬件总体方案 2.1.1 基本原则硬件平台包括硬件和系统软件两个大的方面，同时，网络架构安全性的考虑也是关键的部分。系统的硬件设计中遵循以下几个基本原则： l 先进性采用当前世界先进的基于计算机网络的软件、硬件产品，从而保证系统在技术上领先。计算机产业是发展迅速的产业，新技术不断涌现，旧产品快速淘汰。选择能够长久发展的主流机种可以减缓机器更换频率，提高主机的服务年限，更好的利用设备投资。在实用的前提下,应从投资保护及长远观点做适当考虑,在技术上要保持五至十年左右的先进性。 l 可靠性系统应具有极高的运行质量，能够一天24小时连续不断工作。整个系统应采用多种系统容错手段，主要设备采用高可靠性设计，保证无故障时间满足系统要求。这就要求从硬件和软件平台的角度，能够提供高可用的解决方案。高可用方案针对可靠性、可用性、容错能力、最大无故障时间等方面提供完整科学系统方案。 l 稳定性系统必须保证稳定运行。 l 可扩展性软件、硬件平台应具有良好的可扩充、扩展能力，能够方便进行系统升级和更新，以适应各种不同业务的不断发展。市场竞争越加激烈，为了提高竞争力而不断推出新业务得以满足市场要求。这就要求系统在技术上具有强大的扩展能力，能够满足业务量的提升，同时能够为增加软件功能提供运行空间。 l 安全性充分考虑了整个系统运行的安全、备份与恢复策略和机制，可以根据不同的业务要求和应用处理，设置不同的安全措施。系统包括大量的数据，保证这些数据不被恶意破坏、非法侵取是电脑系统安全策略所要解决的内容。安全、备份与恢复策略提供网络、主机、交易等关键资源有力保护，为业务系统创造安全可信的运作空间。 l 经济性经济性原则要求系统的设计与实施必须考虑现有资源的使用和闲置情况，如存储、网络资源等的利用，尽可能使用最小的投资，完成最可靠的系统。设计应充分保护目前的设备投资并将再投资规模控制在较合理的范围之内，保证系统的建设具有很好的投资回报效应。同时系统应该还具有较低的运行和维护费用。 l 高性能平台应用具有强大而平衡的处理能力。针对系统数据量大，数据格式复杂，业务比数繁多等情况，要求服务器能够支持大规模批量处理，尤其在高峰期间能够与磁盘系统配合，使整个系统性能平衡不会出现系统瓶颈，保证系统响应大压力的数据负载。 2.1.2 网络拓扑图及说明整个系统具有以下特点： l 存储系统采用SAN网络，有利于系统存储的扩展。 l 数据库服务器配置1台，应用服务器使用1台，两台服务器做成双机互备，保证了高可用性。 l 可以采用IP映射的方式，将IP映射到firewall的DMZ区，保证系统的安全性。 l 内网与外网之间通过防火墙隔离，保证内网的安全,必要时可以采用IDS系统对系统进行入侵检测。 l 与其他系统数据传送通过firewall设备进行安全控制，这样可以避免对其他系统安全带来威胁。 l 前端可以通过专网或者Internet接入，接入可以多样性。网络拓扑结构图如下： 2.1.3 硬件平台组成及功能系统的硬件平台主要有以下设备组成： l 数据库服务器数据库服务器是系统数据处理的中心。通常把数据库服务器称为主机系统。支撑主机系统的核心系统软件是数据库支撑软件，采用Oracle10gR2 Enterprise Edition。挖掘服务器是数据模型算法中心，用在系统中用来对数据进行分析和挖掘。本系统的建设将系统的数据挖掘服务器与数据库服务器物理上采用同一台主机，采用Insightful Miner挖掘支撑工具。 l 应用服务器应用服务器是系统业务逻辑的核心，承担着前端用户的访问。 l 磁盘存储系统存储系统实际上包括联机存储和脱机存储两部分，磁盘阵列就是我们通常所说的联机存储。这部分也包括硬件和软件两块，硬件包括SAN交换机和磁盘阵列。 l 网络设备网络设备主要包括核心交换机、接入交换机、路由器等各种保证网络互联互通的设备。建议方案采用与营帐等其他系统共用方式，节省投资。 l 网络安全设备防火墙是在网络层保证系统安全的重要组成部分，它可以防止恶意攻击，也可以防止非法入侵。同时还具有网络隔离的功能，是保证系统安全的最核心、最有效部分。 2.2 硬件配置依据 2.2.1 性能问题分析首先，必须有适当的硬件体系结构,要优化网络和CPU的效用,如果要最充分的利用网络和CPU资源，则数据的布局将是很重要的。在为取得性能进行数据布局时，数据的布局会受到很多因素的影响，包括规模、数据的易变性、复制、数据的访问频率以及其他因素。其次，要有良好的数据库结构设计。如果数据库设计得不合适，不仅不能充分发挥最大作用，而且应用程序的性能则会受到影响。本系统是一个面向业务的系统，因此，如何提高效率、响应速度，是业务每一个环节都必需考虑的问题。 2.2.2 数据挖掘系统磁盘存储容量计算按50万的用户规模计算存储容量。下面将对这部分的容量进行详细计算：数据种类每用户字节数用户数量保存时间数据量（GB）（Kb）（万）（月）客户资料有关 2 50 1 0.95 客户消费数据 1 50 6 2.86 客户信用度模型 1 50 3 1.43 客户流失模型 1 50 3 1.43 行为细分模型（6个） 1 50 3 1.43 生命周期识别模型 1 50 3 1.43 客户价值模型 1 50 3 1.43 交叉销售模型 1 50 3 1.43 提升销售模型 1 50 3 1.43 挖掘宽表数据 7 50 6 20.00 挖掘临时空间 10 50 3 14.30 CDR（5条/用户/天） 0.5 50 1 0.71 详单汇总 0.7 目前1750万条/天 3 1051.42 小计 1203.21 系统表空间存储数据库系统表 8 索引表空间索引表空间，主要是一些宽表数据索引，数据量比较大 100 回退表空间设4个回退段，每个回段8G，考虑大事务处理 32 工具表空间设一个，容量为4G 4 归档日志空间设10个日志文件，每个大小为512MB 5 临时表空间存放一些临时表 8 逻辑备份空间 Exp备份 50 文件系统空间数据库应用文件及其它 20 小计　227 合计　1430.21 考虑冗余 20% 1717.98　采用raid5 25% 2147.46　总计 2147　 2.2.3 磁盘存储总容量系统的磁盘存储总容量为：磁盘总容量= 2148(GB) 同时，在配置磁盘的时候，要考虑增加适当的Hotspace磁盘做为磁盘保护，防止由于磁盘损坏严重，造成数据丢失。 2.2.4 数据库服务器处理能力计算数据挖掘处理是该系统的主要功能，也是处理过程最复杂的部分，是系统最有可能成为瓶颈的部分，因此，主机服务器处理能力依据数据挖掘过程，详细计算过程如下：以流失预警模型为例进行分析：指标名称单位数值深圳联通合约用户数（N1）万 30 深圳联通数据库服务器IBM-H85的TPCC指标（N2） TPMC 19300 深圳联通流失预警模型更新时间（T1) 小时 4 在通常情况下，一个数据挖掘模型的模型更新时间在2到6小时之间都是合理的，采取折衷方案（T2）小时 4 用户数（N3）万 50 采用类比法得出数据库服务器TPCC（S1） TPMC 32166 应用服务器按数据库服务器计算　　应用服务器TPCC值（S2） TPMC 32166 计算说明：　　 S1=N2*N3/N1*T1/T2 S2=S1 2.3 系统安全控制 2.3.1 网络安全管理采用的网络安全设备为硬件防火墙。 2.3.2 操作系统安全在小型机和web服务器使用的UNIX/LINUX上，通过限制root用户的ftp、telnet等关键服务、限制普通用户对OS的权限等策略来保证操作系统安全。也可以使用第三方软件（如安氏SystemScanner）对操作系统及服务可能存在的漏洞进行扫描，实时监控，防范于未然。 2.3.3 数据库系统安全由DBA统一规划不同用户对数据库的访问权限，而且在本系统的应用层，是通过统一的数据库帐号对数据库进行存取和访问，保证了应用层和数据库层的安全隔离。也可使用第三方软件（如安氏的DBScanner）对数据库的所有用户权限和服务进行漏洞扫描和实时监控，优秀的数据库安全软件只需要使用少量的系统资源和带宽，就能发挥重要的安全防护作用。 2.3.4 应用软件上的安全控制建设网络的目的是实现信息共享、资源共享。因此，必须解决网络在应用层的安全。应用层安全主要与企业的管理机制和业务系统的应用模式相关。管理机制决定了应用模式，应用模式决定了安全需求。因此，在这里主要针对各局域网内应用的安全进行讨论，并就建设全网范围内的应用系统提出我们的一些建议。应用层的安全需求是针对用户和网络应用资源的，主要包括： n 合法用户可以以指定的方式访问指定的信息； n 合法用户不能以任何方式访问不允许其访问的信息； n 非法用户不能访问任何信息； n 用户对任何信息的访问都有记录。系统通过技术和管理手段可解决以下安全问题： n 非法用户利用应用系统的后门或漏洞，强行进入系统。 n 用户身份假冒：非法用户利用合法用户的用户名，破译用户密码，然后假冒合法用户身份，访问系统资源。 n 非授权访问：非法用户或者合法用户访问在其权限之外的系统资源。 n 数据窃取：攻击者利用网络窃听工具窃取经由网络传输的数据包。 n 数据篡改：攻击者篡改网络上传输的数据包。 n 数据重放攻击：攻击者抓获网络上传输的数据包，再发送到目的地。 n 抵赖：信息发送方或接收方抵赖曾经发送过或接收到了信息。 2.3.5 数据备份 l 备份恢复策略在进行备份之前，首先要选择备份策略，这将决定何时需要进行备份，以及出现故障时恢复的方式。通常使用的备份方式有三种: （1）完全备份每隔一定时间就对系统进行一次全面的备份，这样在备份间隔期间出现数据丢失等问题，可以使用上一次的备份数据恢复到前次备份时情况。（2）增量备份首先进行一次完全备份，然后每隔一个较短时间进行一次备份，但仅仅备份在这个期间更改的内容。当经过一个较长的时间后再重新进行一次完全备份，开始前面的循环过程。（3）策略备份策略一般是采用完全备份与增量备份相结合的方式，一般以周为基本单位进行规划，举例如下表星期一星期二星期三星期四星期五星期六星期日增量增量增量增量完全增量增量每周五进行完全备份，其余作增量备份。 l 备份恢复方式备份从方式上讲有逻辑备份和物理备份两种：（1）逻辑备份逻辑备份方式就是指利用数据库管理软件本身的备份工具，如oracle数据库的exp和imp工具对数据库进行备份，也就是我们经常说到的数据库的导出（exp）和导入（imp），这种备份方式是将数据库中的数据用exp工具形成文件的形式，保存在磁盘上，通常采用.dmp作为文件的后缀。一旦发生数据丢失，可以利用imp工具将数据重新导入数据库中。（2）物理备份物理备份也就是我们通常所说的磁带库备份。它是数据库软件与带库管理软件共同工作完成的，例如：利用oracle的recovery manager和相应的带库管理软件协同工作，是对数据库的物理备份，也就是说，将数据库的数据文件从物理上备份下来。这种备份一般用在系统灾难恢复方面，并支持按时间点恢复。建议采用物理备份和逻辑备份互为补充的方法。 2.4 硬件配置方案 2.4.1 产品配置清单配置数量配置说明数据库服务器 1台型号：HP DL380 G5 配置： 2个Intel 双核Xeon 7120 3.0GHz 8 GB DDR 2个1000Base以太网卡 2个 2 Gb 64-Bit/133 MHz PCI-X HBA for Linux & Windows 2 146GB Universal 热插拔 Ultra 320 10K 1“ 硬盘 1个DVD-ROM 操作系统：redhat linux AS4 U5 for AMD64/EM64T 双机软件：Red Hat Cluster Suite (for AS v. 4 for AMD64/EM64T) 数据库软件：ORACLE10GR2 数据挖掘工具软件：clementine 中间件软件：JBoss 应用服务器 1台型号：HP DL380 G5 配置： 2个Intel 双核Xeon 7120 3.0GHz 8 GB DDR 2个1000Base以太网卡 2个 2 Gb 64-Bit/133 MHz PCI-X HBA for Linux & Windows 2 146GB Universal 热插拔 Ultra 320 10K 1“ 硬盘 1个DVD-ROM 操作系统：redhat linux AS4 U5 for AMD64/EM64T 双机软件：Red Hat Cluster Suite (for AS v. 4 for AMD64/EM64T) 磁盘阵列 1台型号：HP StorageWorks Modular Smart Array 1500 (MSA1500) 配置：2个磁盘阵列控制器 17块146GB硬盘 LAN Switch 1台 Cisco Catalyst 3750G-24T firewall 1台 Cisco Pix 525 KVM/控制台 1套第3章挖掘模型介绍 3.1 xxx的流失预警模型流程 3.1.1 商业理解客户是企业赢利的基础，但随着竞争的日趋激烈，客户流失也日趋严重。客户在流失之前，往往表现出一定的行为特征，通过对用户行为数据进行数据挖掘分析，能够提前预测用户可能流失的概率，从而对有较大可能流失并具有较高价值的客户提前进行重点关怀及挽留。在客户流失分析中，客户流失可分为公司内客户转移，客户被动流失，客户主动流失。 1、公司内客户转移，表现为客户转移至本电信公司的不同网络或不同业务。例如，从普通的固定电话转至IP电话。这种情况下，虽然就某个业务单独统计来看存在客户流失，但对公司整体而言客户没有流失。（可以用“指纹模型”预测这种重转网用户。） 2、客户被动流失表现为电信运营商由于客户欺诈或恶意欠费等行为而主动终止客户使用网络和业务。 3、客户主动流失主要表现客户选择了另一家运营商，即所谓的“客户跳网”。这种客户流失形式往往是研究的主要内容。研究哪些客户即将流失时，将其定位为一个分类问题，即将现有客户分为流失和不流失两类。选择适量的历史上流失客户和未流失客户的属性数据组成训练数据集，利用神经网络、决策树、logistic回归等分类建立客户流失的分类模型。Insightful Miner给出分类结果的概率值，这个值可以看作是客户的流失概率。用建立的分类模型预测可以对现有用户进行流失预测，并给出流失概率。鉴于神经网络对资源要求比较高，耗时较长；logistic回归本属于统计模型，在处理小数据量时较适合；而决策树模型无论从精度、训练时间、规则易读性等方面考虑均较优秀。 3.1.2 数据理解选取一定数量的客户（包括流失的和未流失的），选择客户属性，包括客户资料、通话行为特征、消费属性、客服信息，采用统计技术中的描述分析及可视化分析技术，以及必要的统计检验及相关性检验技术，对数据进行分析，理解数据的范围、分布状况、方差、偏度、峰度及数据间的相关性，初步确定哪些因素可能影响客户流失。流失状态定义：以上月出帐，本月不出帐的客户定义为本月流失顾客。针对大客户可以单独建模，以本月的通话行为数据、费用数据、短信行为数据与前三个月平均值相比，减少N%可定义为休眠。 3.1.3 数据准备数据准备阶段包括数据抽取、清洗、数据的转换和加载以及重构、整合、格式化、选择、抽样等。通过理解从客户入网到流失整个生命周期内的业务流程和相关要素，从数据仓库中抽取了流失客户群、客户基本资料、客户缴费资料、客户投诉资料、客户账单、客户通话资料等信息。数据挖掘项目中使用的字段属性及建模用户选择使用的客户属性：客户属性、服务属性、客户消费行为数据与客户财务数据、客户最终状态. 使用的数据：绝对值、相对值（比例、增量）字段选取：为了对所有可能影响用户流失的因素进行探索及分析，经调研，初始收集了600－700个客户相关数据字段，通过数据探索用可视化工具及统计分析方法，展示及探索各个变量对客户流失的影响，包括柱状图、频数分析、相关分析等，然后将强相关性的变量（约60多个字段）引入到最终模型中。建模用户的选择： 1、剔除服务计划标识为SZ****2、SZ****J、SZ****Z、SZ****2、SZ****Z的用户。 2、剔除测试、公免、FM市场、无线公话、无线固话、商务电话用户。 3、剔除上网卡用户。数据集准备：第i-4个月、i-3个月、i-2个月的客户行为、费用平均值＋本月流失状态数据集，作为训练集和验证集。满足限制条件的客户数为X万人，我们从中随机抽样出75%作为训练集，25%作为验证集。第i-2个月、i-1个月、i个月的客户行为、费用平均值的客户行为、费用平均值作为应用数据集，预测第i＋2个月的流失状态。 3.1.4 建立模型通过数据探索分析，把所有数据准备好之后，采用决策树算法来预测客户的流失倾向。决策树方法可以建构出合乎逻辑且易解读的决策规则。期间有2个问题要注意处理： 1、对不均衡现象的处理：流失顾客数相对于未流失用户数而言，比例非常小，如果不经处理，建立的模型就不准确。所以在建模时我们需要进行抽样，抽取流失客户和未流失客户组成建模数据，两者的比例约为1：2，另一种处理方式是在建立模型时设置流失客户和未流失客户的权重组成建模数据。通常我们采用第一种方式处理不均衡现象。 2、参数设置：剪枝参数设置，我们把剪枝参数设为75％，目的是为了既要保证模型精度，又要防止过渡拟合；设定成本矩阵参数，用于控制误判成本；设置子枝包含的最小记录数，减少模型复杂度。 3.1.5 模型检验使用了两种验证方式： 1、验证集验证：采用与建模数据同月的未参与建模的数据定义为验证集，评估模型精度。（选打分模型时使用。） 2、滞后验证：用实际流失情况验证模型预测的精度。在第i个月预测第i＋2个的流失情况，待第i＋3个月，实际流失结果出来后评估模型效果。（适用于建模初期，未投入应用时。）按运营商的要求，重点查看滞后验证的捕获率、提升率。与别的挖掘项目重点查看验证集的提升率、捕获率不一样。因而其捕获率、提升率更能体现模型精度。某运营商流失预警模型项目初期某月的滞后验证效果（摘自“某运营商流失预警模型检验结果综合报告”）预测流失月份专业编码　被预测流失用户选取比例被预测流失用户选取人数实际流失人数捕获率 30天实际流失人数　 60天实际流失人数 90天实际流失人数 200506 G 1% 1157 883 76.29% 489 290 104 200506 G 2% 2314 1758 75.98% 812 725 221 200506 G 3% 3471 2578 74.26% 1166 1157 255 200506 G 4% 4627 3346 72.32% 1514 1551 281 200506 G 5% 5784 3820 66.04% 1669 1668 483 200506 G 6% 6941 4577 65.94% 1757 2237 583 200506 G 7% 8098 4848 59.87% 1813 2343 692 200506 G 8% 9255 5039 54.45% 1864 2410 765 200506 G 9% 10412 5192 49.87% 1892 2484 816 200506 G 10% 11569 5350 46.24% 1929 2529 892 解读：选取10％的预测为流失的用户数11569人，预测要流失的当月（即第i＋2个月）流失1929人，第i＋3月流失2529人，第i＋4月流失892人，三个月内共计流失5350人，捕获率达到了46.24%，提升率达到了5.1。捕获率：捕获率＝选取的用户中实际流失用户数/选取的用户数提升率：提升率＝捕获率/实际流失率目前已实施大客户流失预警挽留模型、把流失模型与市场细分模型结合应用产生很好的效果。在实施挽留的同时结合实时预警模型（数据每日更新），提高了挽留的有效率。 3.1.6 模型发布客户流失预测分析模型中，按照客户流失倾向的高低对客户进行排序，选取流失率最高的10％的客户名单提供给运营商进行挽留。发布模型的精度，发布模型更改记录。模型发布后其精度会随挽留的实施及一些实际情况的变化而逐渐退化，因此需要定期进行模型评估，当精度显著下降时应重新调整训练模型，以保持模型的有效性。 3.2 xxx的客户细分模型流程 3.2.1 商业理解所谓市场细分就是指按照消费者各方面的属性把一个总体市场划分成若干个具有共同特征的子市场的过程。其主要目的为：使同一细分客户群体内个体之间的差异最小，使不同细分客户群体之间的差异最大。它是企业认识和分析客户、确定售销方向、选择目标客户的有效工具。客户细分可以根据消费者属性（年龄、性别、职业、文化程度、民族、家庭状况、经济收入、宗教信仰等人文特征细分），地理区域（地理区域、气候、人口分布、人口密度、城镇大小等地理环境细分），行为（按消费者的生活方式、购买频率、购买数量、商品知识、对营销方式的感应程度等购买心理特征细分），心理（敏感型，情感型，浪漫型等）进行细分。电信行业主要是根据消费者的通话行为特征、使用产品套餐及通话费用进行细分。通过调研，按各部门要求，分为市场部合约细分、市场部预付费细分、客服部合约细分、增值业务部合约细分、上网卡细分、预付费细分。 3.2.2 数据理解客户自然数据(客户标识、客户的基本类型、重要客户标识、客户信用度、客户所在区域)、呼叫行为数据(总呼叫时长、国际长途呼叫时长、国内长途呼叫时长、工作时间呼叫时长、夜间呼叫时长)、及其他类型数据(使用的资费套餐、使用的业务数量、付费方式、最近半年的话费) 3.2.3 数据准备从数据仓库忠抽取上述数据，运用数据清理、数据集成、数据变换、数据规约等技术进行预处理后得到我们需要的数据。 3.2.4 建立模型运用算法K-means聚类。K-means算法思想：首先随机选取 K 个点作为初始聚类中心，然后计算各个样本到聚类中心的距离，把样本归到离它最近的那个聚类中心所在的类。对调整后的新类计算新的聚类中心，如果相邻两次的聚类中心没有任何变化，说明样本调整结束，聚类准则函数J(c)已经收敛。本算法的一个特点是在每次迭代中都要考察每个样本的分类是否正确，若不正确，就要调整。在全部样本调整完后，再修改聚类中心，进入下一次迭代。如果在一次迭代算法中，所有的样本被正确分类，则不会有调整，聚类中心也不会有任何变化。这标志着J(c)已经收敛，因此算法结束。 3.2.5 模型检验由于细分模型是属于无监督训练，所以在检验模型时采用每月群体用户群体的转移数来评估模型。即如果群体间的转移数小，就认为模型稳定，有效；转移数大，就认为模型可能失效，需要重新训练模型。 3.2.6 模型发布发布细分模型的类中心点，发布个群体命名及各群体的特征。模型发布后会随一些实际情况的变化而逐渐退化，因此需要定期进行模型评估，当精度显著下降时应重新调整训练模型，以保持模型的有效性。市场部C网合约用户细分：族体描述节俭组这类用户人数非常多， ARPU值仅有××元，通话行为非常少，发送短信也很少，通话小区数和交往圈人数都很小，属于一类很节俭的用户。活跃组这类用户人数较少，通话行为非常多，发送短信也较多，通话小区数和交往圈人数都很多，属于一类非常活跃的用户。国内长途组这类用户人数非常少， ARPU值很高，达到了××元，国内长途通话非常多，漫游通话也较多，是一类以国内长途通话为主的用户。本地被叫组这类用户人数较多，本地被叫通话很多，通话小区数和交往圈人数都比较多，是一类以本地被叫通话为主的用户。普通组这类用户数量较多，绝大多数通话行为、

展开阅读全文