您能预测哪些客户有可能流失吗.doc

资源描述

您能预测哪些客户有可能流失吗？本章中，我们将阐述可预测哪些客户在不久的将来可能会从您公司流失的数据挖掘方法，电信业务常将这种方法称为客户流失预测。如今，电信业务市场日渐成熟，电信公司也意识到主动性客户关系管理的重要性，从而非常关注对现有客户服务，即如何维系重要客户，以及怎样使之为公司带来更丰厚的利润？通过数据挖掘，您可以根据客户历史数据获得数据挖掘模型，从而生成公司很可能流失的客户列表。最终，这将为您制订有效的市场营销战略提供有价值的业务洞察力，以防止公司客户的流失。本章所阐述的客户流失预测过程是以采用数据挖掘方法的预测建模为基础的，包括对每个客户的流失可能性的预测，以及对可能流失客户及不会流失客户的分类。 5.1 业务需求客户流失预测通常因其市场饱和度和动态市场变化等典型市场特征而成为电信公司首要考虑的问题。由于电信市场日趋饱和，所以获取新客户的成本比留住现有客户群要昂贵得多，并且竞争对手、技术，以及法律法规等动态市场变化更容易使客户流失到其他公司。 5.1.1 数据挖掘的作用何在？客户流失管理要求对客户行为具有良好的了解。首要问题是要弄清楚哪些客户将会从公司流失，以及哪些客户会给公司带来利润。为防止客户流失，公司需要采取的首要措施是在客户流失到其他公司前掌握客户行为，并努力找到客户流失的行为模式，这样公司就可以提前采取一些规避措施。您可以通过简单的查询方式、 OLAP 分析，或仅根据经验来了解客户行为。但是，在把握与客户流失相关的客户行为的过程中，数据挖掘起着极其重要的作用，而这些客户行为隐藏在诸如呼叫事务等庞大的数据集中。应当建立合适的数据挖掘模型来识别客户流失行为模式，并为客户提供适当的产品和服务以防止流失。在以下章节中，我们将阐述如何应用数据挖掘方法来防止电信企业的客户流失现象，以及如何将其应用到您的 CRM 系统中。 5.1.2 起点？该通用方法的第一步是把您要提出的业务需求转换成一个或多个可通过数据挖掘解答的问题。客户流失预测是一种不断变化的过程，而非单一事件。客户流失预测与公司的客户保持过程密切相关。客户保持过程涉及三个方面： .. 明确哪些客户可能会流失。 .. 确定可能流失的客户中您需要保留哪些客户。 .. 开发客户保持策略(开展客户保持活动)以防止好这些客户流失。作为客户保持过程的基础，客户流失预测对公司而言是一件非常有意义的工作。然而，客户流失预测所面临的挑战在于，如何预测未来的客户行为，以及如何根据这一预测针对客户采取相应的措施。 74 重要的一点是，必须牢记：成功的客户流失预测模型需完全适合公司客户保留程序。客户流失预测建模不仅包括对客户流失情况进行评分，还包括业务战略开发中会用到的客户流失描述。我们将详细讨论数据挖掘是如何利用您公司可用的变量来让您预测哪些客户很可能会流失。其中的基本假设是，从公司流失的客户在流失之前都会出现一些显而易见的行为或特征。因此，您可以在其从公司流失之前尽早发现这些行为。在构建客户流失预测模型时，我们并不建议您对各种各样的客户流失情况进行整体预测。对客户流失进行明确的定义，并对流失类型加以过滤，将会使预测能力最大化，从而使其对业务用户更具意义。以下章节阐述的客户流失定义和流失过滤是流失预测过程中最为重要的步骤之一。 5.1.3 客户流失的定义客户流失是客户因某种原因而离开为其服务公司的一种常见行为。客户离开某公司的原因多种多样。根据客户流失原因，我们可识别不同种类的客户流失。可根据促成客户流失的责任方(公司或客户)来对客户流失进行分类。自愿流失如果导致客户流失的首要责任在于客户本身，我们称之为自愿流失。在这种情况下，可根据各种流失原因对自愿流失进行进一步细分，如：合同到期、手机变更、服务质量、业务竞争、专业流失、技术更改、法律法规变更等等。总之，一切不属于非自愿流失的客户流失都被认为是自愿流失。提示：自愿流失的原因多种多样，但主要取决于各个国家的电信政策。例如，如果客户对公司应尽的义务有一定时间期限，那么客户流失的主要原因就可能是合同到期。但是，如果客户对公司没有义务，那么更常见的客户流失原因可能是客户的专业发生变化。专业流失客户总是希望从其他服务提供商处获得更好的服务，因此会频繁地改变向其提供服务的公司。非自愿流失非自愿流失是指客户流失责任在于公司的一种客户流失。造成这种情况下，可能是因为公司因为某种原因(如：资信问题)而决定终止向客户提供服务。 5.1.4 客户流失过滤根据公司的客户流失原因定义不同的客户流失类型是非常重要的，因为如果我们能针对每一种模型来预测特定类型的客户流失，那么在建立和实用预测模型时，流失预测的效果就会更好。提示：区分客户流失类型的另一种方法是：首先，根据将从公司流失的客户情况建立模型，然后再利用其它模型确定流失原因(客户流失类型)。用于区分不同客户流失类型的过滤程序包括以下步骤： .. 弄清楚客户流失类型(从某个公司(国家)流失到另一公司(国家))。 .. 确定需要预测的客户流失类型。 .. 定义把该类客户流失同其他客户流失类型区别开来所需的过滤过程。本章中，将以无线公司的私人用户为例来进行自愿客户流失预测，其中不涉及哪些为获得更好服务而从公司流失的客户。有关因资信问题而导致的非自愿客户流失，请参阅第 6 章“如何发现客户的真正价值”。 5.2 备用数据很显然，如果没有关于您客户的数据，您就无法进行数据挖掘。但是，哪些数据才是您需要的呢？数据挖掘方法的第二阶段将识别哪些数据是解决业务需求所需的数据，以及从何处获取这些数据。以下是电信公司客户流失预测建模一般所需的数据类型： .. 客户流失指标 .. 客户信息数据 -人口统计数据 -合同数据 .. 呼叫数据 .. 计费和支持数据 .. 根据事务数据推导出的客户指标 .. 其它数据 5.2.1 客户流失指标在预测建模过程中，我们需要用于建立预测模型的目标变量。即需要预测的变量；本案例中为客户流失变量。 5.2.2 客户信息数据客户信息数据可分为两组。一组是客户人口统计学数据，另一组是与客户合同相关的数据。人口统计学数据诸如年龄、性别、职业等客户统计数据可在首次向其提供电话服务时由客户提供，这些数据对于识别或阐述客户群的特征非常有用。但是，某个客户的私人信息可能会随时发生变化，并且，如果公司不经常收集可靠数据的话，这些就容易变得过时或不准确。合同数据合同数据是一些与客户合同相关的数据，如合同开始时间、价格方案、支付方式、服务描述、客户所选手机类型等。这些信息可通过最初的合同收集，但它们可能会因之后的公司策略或客户计划的变更而改变。有时，合同变更信息对客户流失预测而言是最有用的信息。因为电信行业的市场情况和政策因公司 (或所在国 )的不同而不同，因而我们不能对客户流失预测最有用的因素一概而论。 5.2.3 呼叫数据呼叫数据可以各种方式对客户呼叫行为进行描述。通常，呼叫数据应可在一定时间范围内进一步汇总，以供客户流失预测建模时使用。在该案例中，我们使用了过去 6 个月的呼叫数据。呼叫数据可用呼叫次数、呼叫记录，或呼叫额表示。与呼叫相关的信息可成为决定客户流失的重要因素之一，通常表示为推导数据的基础。呼叫数据可分为三组。一组为呼叫频率，一组为呼叫质量，第三组为呼叫模式。呼叫频率呼叫频率数据可用客户呼叫行为表示，如：对最常用电话号码的呼叫次数、对不同电话号码的呼叫次数等等。呼叫质量呼叫质量数据包含有关客户在呼叫期间是否遇到问题的信息。成功呼叫次数、中断呼叫次数和失败呼叫次数均是表示呼叫数据质量的参数。呼叫数据质量常常是预测客户流失行为的有用数据。呼叫模式呼叫模式数据用于描述与特定时间范围或某种呼叫类型相关的客户行为。呼叫模式数据可以折扣时间范围内的呼叫次数、夜间呼叫次数和来电次数为例。 5.2.4 计费和支付数据计费和支付数据可包含计费数额、客户给公司带来的收入和欠款数额等信息。对因资信问题引起的非自愿客户流失问题与自愿客户流失问题而言，此类信息具有重要作用。 5.2.5 根据呼叫事务数据推导的主要指标正确推导产生的主要指标 (亦称主要指标或主要性能指标 )可将实际业务经验转化成数据，而客户行为则可利用从详细呼叫数据推导而来的数据得到充实。推导指标的示例对客户流失预测建模有着重要作用。在第 81页的 5.3 节“初始化及及预处理数据”中，您可找到对部分此类指标的详尽阐述。 .. 呼叫质量指标 .. 呼叫行为趋势指标 .. 客户影响范围指标 .. 灵活性指标 5.2.6 其它数据可能有些特定因素会被公司内客户流失管理部门根据经验认为是很重要的因素，如：客户索赔数据和竞争对手的信息数据。客户索赔数据可用于描述客户对您服务的满意度。竞争对手信息可帮助公司识别其他公司可能导致您客户大量流失的行为。 5.2.7 用于客户流失预测的数据模型表 5-1 是本章用于客户预测建模的变量样表 ——资料来源于一家无线电信公司。表 5-1 数据模型样表变量名说明 CHURN_INDICATOR 1 Churn 时间延迟后客户是否从公司流失。 CUSTOMER INFO 变量名说明 2 Age 年龄 3 Gender 性别 4 Job 职业 5 Agent 首次使用电话的地方 6 Handset_type 手机型号 7 New_handset 现在使用的手机是或不是新手机。 8 Priceplan 价格计划 9 Pay_method 支付方式 10 Status 客户当前联系状态(可联系、暂时不可联系等) 11 Grade 客户等级(金、银、铜牌客户等) 12 Contract_exp 合同到期日。 13 Tenure 自开始业务关系以来已持续了多少个月。 14 Suspen_before 在最近 6个月内电话被中止的次数。 15 Discon_before 最近 6个月内电话打不通的次数。 16 Handset_ch 手机型号变更次数。 17 Pay_method_ch 支付方式变更次数。 18 Priceplan_ch 价格计划变更次数。 19 Svc_call 呼叫相关服务(呼叫转发、呼叫等待)的次数。 20 Svc_info 信息相关服务(如 SMS)的次数。 21 Svc_data 数据相关服务的次数。 22 Svc_discount 与折扣优惠计划相关服务的次数 23 Svc_free 免费服务的次数 24 Svc_nonfree 有偿服务的次数呼叫变量名说明 25 Total_dur 总通话时长分钟数。 26 Inbound_dur 拨出呼叫的时长。 27 Discount_share 折扣优惠呼叫(常规呼叫方面)。 28 Complet_call 3个月内完成呼叫的次数。计费/支付 29 Revenue 收入 30 Bill_amt 话费额 31 Pay_delayed_before 费用支付延迟发生过多少次？推导指标 32 Outsphere 拨打不同电话号码的次数。 33 Mobility呼叫期间所访问的网元的数量。 34 Concentration 就总呼叫次数而言，对最常用两个电话的呼叫。 35 Quality与失败呼叫相关的成功呼叫。 36 Call_trend N 个月内的呼叫记录(分钟)趋向。 5.3 初始化及预处理数据为了创建我们的数据模型，我们必须收集所有的原始数据，并将其转换成数据模型所需的格式。我们称此阶段为过程初始化及预处理阶段，即数据挖掘方法的第三阶段。但是，在把数据初始化成进行数据挖掘所需格式的综合表格、视图或平面文件之前，客户流失预测需要考虑预测特征所需要的其它因素——以历史数据为基础预测未来。确定时间窗口在初始化所有已定义数据时，有必要指明建议采用的数据采集时间范围。 81 为了确定在模型中将要使用哪些客户流失信息及客户数据时间范围，您应定义以下三个项目： .. 数据窗口：用于构建模型的输入变量时间范围。 .. 预报窗口：用于预测和在初始化目标预测变量(客户流失指标)时采用的时间范围。客户流失预测模型常指“WHO以及 WHEN”模型，这种模型试图解决“哪些客户会从公司流失”和“这些客户将在什么时候离开公司”的问题。预报窗口是客户流失建模的“WHO”部分。在建模阶段，预报窗口是确定客户是否会离开为其提供服务公司的时间框架。 .. 时间间隔：数据窗口和预报窗口之间的时间间隔。在此，我们取数据窗口为六个月、时间间隔为两个月、预报窗口为一个月，如图 5-1 所示。在建模阶段，客户流失信息将和从二月到七月这六个月时间内的、在七月底以前现有客户的历史数据一起使用，无论这些客户是否会在十月离开公司都是如此。在预测十一月可能流失的客户时，可对八月底以前的现有客户采用这种模型。因此，在九月初，市场营销人员可得到十一月份公司可能流失的客户列表，这样公司就有两个月的时间来制定并实施适当的市场营销措施。在研究客户流失模式的历史数据后，您就可以针对数据窗口做出决定。如果因为外部影响而存在一些异常的客户流失情况，您就最好避开某些时间范围。用最新的可用数据时间范围来构建预测模型是非常好的数据窗口示例。图 5-1 预测建模时用到的时间范围示例时间间隔越小，模型的性能就越佳。然而，时间间隔还表示活动规划和执行持续时间。时间间隔越长，意味着市场营销人员就有更多的时间设计有效的客户保持活动；而采用更长的时间间隔，预测模型就可预测更远时间的情况。预测客户流失情况时，至少需要一个月的时间间隔。换句话说，市场营销人员至少需要一个月的时间来根据客户流失预测建模结果来准备客户保持活动。可在对时间间隔为一个月、两个月和 N个月模型性能进行比较后对时间间隔进行定义。例如，如果时间间隔为两个月的模型在性能上类似于时间间隔为一个月的模型，那么选用时间间隔为两个月的模型对于市场营销人员来说就是有利的。但是，您公司的市场营销过程应在确定时间间隔之前考虑。提示：自愿客户流失预测中常犯的错误是构建了没有任何时间间隔的预测模型。例如，模型可以利用十一月以前 (包括十一月份 )的所有可用数据预测十二月份的自愿客户流失情况。无时间间隔的模型只是纯粹的理论模型，因为在现实中，十一月份的数据只能到十二月初才可以获得。从业务角度看，这种模型是无用模型，因为市场营销人员制定有效客户保持计划通常需要至少数星期的时间。预报窗口的时间间隔可为数个月，而决策是根据市场营销要求和模型性能为基础的。创建训练及测试数据集预测建模需要创建训练及测试数据集。训练数据集用于创建初始模型。初始模型构建完毕后，需利用测试数据集对所建模型加以改进。测试数据集具有与训练数据集相同的变量，但二者的客户记录则不尽相同。其用于检查为拟合训练数据集而创建模型时出现的过适应问题。通过随机拆分数据集可将数据拆分成训练数据及测试数据。使各数据集中的客户流失比例大致相同这一点非常重要。有时，在您所提供的数据中，客户流失比例非常低。通常将这种情况称为“薄靶”。当开发模型时，若不考虑到这一点，就可能得到不符合要求的结果。例如，如果公司的客户流失率为 1%，就建议您采用具有诸如 1%之类的较低客户流失频率的数据集来创建预测模型。之后，就可以非常迅速地利用数据挖掘方法来创建将各种情况均标识为负值 (非流失客户 )的优质模型 (精确度达到 99%)。不过，这不能提供任何新信息。一个原则是，如果您要预测的结果占整个数据集不到 10%，通常应作适当调整。这一问题的解决办法是采用一种称为错误加权的方法或采用过采样法。过采样包括创建相对事件发生率高于原始数据集的数据集。典型而最佳的方法是采用随机抽样法。所得到的数据集是原始数据集的随机分层样本。由于受您数据中事件发生率的限制，过采样的应用是受限制的。解决这一问题的办法是通过复制现有事件发生来增加更高的事件发生或从其它时间窗口添加事件发生情况。不过，这样做时必须小心谨慎，而且只能在其它方法不适用时采用。错误加权使能够为分类正确和不正确的情况设定不同的权值。这样，错误加权就可用于实施过采样而无需修改原有数据集。提示：如果在生成代表原始数据集的样品时遇到困难，您可以利用群组数为 5、类似性限值高的人口统计学分群挖掘对全部变量进行分群分组，并从每个结果群组中采样。所有变量的定义见第 5.2节“备用数据”，建议把它们合并在一张表或视图中，以用于作为客户流失预测建模的输入数据。以下章节将阐述从何处可获取正确数据集，以及如何获取。 5.3.1 客户流失指标客户流失指标变量的值根据客户流失定义而确定，而该变量则根据所定义的数据窗口、预报窗口和时间间隔生成。客户流失指标只有当数据窗口中现有客户离开预报窗口中的公司时才有效，反之则无效。 5.3.2 客户信息数据客户人口统计数据和合同相关数据可通过数据仓库，或包含各个客户合同信息的系统进行收集。有些变量是按业务知识分类的。例如， HANDSET(手机)是一个栏，说明客户建模涉及的手机是否是最新产品。该信息来自决定哪个型号是新型号的市场销售人员。诸如支付方式变更次数的合同变更信息可根据历史数据计算。 5.3.3 呼叫数据您可以通过数据窗口获取呼叫数据或直接从 CDR(呼叫详细记录)中获取呼叫数据。 5.3.4 计费及支付数据您可以通过数据仓库或直接从 BDR(计费详细记录)获取计费数据。 5.3.5 从事务数据推导的主要指标利用事务数据可推导出不同的主要指标： .. 呼叫质量指标 .. 客户影响范围 .. 灵活性指标 .. 呼叫行为呼叫质量指标这是衡量以各种方式定义的呼叫质量指标。定义这一指标的方法之一可以是通过多变量因子分析表示失败或丢失拨入/拨出电话数量的线性变量组合。另一种定义方法是采用从失败率(所有中断或失败的呼叫除以包括成功、中断或失败呼叫在内的所有已尝试呼叫 ) 推导出来的测量。客户影响范围可将此定义为不同拨出和拨入电话号码的和。在此我们将不同被叫电话号码的和称作出局影响范围。灵活性指标此参数是特定时间范围内所访问的不同网元的和。呼叫行为呼叫行为趋势可从过去 N个月中的呼叫分钟数推算出来。在此，呼叫行为趋势选用的时间范围为六个月。要定义呼叫行为趋势的方法之一是计算呼叫分钟数的增长率。 5.4 评估数据用于客户流失预测的数据模型已创建并迁移后，数据挖掘方法的第四阶段就是对数据本身进行初步评估。在这个步骤中，您应根据数据的分布情况初步了解您的数据，并解决丢失值、无效值、溢出值及相关性问题。这一点在第 4.4节“评估数据”中已有详细讨论。图 5-2表示的是由 Intelligent Miner for Data生成的一元统计的输出结果。 86 图 5-2一元统计丢失值或无效值示例可见图 5-2，其中 GENDER(性别)是无效值，N和 PAY_METHOD 也是无效值。您可以用 Intelligent Miner for Data中的数据处理功能来正确处理这些无效值。用于客户流失预测建模的数据评估在客户流失预测建模过程中，您需要再次执行数据评估步骤，以根据客户流失指标弄清楚变量分布的差别。利用二元统计数据，您就可以掌握如何为预测模型创建选择变量。如图 5-3所示，每行中的变量顺序向用户表明：哪个变量可能会对客户流失情况的预测影响更大。二元统计数据在 Intelligent Miner for Data中的可视化非常有利于用户直观而快捷地选择数据挖掘模型中所需的变量。第 61页上第 4.6.1节“如何读取并评估结果” 中讨论了如何读取这些柱状图和饼图的结果。图 5-3二元统计在图 5-3中，变量在图中出现的顺序可表明每个变量与 CHURN 变量明显不同的程度。如图所示，最明显不同的变量是用于两种情况的 NEW_HANDSET。图 5-3第一行有 80%的当前客户群数据集，其表示变量对比于总量的分布情况。客户拥有新的手机类型 (NEW_HANDSET)，数量超过平均值，其当前状态 (STATUS)更可能处于激活状态；他们拨打了许多不同的电话号码(OUTSPHERE_RANGE)。图 5-3第二行有 20%的数据集，表示公司已流失客户的变量分布情况，换言之，表示的是已流失客户与总量的对比情况。如图中所示，各个变量的分布情况与第一行有很大差别。这些客户的手机型号较旧，呼叫时所拨打的电话号码也较少。其呼叫质量也低于平均水平。根据二元统计，您可知道 NEW_HANDSET、STATUS、OUTSPHERE_RANGE、QUALITY 和 CONTRACT EX是最重要的五个变量，用以从整个用户集中识别流失客户。在任一行上双击鼠标进行展开，便可看到更多变量。提示：我们在此列出了五个重要变量。但是，还有各种一元度量，它们中若有任何变量相互关联，其它变量可能会提供差别更大的信息。但是，二元统计主要表示基于数据分布的统计测量，并不涉及预测概念。 5.5 数据挖掘技术选择要采用的数据挖掘技术是我们通用数据挖掘方法的第五步的内容。本节中，我们将讨论适合于客户流失预测的数据挖掘技术以及应用数据挖掘技术时需要注意的事项。 5.5.1 选择数据挖掘技术有各种数据挖掘技术可用于客户流失预测，其中有些技术适合于预测建模。通常情况下，我们采用采用分类和值预测算法： .. 决策树 .. 径向基函数(RBF) .. 神经网络——预测和分类 .. 回归法——逻辑回归和多项式回归决策树决策树生成的输出结果呈树形结构，使市场营销人员可轻松明白其含意，以及可轻松识别用于流失管理的重要变量。在构建树型模型时，可使用未经转化或规范化处理的原始变量。决策树模型将为用于预测目标变量的数据创建规则。径向基函数(RBF) 径向基函数(RBF)网络属于采用监督训练算法 (supervised training algorithm)的前向回馈式网络。径向基函数(RBF)的工作原理是把大量简单函数添加在一起。模型开发期间，不同的函数以及其相加方式都要经过调整，以符合要预测的值。神经网络神经网络的工作原理是获取输入值并在网络中传递这些输入值，而使之从初始值转换成一个或多个结果值。训练期间，在构建网络的地方，将随着错误的不断发现与解决而不断调整并改进网络。但是，神经网络不生成可简化解释的规则，并有必要对输入数据提出特殊要求。回归法回归分析是一种传统的统计方法，用于推导表达变量数量和需预测值之间关系的函数。这些方法常使用数字输入。与神经网络和径向基函数模式一样，这种方法也必须进行预处理。实际应用中有大量各不相同的回归法。这些方法与拟适用数据在函数类型上有所差别。其中最常用的是： .. 多项式回归是线性回归的延伸，线性回归使用更为详细的函数以适合这些数据。 .. 逻辑回归明显不同于其它回归方法，因为逻辑回归的输出值为 1或 0(二进制数)。要获得逻辑回归，可采用不带隐藏层的神经网络。去除神经网络中的隐藏层后，神经网络的组成就只有输入和输出节点间可调节权值(adjustable weight)。模型的组合在创建客户流失预测模型时，可在总体客户群上或专门针对几个细分开发这些模型。不同模型可按序列或平行进行组合，以获得更佳结果。模型组合示例如下： .. 创建上层细分(top segmentations)预测模型。首先细分您的移植，然后把细分编号作为输入变量，或仅针对特定细分的客户构建模型。 .. 运行多个预测模型并以结果为表决数据库。确认某产品购买预测情况的不同模型可使结果具有更高的置信度。 .. 在您数据集的不同部分构建不同的模型。 5.5.2 应用数据挖掘技术预测模型的性能好坏取决于所采用的方法和变量。因此，需要尝试多种数据挖掘技术并比较各个模型的性能，然后再选择最佳模型。该建模过程如图 5-4 所示。图 5-4 建模过程 – 应用数据挖掘技术并选择最佳模型选择适当变量通常存在大量用于建模的变量。为了识别最相关的变量，可采用二元统计方法。基本上，这将会为您提供一个变量列表，该变量是通过统计测度每个变量分布相比于整个移入的差异程度来进行排序的——这种统计方法被称作 X平方测试统计。详细见第 86页 5.4 节“评估数据”。决策树如第 81页 5.3节“数据来源分析及预处理”所述，如果数据集中的流失客户不多，就应使用错误加权函数或过度抽样。在此，我们采用了客户流失率为 2%的客户数据集。当树算法尝试对流失客户进行分类时，其可能将全部流失客户归类为稳定客户，这样整个决策树的出错率仅为 2%，这个值对该算法并无大碍。提示：Intelligent Miner for Data具有错误加权函数，该函数可防止算法把全部流失客户归类稳定客户。在该案例中，我们假设错误加权值为 10，意思是，如果某个算法把全部流失客户归类为稳定客户，则决策树的出错率将为 20%，而不是 2%。您可以根据所得到的决策树结果来调整错误加权值。也可以设置决策树的最大深度。在该案例中，决策树最大深度限定为 10。如果决策树有多个叶节点，就可能出现过适应问题。换句话说，尽管决策树的出错率低，但是如果其深度更深，该决策树将不适用于其它数据集，而且更难于解释。修剪是把某些节点和分支合并在一起，以改进有关性能和解释等的决策树能力的过程。提示：Intelligent Miner for Data内含一个自动修剪算法和停止标准，诸如节点大小、树深度和精确度等，而且还允许用户进行手工修剪。在此，决策树采用 Intelligent Miner for Data自动修剪，若分枝对市场营销前景毫无意义，则可以进行手工修剪。 RBF(径向基函数) 在该案例中，我们采用决策树中主要考虑的变量。但由于神经网络的特点，您可以采用初始运行时所使用的全部变量。此后，可以找到最合适的变量。如果客户流失率低于 5%，而且没有像径向基函数(RBF)中的错误加权这样的功能，我们可以采用分层样本 (客户流失率达到 20%)。如果采用平衡样本 (训练数据集中客户流失率为 50%)，模型的性能将会比其自身性能更高。提示：当在 Intelligent Miner for Data中适用径向基函数时： .. 针对初始运行，您可以在样本“内”和样本“外”分别将参数值设置为 50和 10。 .. 径向基函数(RBF)技术可用于分类，而不在预测值中使用。这可通过选择类别变量作为您的预测字段来进行。为了在训练模型期间进行交叉验证，在该案例中，我们将训练和测试数据集的比例设为 4:1。神经网络(预测) 在该案例中，我们采用决策树中作为主要考虑的变量来进行说明。正如上文 RBF部分所述，由于神经网络的特征，可尝试将所有变量用于初始运行中。通过对隐藏单元及诸如动力等其它选项进行调整，您就可以获得最佳结果。在该例中，我们仅调节隐藏单元。在神经网络预测中，我们还采用分层样本(客户流失率高达 20%)，因为神经网络预测中没有错误加权之类的功能。使用增益图的模型对比可利用增益图对比模型。增益图可： .. 生成由预测客户流失分数分类的、被分成多个库(如：10个库)的客户清单。 .. 计算每个库中实际客户流失的百分比。 .. 绘出每个库中实际流失客户的累积百分比。 .. 对比每个模型和随机模型的图形。随机模型是指为每个库随机选择客户；理论上，如果有 10个库，那么每个库将有 10% 的流失客户。当然，我们认为最好的模型是可在第一个库中获取最多的流失客户，或是在可使您的市场营销目的得以实现的特定点中获取最多的流失客户。评估模型的目的是将每个模型生成的预测流失客户列表与由您已有的标准所生成的预测流失客户列表进行比较。例如，如果您知道某位客户，由于其合同即将到期而很有可能会从公司流失，那么您可以将合同的终止时期作为一个标准，用以生成可能的流失客户列表，并将该列表同数据挖掘模型所生成的列表进行对比。如果您没有合同终止时期这样的变量，则可以利用随机选择的流失客户列表进行对比。 5.6 解释结果在前一节中，我们探讨了采用不同的预测挖掘技术获取挖掘结果的步骤。通用数据挖掘方法的第六阶段是解释我们所得到的结果，并确定如何将它们映射到我们的业务中。当您第一次面对结果时，第一个要问的问题是“它究竟意味着什么？”。本节中，我们将阐述如何了解并解释不同技术所获得的结果。 5.6.1 解释从业务前景预测中获得的结果此模型是通过使用决策树、径向基函数和神经网络预测而生成的，并通过采用增益图进行对比分析。在下一节中，我们将详细了解从业务前景预测中获取的结果。决策树决策树可生成带有模糊矩阵的树形模型，以查看模型的质量，如图 5-5所示。图 5-5含混矩阵在该案例中，总误差为 26.12%，这意味着： ... 1053名客户为流失客户：523名客户已正确归类，530名客户未归类。 ... 2967名客户为非流失客户：2447名客户已正确归类，520名客户未归类。 .. 共 4020名客户：1050名客户未正确归类。通过尝试客户流失数据模型的各种子选项来构建决策树，并利用测试数据集来进行验证，您可以进行叠代运算来改进您树形模型的误差率。要决定误差率是否可以接受，可利用其它测试数据集来验证该模型，以检查误差率是否稳定不变，还可以通过公司的实际情况(如客户流失率和市场营销活动能力)来加以确定。在该案例中，实际客户流失率低于 5%，而且正如您所见到的，模型准确度为 74%，而在流失客户中准确度为 50%(1053比 523)。利用测试数据集，误差率稍有上升；但是在多组测试数据集中得到的误差率保持稳定。决策树模型的图形结果如图 5-6所示。图 5-6决策树决策树从顶部开始，直到获得最佳分类结果时才停止分支。当其达到最佳结果并获得按同一规则分类的客户时，便在底部出现叶节点。通过决策树的树形可视化，您可以了解每个叶节点的分类规则，以及建立规则所需的最重要的变量。如图 5-6所示，OUTSPHERE被认为是最重要的变量，接着依次为 HANDSET、CUSTOMER RATE等，因为这些变量很可能出现在决策树的顶端部分。现举例说明被分类为非流失客户的一个叶节点。如图 5-7所示，根据所显示的规则，这些客户为： .. 采用三个或更多不同电话号码进行拨出呼叫(OUTSPHERE) .. 采用旧式手机(HANDSET) .. 开始时没有合同义务期限或合同尚未到期(CONTRACT_DUR) .. 呼叫成功率高(CALL QUALITY) 该叶节点的纯度为 81.3%。在决策树的 HANDSET节点上，您可以看到这些节点有一个向左分支的节点，这大都表示具有非流失客户。这些是使用三个或更多拨出电话号码的客户；如果它们的手机为新型号(HANDSET)，那么它们就更可能继续作为公司的客户。该规则具有 91.6% 的纯度。图 5-7 具有非流失客户规则的决策树流失客户决策树的示例如图 5-8所示。根据所显示的规则，这些客户是前三条规则与非流失客户相同，不同之处为： .. 呼叫成功率低或中等。 .. 在优惠时段(夜间、节假日、每天中的特殊优惠时段)中呼叫的数量不多。 .. 它们或者特别年轻(10到 20岁)或者是老年人(70到 80岁)。此节点的纯度为 36.7%。为什么优惠价呼叫占呼叫总量的份额与客户 (特别是十几岁的青少年 )的流失相关，这有待进一步调查。在此方面，公司在特定时段，对十几岁的青少年提供较大折扣优惠，相比于市场中的竞争对手，这具有更大的货币价值。但是，这些客户在折扣优惠时段的呼叫量并不大，可能是因为他们并不知道此项特殊折扣计划，进而导致此项优惠策略效果并不理想。而且，这些客户使用的是较早型号的手机，其通话质量不高，这使得他们在合同尚未到期就会离开公司。这是可能是结论之一。图 5-8具有流失客户规律的决策树在决策树的上部，您可以看到流失客户的另一条规律，即：客户所用手机型号陈旧，那么如果他们的合同已经到期，则表明他们是可能流失的客户。该节点的纯度为 48%。我们只考虑了决策树的右面部分，决策树左面部分的变量与呼叫的使用最为相关。如果客户使用电话的频率不高，他们就更可能离开公司。如果您能从市场角度发现更重要的变量来指示客户流失，您就可以把这些变量用于预测建模。在本案例中，手机类型和模型类型可能起到这种作用。径向基函数(RBF) 通过径向基函数(RBF)，您可以得到按地区分类或以分位数表示的结果。图 5-9分位数视图中的径向基函数对于分位数视图，可根据预测值对客户进行排序，并用预测值的分位数对其进行划分。例如，图 5-9中的第一个彩带表示的是最前面 2%的记录的二元统计数据以及它们的预测值，而最底端的彩带则表示底部 2%的记录和

展开阅读全文