数据挖掘技术在信用卡营销中的应用研究.doc

资源描述

数据挖掘技术在信用卡营销中的应用研究王心妍沈菊菊李猛摘要：信用卡市场竞争越发激烈。在抢占信用卡市场的过程中，独特、先进并且不断创新的信用卡营销手段是在竞争中取胜的关键。目前，应用于信用卡营销中的技术手段包括数据库营销，以及利用最新引入营销领域的数据挖掘技术进行信用卡营销。本文通过建立基于数据挖掘技术的信用卡营销响应度模型，对数据挖掘技术在我国商业银行信用卡发卡环节应用的具体方案进行了研究，从而有利于信用卡营销宣传活动的决策，提高信用卡宣传活动的针对性。关键词：信用卡营销；数据挖掘；响应度模型 1．信用卡营销理论和技术信用卡营销是指通过激发和挖掘人们对信用卡商品的需求，设计和开发出满足持卡人需求的信用卡商品，并且通过各种有效的沟通手段，使持卡人接受并使用这种商品，从中获得自身最大的满足，以实现经营者的目标。近年来，由于信用卡市场竞争越来越激烈，任何一种信用卡要想抢占更多的市场份额，都必须不断地创新其营销手段。利用计算机技术进行信用卡营销是信用卡营销手段创新的一个方向，例如，利用数据库营销为每一个目标客户提供了做出及时反馈的机会，可以帮助信用卡营销者确定谁是他们的顾客，记录顾客的喜好和行为的具体细节，并以能产生长期忠诚度的方式为顾客服务。有了数据库营销理念，在信用卡业务中，还可以通过对大量的数据进行分析，从而对某一阶层顾客的轮廓进行描述，这样可以轻松找到符合这种轮廓的新顾客，并用定制化的营销方案赢得这些顾客，也就是基于数据挖掘营销技术。 2．基于数据挖掘的信用卡营销数据挖掘技术被广泛应用到市场营销中是以市场细分原理为基础，假定“消费者过去的行为是其今后消费倾向的最好说明”。基于数据挖掘的信用卡营销实质是利用数据挖掘方法实现信用卡营销预测的过程。在数据挖掘方法中，回归模型、决策树模型是目前最常应用于营销预测方向的数据挖掘方法。本文将重点用回归和决策树模型建立数据挖掘流程从而进行信用卡营销预测。 3．基于数据挖掘的信用卡营销响应度建模本文所定义的信用卡营销响应度是指商业银行在进行信用卡营销，特别是宣传、促销活动的时候，接受营销活动的客户做出的回应，即客户提出信用卡申请的可能性。本文所要建立的信用卡营销响应度模型，是通过对商业银行目前积累的大量的客户数据进行一系列的处理，利用不同预测类数据挖掘方法对所有商业银行已有客户的信用卡营销响应度进行预测，通过评估不同模型的预测效果，选择最适合的数据挖掘方法建立完整的数据挖掘流程，从而给出每个客户对信用卡宣传活动的响应度，并同时可以得到对应于不同响应度的客户群的特征。通过建立这样一个信用卡营销响应度模型，商业银行一方面可以利用模型的预测结果，对具有不同特征、不同响应度的客户群进行有选择和有针对性的宣传活动，从而减少信用卡宣传活动的盲目性；另一方面还可以利用该模型对任意一个或多个新客户进行信用卡营销响应度预测，给出该客户的响应度。以下本文将利用SAS8.0中的数据挖掘工具EM（enterprise miner）建立信用卡营销响应度模型。 4. 信用卡营销响应度模型的数据挖掘流程完整的数据挖掘流程包括7个环节：定义商业目标（选题）；建立行销数据库（构建数据源）；探索数据（考察数据源的数据分布特征）；为建模准备数据（包括数据抽样、变量转换、目标变量设置、数据分块以及缺失值转换）；建立数据挖掘模型；评估数据挖掘模型；应用数据挖掘模型。本文的目标定义即为商业银行开发一个响应模型，通过这个模型能够对每个客户的信用卡宣传响应程度进行预测。以下本文将建立行销数据库、探索数据和为建模准备数据合并为数据准备阶段，建立数据挖掘流程。 4.1 信用卡营销响应度模型建模数据准备本文所使用的数据源为某银行截止到2006年5月1日的所有现有客户信息数据，其中被公开引用的数据已经将姓名和身份证号进行了消除敏感信息的相关转换。所引用的主要数据库属性如表1所示。其中，信用等级由银行在客户开户的时候根据其内部信用评分系统给出；年龄随系统时间更新；收入水平为年收入。对于有多个账户的客户，经过处理后将该客户的同类账户余额的汇总金额作为账户余额。表1 信用卡响应度模型的数据挖掘数据源表属性变量名变量说明变量类型取值说明 Cif _num 客户编码文本 —— Name 姓名文本 —— Sex 性别文本男，女 Certype 证件类型文本身份证、护照、军官证 Cert_number 证件号码文本 —— Birthdate_yyyy 出生年数字四位数值 Touch_addr 联系地址文本 —— Handset 联系方式文本 —— Credit_level 信用等级文本优、良、中、差 odate_yyyy 档案建立年数字四位数值 Psbk_bal 存款余额数字连续性数值 Loanbin 贷款余额数字连续性数值 Bin 不良贷款数字 0、1 “1”代表有不良贷款 Age 年龄数字系统年和出生年之差 Income 年收入数字连续数值在上述数据基础上进行的数据挖掘建模数据准备是指为实施各种数据挖掘方法而对数据源进行的包括数据探索、抽样、分块、变量转换以及缺失值替换等一系列的数据准备工作。（1）数据探索根据业务人员的经验，在本文所使用的数据源中，客户的存款余额、年龄和收入是对其信用卡持卡需求的主要影响因素，为了使抽样环节得到的样本数据更具代表性，必须先通过数据探索环节了解数据源中存款余额、年龄和收入各自的分布情况以及其互相之间的关系。利用SAS对数据源中的年龄属性进行的单变量分位数统计分析结果可知，数据源中90%分位数的客户年龄是51，10%分位数的客户年龄为20，说明80%的客户年龄在20到50之间。最大年龄80，最小年龄16，基本符合正常人群的特征。类似的操作可知，数据源中有85%的客户年收入在大约10000至50000之间，符合我国的基本收入情况。客户中只有25%的客户存款额在1000元以上，大约5%的高额存款客户存款额可高达10万元以上；有收入的客户中，年龄较低的客户存款频率较高、额度偏低，收入较高的客户存款额度较高、频率偏低。在对数据的基本特征有了一定的了解后，我们可以针对这些特征进行数据抽样。（2）数据抽样考虑到客户对信用卡营销的响应度和存款之间可能有着比较密切的关系。所以，为了使样本数据更具有代表性，我们在对原始数据抽样的时候，针对存款在1000元以上的客户记录进行大量的抽取，从而使样本中包含超出原始数据源比例的存款在1000元以上的客户。这种方法也叫过渡抽样。（3）变量筛选对于数据源中必须包含的，而对数据挖掘结果没有任何影响的变量，在数据挖掘流程中可能会影响到数据挖掘建模的分析过程，所以，对数据源中的这种变量需要进行筛选。电话号码属，将在此环节被筛掉。（4）变量转换（建立目标变量）营销类数据挖掘建模的数据样本要包含真实营销活动的客户响应变量，即客户对营销活动的回应。根据本文的目标定义，本文将数据来源行的储蓄数据库和信用卡客户数据库连接，为数据挖掘数据源增加一个新字段credit作为目标变量，将已经持有信用卡的客户的该字段值设置为“1”，没有持卡的客户的该字段值设置为“0”，表示持卡客户在曾经的信用卡营销活动中响应度为100%，而未持卡的客户的响应度为0。（5）目标变量属性设置由于我们对目标变量的预测值将涉及到我们的商业决策，而任何商业决策都要承担一定的成本，所以建立数据挖掘预测模型，明确预测模型的隐含成本是非常重要的。在本例中，我们假设为争取一个信用卡客户我们的平均固定营销成本为10元钱；而一旦某客户成为目标客户，那么他将给银行带来平均1000元的利润。这样的话，我们的预测将涉及到如下的利润关系： ① 正确的预测（样本数据的credit值为1而预测的credit值也是1）：发出信用卡宣传册，客户申请，审批成功，平均利润为￥990(1000-10)； ② 错误的预测（样本数据的credit值为0而预测的credit值是1）：发出信用卡宣传册，客户未申请，固定成本￥10。（6）数据分块一般情况下我们把样本数据分成训练数据和验证数据两部分。利用训练数据来建模，利用验证数据来拟合模型。样本数据中训练数据和验证数据的比例对模型评估结果有一定的影响。本文经过反复试验，比较利用不同数据分块比例建模得到的模型评估效果，最后确定数据分块比例为训练数据占样本数据的70%，验证数据占样本数据的30%，均采取随机抽取数据。（7）缺失值替换本文分别利用决策树和逻辑回归建立信用卡营销响应度模型的数据挖掘流程。其中，逻辑回归建模需要在进行缺失值处理之后得到的数据之上进行建模。而决策树模型由于算法本身就可以进行缺失值的处理，所以可在数据分块之后得到的数据之上进行建模。 4.2 信用卡营销响应度数据挖掘建模经过以上数据准备环节后输出的数据集就可以用来建立数据挖掘模型。 4.2.1信用卡营销响应度逻辑回归模型逻辑回归和线性回归的主要区别在于依赖变量（目标变量）是连续的还是离散的。逻辑回归的依赖变量是不连续的，而是离散的或类型变量，例如本文要预测信用卡营销活动中客户的响应只有响应和非响应两个值，所以本文选用逻辑回归进行数据挖掘建模。逻辑回归的原理可以简单地解释为一组前提、假设和结论。前提：依赖（目标）变量非连续，通过对依赖变量进行转换，使之成连续的值，即关于事件发生的概率的函数。假设：p为事件发生的概率； p/（1-p）是事件发生的可能性； ln（p/（1-p））是预测因子的线性函数结论：通过发现预测因子x和ln(p/(1-p))之间的线性关系：Ln(p/(1-p))=ß0+ ß1X1+……+ ßn Xn，导出预测系数或权重后，最终的概率用公式(1)来计算p：公式（1）结论中的回归系数的值通常采用极大似然法来估计参数，具体的步骤简述为：第一步，构造一个似然函数；第二步，取释然函数对数值，对求关于的一阶偏导数；第三步，采用迭代法求解非线性方程组：公式（2）由公式（2）解出的就是模型的参数估计。本文中，设相关客户信息变量为，客户对信用卡营销的响应概率的预测为，则在利用SAS/EM回归工具建模的相关设置如下：（1）将credit设为依赖变量；（2）根据逻辑回归原理选择LOGIT为链接方程① Logit链接方程：。；（3）由于引入的预测中存在离散的字符型变量，所以在引入回归过程的时候要进行数量化编码，又因为“信用等级”变量包括四个属性值，所以这里建模的时候选择通用线性模型法（GLM，General Linear Models）进行数量化编码② GLM编码原理：变量X有r个级别值，会产生r个二值变量，对于一个级别值i，当X=i的时候，相应的二值变量取值为1。；（4）为了逐一验证客户信息中影响目标变量的因素，选择回归方式为逐步回归法（Stepwise③ Stepwise，即每次引入模型一个最显著的变量，然后考虑从模型中剔除一个最不显著的变量，直到既没有变量引入也没有变量剔除为止），通过逐个引入数据源中的相关变量，利用上述回归原理，预测该变量和依赖变量之间的关系，最后不仅可以得到反映各个变量和依赖变量之间的关系，同时还可以得到在各个变量的作用下，每一个客户对信用卡营销响应的预测概率。将变量引入或剔除的显著性水平设置为0.05，运行上述逻辑回归设置得到如表2：表2 逻辑回归结果 Parameter DF Estimate Standard Error Wald Chi-square Pr> Chi-square Standardized Estimate Exp(Est) Intercept 1 -156.0 0.1947 6421.3.9 <.0001 . 0.000 Psbk_bal 1 2.25E-6 1.31E-7 295.28 <.0001 1.459963 1.000 Income 1 0.000123 4.43E-6 767.24 <.0001 1.084205 1.000 C_credut_level 1 152.1 0.0735 428 <.0001 . 999.000 Age 1 -0.0800 0.00569 197.71 <.0001 -0.606896 0.923 通过该结果可以看出除了变量loanbin（贷款余额）之外，psbk_bal（存款余额）、income（收入水平）、c_credit_level（信用等级）、age（年龄）四个变量作为回归方程中的主要变量对目标变量credit（营销响应）都具有很强的预测能力，其卡方概率都低于0.0001。说明在数据源中，客户的存款余额、收入水平、信用等级、年龄四个变量是影响客户在接受信用卡营销时所做出的响应的主要因素。利用Estimate值可以得到预测credit的回归方程。 4．2．2 信用卡营销响应度决策树模型建立决策树的目的是要将所有的数据对象划分到不同的组，划分的原则是极大化响应变量在每一个组中的相似性。使用决策树建模的最大好处就是结果易于解释。本文使用决策树建模的目的是将所有的客户按照一定的分类算法生成决策树，从而不仅可以得到不同营销响应率的分组人群，同时还可以进一步考察不同分组人群的分组特征，为进一步制定营销计划提供帮助。本文利用SAS/EM工具构建的CART分类树模型得到如下分类规则： ① IF 30007.5 <= 年收入 < 30036.5 THEN N ： 9 1 ： 13.1% 0 ： 86.9% ② IF 1352755.5 <= 存折余额 AND 档案建立年 < 1993.5 AND 20.5 <= 年龄 AND 30036.5 <= 年收入 THEN N ： 11 1 ： 10.7% 0 ： 89.3% ③ IF 性别 EQUALS 女 AND 11 <= 存折余额 < 1352755.5 AND 档案建立年 < 1993.5 AND 20.5 <= 年龄 AND 30036.5 <= 年收入 THEN N ： 28 1 ： 79.2% 0 ： 20.8% ④ IF 性别 EQUALS 男 AND 11 <= 存折余额 < 1352755.5 AND 档案建立年 < 1993.5 AND 20.5 <= 年龄 AND 30036.5 <= 年收入 THEN N ： 56 1 ： 54.6% 0 ： 45.4% ⑤ IF 30036.5 <= 年收入 < 32383.5 AND 1993.5 <= 档案建立年 AND 20.5 <= 年龄 AND 11 <= 存折余额 THEN N ： 152 1 ： 75.9% 0 ： 24.1% ⑥ IF 32383.5 <= 年收入 < 36552.5 AND 1993.5 <= 档案建立年 AND 20.5 <= 年龄 AND 11 <= 存折余额 THEN N ： 195 1 ： 61.5% 0 ： 38.5% ⑦ IF 20.5 <= 年龄 < 26.5 AND 36552.5 <= 年收入 AND 1993.5 <= 档案建立年 AND 11 <= 存折余额 THEN N ： 232 1 ： 79.6% 0 ： 20.4% ⑧ IF 26.5 <= 年龄 AND 36552.5 <= 年收入 AND 1993.5 <= 档案建立年 AND 11 <= 存折余额 THEN N ： 429 1 ： 71.3% 0 ： 28.7% 由以上规则可以看出，决定客户对信用卡营销响应度的最主要因素取决于客户的收入水平，在收入水平都达到一定程度（以本数据源为依据的标准为年收入30036.5元人民币以上）的时候，决定该客户是否愿意接受本银行所发出的信用卡营销活动，取决于其在本行的存款账户余额的多少。在存款余额高于一定水平的情况下，客户的响应度差别取决于其年龄。继续分支的标准是“档案建立年”，客户响应百分比最高为79.6%。利用该规则，信用卡营销决策人员就可以针对某个响应度来确定营销对象群体的特征，根据这个特征进行具体的营销策划。 4.2.3 信用卡营销响应度数据挖掘模型评估数据挖掘的一个方面是需要以满足分析目的的方式表达最终结果。对于商业数据需要评估这些模型，不仅仅是对这些模型进行分析，而且要对由这些模型产生的结果进行比较。本文利用Lift图评估上述两个模型得知：两个模型的性能接近，但模型决策树模型比逻辑回归模型效果更好。对于决策树模型和回归模型，在lift图的第一个10分位点的lift值分别为8.75和6.48，这意味着使用决策树模型的成功率是随机选择（不用模型）的8.75倍，而使用回归建模的成功率是随机选择的6.48倍。所以，决策树模型的应用效果更好。 2．数据挖掘模型结果的实践检验客户是否有贷款似乎和客户是否愿意成为银行的信用卡客户有密切的关系，原因是有贷款意味着该客户很有可能成为有意愿接受先消费后还款的消费模式的客户。所以，这样的客户才很有可能接受信用卡营销。而本文中的两个挖掘模型都没有把“贷款余额”选入模型，特别是在回归的过程中，非常明显的将“贷款余额”变量排除。这个问题是无法通过工具提供的评估和检验方法解决的。经过重新分析数据源发现，由于项目采用的数据源中，凡有存款账户的客户均没有贷款账户。通过咨询资深的业务人员得知，该数据的来源单位，由于个人客户的存款账户严格和贷款账户分离，其贷款业务不要求在本行开设存款账户，同时存款客户一般不在本行开设关联的贷款账户。所以，模型结果中存在客户存款变量的时候，将“贷款余额”变量排除是必然的。 5 .信用卡营销响应度模型的应用以上数据挖掘流程可以通过SAS工具提供的代码抽取功能生成自动运行的程序，只要给出不同符合数据挖掘数据源格式的数据，就可以得到响应的客户响应度，从而协助信用卡营销决策人员的营销决策。参考文献【1】沈育菁.中国信用卡营销策略研究[D].上海：上海交通大学，2005. 【2】 P.N.Spring,P.C.Verhoef,J.C.Hoekstra etc.The Commercian Use of Segmentation and Predictive Modeling Techniques for Database Marketing[D]. Holland:University of Groningen,2000. 【3】 Lavonne Kuykendall. The Data Mining Toolbox Credit. Card Management[J].1999,(9).30-36. 【4】 Jiawei Han，Micheline Kamber．Data Mining：Concepts and Techniques.［M］Second Edition .USA：Morgan Kaufmann Publishers Inc．2006.13. 【5】孔学峰. 数据挖掘及其在信用卡风险控制中的应用. 中国金融电脑[J].2003,(10)：22-23. 【6】 Olivia Parr Rud.数据挖掘实践[M].朱扬勇，左子叶等译.北京：机械工业出版,2003.181-201. 【7】中国人民大学统计学系数据挖掘中心. 数据挖掘中的决策树技术及其应用.统计和信息论坛[J].2002,(3)：4-11. 王心妍：西安培华学院计算机系教师电话号码：通信地址：西安市长安区培华南路西安培华学院计算机系邮编：710125 沈菊菊：原西安交大金融工程专业研究生，现任职于太极计算机股份有限公司 14 / 14

展开阅读全文