客户行为研究成果-基于多目标决策树研究客户职业细分.doc

资源描述

基于多目标决策树研究客户职业细分 1 概述以客户为中心，深化客户导向的服务管理体系是中国移动2008年的重点市场工作。目前市场管理按照三大品牌分别对各类客户进行，但是随着客户和业务的不断发展，品牌对客户的区分能力逐渐弱化，需要按新的维度来重新刻画客户，使不同群体的客户特征区别更为明显，对不同的群体进行差异化的服务和营销，真正做到以客户为中心。同时，使同一群客户的价值或需求更加相似，他们对营销手段的反应也非常相似，这样就为有效的主动营销奠定了良好的基础。现代社会中，职业是决定人们生活形态和消费模式的重要因素之一。职业与人们所处的社会地位以及获得的社会资源密切相关，也与人们的收入高度相关。职业在很大程度上决定了人们对移动通信、资讯服务的需求，上班时是否需求更多的工作交流？是否要经常出差？是否经常收发邮件？关心哪方面的资讯？职业仿佛是一个巨大的力场，牵引着人们的日常运行轨迹。因此，把客户从职业角度进行细分，归纳每种职业客户的消费行为特征，就可以把握他们对移动服务需求的规则，实现更有效的客户服务和营销。 2 模型方法本项目主要解决的业务问题是根据现有客户的消费和行为数据，利用分类预测模型算法把客户按职业特点分为8个群： 1. 学生 2. 家庭主妇和离退休人员 3. 个体户 4. 中高层管理者 5. 白领 6. 蓝领 7. 求职者 8. 公务员该问题可利用数据挖掘的手段或者方法加以解决。问题本身是一个multinomial分类预测问题，目标值是以上八类职业。对于多元分类预测问题，可以选用决策树、神经网络、逻辑回归、判别分析等数据挖掘算法进行分析建模。此处我们选用决策树模型对客户进行职业细分。选用决策树模型进行多元分类预测较其他方法具有其优点： 1．相对于神经网络，决策树方法可详细了解从变量到目标的每一规则，分析每一规则每一节点下的数据特征，而神经网络方法无法了解从变量到目标的规则； 2．相对于逻辑回归，决策树方法可同时进行多目标的分类预测，而一次逻辑回归只能进行预测是否属于某一类，多元预测时需要多次逻辑回归，且回归算法对变量的要求较高，如变量正态分布、残差同分布等； 3．相对于判别分析，决策树理论更成熟，且具有更高的准确性。 2.1 多目标决策树介绍决策树方法通过自顶向下，分而治之的策略，采用信息煽理论构建树状结构，最终得到符合每组规则条件下的目标群体成为样本目标的概率，通过可读规则展示用于对定类和定序目标变量的分类。运算过程中，如果熵值越小，数据的纯度越高：同时优先选取信息增益最大的字段应用决策树模型，可以判断某一组目标群成为样本目标的可能性，用于最终决策。 2.2 利用多目标决策树研究客户职业细分的方法 2.2.1 基于多目标决策树的业务问题定义基于以上介绍的多目标决策树分析方法，可将当前的业务问题定义如下： 1. 移动通信网络中的客户行为是研究的对象，用户个体是多目标决策树分析中的分析对象； 2. 目标是通过客户的通信行为，以职业维度将客户分为学生、家庭主妇和离退休人员、个体户、中高层管理者、白领、蓝领、求职者、公务员八类职业。 3. 除了准确地对客户职业进行细分之外，还需要分析出各职业客户的属性、消费行为等方面的特征，并对未来的经营分析与业务开展具有指导意义。 2.2.2 基于多目标决策树分析的客户行为研究思路根据以上的业务问题定义，我们可以选取反映样本客户行为特征的属性，如ARPU值、MOU、数据业务费用等指标，训练多目标决策树，获得职业识别的规则，分析各类各指标的在判别职业中的作用和程度。同时利用另外的测试样本来检查职业识别的准确性。这个过程需要反复调整，来获得最好的细分模型。 2.3 基于多目标决策树的职业细分模型的构建 2.3.1 数据准备与数据探索数据准备中需注意的相关问题： 1. 提取的数据细化到每一客户，我们的分析对象层面是客户级； 2. 对于金额、时长、比例等连续性指标，需提取最近三个月每月平均值，使得数据及分析的结论具有稳定性； 3. 选择的关键性指标不宜过多，且需排除之间相关性较强的指标。当选择的指标较多时，需要用因子分析等降维方法降低维度以利于后期对类别的命名； 4. 对数据进行标准化处理。在后面数据分析全过程中，通过可视化（Visualization）工具及统计分析等方法来展示及探索（Explore）各个变量的效能，从而最终获得模型的输入变量。通过数据探索进行变量筛选的分析方法很多，因为业务目标是分类数据，此处主要以直方图分析(Hitogram Analysis)、箱线图的方法进行数据探索。通过比较变量在各类职业群体中的分布情况，观察其集中趋势，分析是否因职业不同而有显著差异。 2.3.2 客户职业细分分析通过运用Teradata Warehouse Miner中决策树进行分析： 1. 选择数据表； 2. 选择决策树分析模块，选择自变量和因变量； 3. 设置参数：选择分裂算法（splitting method）、修剪方法（Pruning Method）等参数 4. 运行程序； 5. 检查生成的树和细分的准确率。 6. 反得进行3至5步，直到得出理想的决策树。 3 模型实现 3.1 模型定义 3.1.1 样本数据职业标签数据的来源主要分为三部分： 1．移动公司委托市场调研公司以问卷调研方式获得的有效样本数据共1137个； 2．移动公司提供的个体户及家庭主妇样本数据509个，剔除名单内重复号码剩余321个； 3．运用数据挖掘的方法选取部分深圳集团客户下属成员，总共确定包括中高层管理者、学生、白领、蓝领、公务员五类共62.6万个样本，为提高准确性再经条件过滤，剩余51万有效样本。以上三种来源的职业标签数据经再次剔除重复后合计511928个。 3.1.2 问题定义分析变量： 1．客户信息类（如：品牌、在网时长……）； 2．通话行为类（如：通话次数、通话时长、通话占比……）； 3．费用类（如：ARPU、通话费用、数据业务费用……） 4．数据业务类（如：点对点短信量、点对点彩信量、是否使用手机报……） 5．交往圈类（如：交往圈人数、工作日小区号月数量……）目标变量： · 职业标签 3.2 数据探索根据对业务问题的定义，我们选取如下指标进行探索性分析：初始变量名称变量描述 c_usr_nbr 手机号 c_brand 品牌 int_occupation_flag 职业标签 si_innet_dur 在网时长 scale_data_fee 最近三月数据业务费用占比 avg_per_dur 最近三月平均每通话时长 scale_day_dur 最近三月白天通话时长占比 avg_arpu 最近三月平均arpu avg_fee 最近三月平均通话费 call_cnt 最近三月主叫通话次数 called_cnt 最近三月被叫通话次数 cdr_mms_o_cnt 最近三月外发点对点彩信数 flux_gprs 最近三月GPRS流量 full_cnt 最近三月通话次数 si_mou 最近三月平均MOU值 local_cnt 最近三月本地通话次数 long_cnt 最近三月长途通话次数 manyou_cnt 最近三月漫游通话次数 p2p_mms_cnt 最近三月点对点彩信数 p2p_sms_o_cnt 最近三月外发点对点短信数 phn_oi_cnt 最近三月交往圈人数 scale_call_called_dur 最近三月主被叫通话时长比例 scale_local_dur 最近三月本地通话时长占比 scale_long_dur 最近三月长途通话时长占比 scale_manyou_dur 最近三月漫游通话时长占比 f_cnt_12580 最近三个月拨打12580次数 f_cnt_12593 最近三个月拨打12593次数 f_cnt_12590 最近三个月拨打12590次数 int_l_cal_cnt 最近三个月与本地固话通话次数 int_staday_cell_cnt 周六小区号月数量 int_sunday_cell_cnt 周日小区号月数量 int_workday_cell_cnt 工作日小区号月数量 login_cnt 最近三个月网站登陆次数 cdr_211_cnt 是否使用211天气预报 si_139mail 是否使用手机邮箱 si_aimcon 是否使用一起玩吧 si_fet_usr 是否使用飞信 si_music 是否无线音乐俱乐部会员 si_phone_paper 是否使用手机报 si_vip 是否vip si_wap 是否使用手机wap avg_data_fee 最近三月平均数据业务费 call_dur 最近三月主叫通话时长 called_dur 最近三月被叫通话时长 day_dur 最近三月白天通话时长 local_dur 最近三月本地通话时长 long_dur 最近三月长途通话时长 manyou_dur 最近三月漫游通话时长 p2p_sms_cnt 最近三月点对点短信数 int_l_cal_dur 最近三个月与本地固话通话时长经数据探索后发现： 1. 几乎各指标在各职业群体中都体现出有差异，差异程度大小不一。 2. 个别职业群体之间有相似性，如学生和蓝领的消费行为较相似，白领和公务员的消费行为较相似。群体之间的相似性越大，类别区分的难度也越大。 3.3 多目标分类模型构建利用Teradata Warehouse Miner 的决策树进行建模。 1. 将数据随机抽样分组，训练集数据用于模型构建，测试集数据用于检测模型。 2. 此次建模所使用样本剔除了最近三月无通话记录的26043个样本（如不剔除，则会降低各群体的预测准确率），剩余485885个样本以7:3比例分成训练集数据与测试集数据分别为：340660、145225。 3. 受限于目前的条件无法获取“求职者”手机号作为模型训练的样本，未能在职业类别中预测出“求职者”这一类群体。 4. 因各职业群体样本比例悬殊，需运用统计抽样技术对各群体样本量调整，使得各群体样本比例接近现实世界的比例。 5. 经过试验比较，选择分裂算法（splitting method）为吉尼系数法（Gini Index） 6. 经过试验比较，选择最大分裂数为300，最大节点数为300，最大深度为8 7. 经过试验比较，选择决策树修剪方法（Pruning Method）为最大增益法（Gain Ratio） 3.4 结果评估经过训练后，决策树中包括以下变量：变量名称变量描述 avg_arpu 最近三月平均arpu avg_fee 最近三月平均通话费 avg_per_dur 最近三月平均每通话时长 c_brand 品牌 call_cnt 最近三月主叫通话次数 called_cnt 最近三月被叫通话次数 cdr_mms_o_cnt 最近三月外发点对点彩信数 full_cnt 最近三月通话次数 int_l_cal_cnt 最近三个月与本地固话通话次数 int_staday_cell_cnt 周六小区号月数量 int_workday_cell_cnt 工作日小区号月数量 local_cnt 最近三月本地通话次数 login_cnt 最近三个月网站登陆次数 long_cnt 最近三月长途通话次数 manyou_cnt 最近三月漫游通话次数 p2p_mms_cnt 最近三月点对点彩信数 p2p_sms_o_cnt 最近三月外发点对点短信数 phn_oi_cnt 最近三月交往圈人数 scale_call_called_dur 最近三月主被叫通话时长比例 scale_day_dur 最近三月白天通话时长占比 scale_local_dur 最近三月本地通话时长占比 scale_long_dur 最近三月长途通话时长占比 scale_manyou_dur 最近三月漫游通话时长占比 si_fet_usr 是否使用飞信 si_innet_dur 在网时长 si_mou 最近三月平均MOU值决策树的一部分如下图所示：测试结果显示除了样本量较小的个体户、中高层管理者、家庭主妇和离退休人员的较差外，其他各类群体测试准确率都较高。职业群体训练准确率训练LIFT值测试准确率测试LIFT值 1.个体户 49.27% 9.85 17.87% 3.57 2.中高层管理者 45.45% 9.09 36.42% 7.28 3.学生 58.64% 14.66 56.56% 14.14 4.家庭主妇和离退休人员 56.51% 14.13 25.04% 6.26 5.白领 59.78% 1.71 57.57% 1.64 6.蓝领 74.17% 1.77 70.58% 1.68 8.公务员 55.29% 11.06 47.05% 9.41 总体准确率 65.38% - 61.02% - 从各类职业群体的LIFT值看，除了白领和蓝领这两类职业人群占比较大的原因使得LIFT值较低（但仍然达到1.6以上），其他都较高，学生类甚至超过14，说明模型具有较好的分类预测效果。从总体看，训练准确率和测试准确率都达到60%以上，且两者差异不大，另外从各类职业看，除了样本量较小的个体户、家庭主妇和离退休人员两类外，其他类别训练与测试的准确率也相差不大，说明模型具有较强的稳定性。根据以上分析总结，认为此客户职业细分模型是有效的，达到了预期的业务目标。 4 优化方法由于样本的不均衡以及某些职业样本太小，这些职业的细分准确率并不高，需要增加各类职业群体的训练样本，特别是个体户、中高层管理者、家庭主妇和离退休人员、求职者这四类，以增强模型的预测准确性和稳定性。另一方面也会尝试挖掘新的相对于职业有较大敏感性的变量，进一步提高模型LIFT值。

展开阅读全文