资源描述
基于多目标决策树研究
客户职业细分
1 概述
以客户为中心,深化客户导向的服务管理体系是中国移动2008年的重点市场工作。目前市场管理按照三大品牌分别对各类客户进行,但是随着客户和业务的不断发展,品牌对客户的区分能力逐渐弱化,需要按新的维度来重新刻画客户,使不同群体的客户特征区别更为明显,对不同的群体进行差异化的服务和营销,真正做到以客户为中心。同时,使同一群客户的价值或需求更加相似,他们对营销手段的反应也非常相似,这样就为有效的主动营销奠定了良好的基础。
现代社会中,职业是决定人们生活形态和消费模式的重要因素之一。职业与人们所处的社会地位以及获得的社会资源密切相关,也与人们的收入高度相关。职业在很大程度上决定了人们对移动通信、资讯服务的需求,上班时是否需求更多的工作交流?是否要经常出差?是否经常收发邮件?关心哪方面的资讯?职业仿佛是一个巨大的力场,牵引着人们的日常运行轨迹。因此,把客户从职业角度进行细分,归纳每种职业客户的消费行为特征,就可以把握他们对移动服务需求的规则,实现更有效的客户服务和营销。
2 模型方法
本项目主要解决的业务问题是根据现有客户的消费和行为数据,利用分类预测模型算法把客户按职业特点分为8个群:
1. 学生
2. 家庭主妇和离退休人员
3. 个体户
4. 中高层管理者
5. 白领
6. 蓝领
7. 求职者
8. 公务员
该问题可利用数据挖掘的手段或者方法加以解决。问题本身是一个multinomial分类预测问题,目标值是以上八类职业。对于多元分类预测问题,可以选用决策树、神经网络、逻辑回归、判别分析等数据挖掘算法进行分析建模。
此处我们选用决策树模型对客户进行职业细分。选用决策树模型进行多元分类预测较其他方法具有其优点:
1. 相对于神经网络,决策树方法可详细了解从变量到目标的每一规则,分析每一规则每一节点下的数据特征,而神经网络方法无法了解从变量到目标的规则;
2. 相对于逻辑回归,决策树方法可同时进行多目标的分类预测,而一次逻辑回归只能进行预测是否属于某一类,多元预测时需要多次逻辑回归,且回归算法对变量的要求较高,如变量正态分布、残差同分布等;
3. 相对于判别分析,决策树理论更成熟,且具有更高的准确性。
2.1 多目标决策树介绍
决策树方法通过自顶向下,分而治之的策略,采用信息煽理论构建树状结构,最终得到符合每组规则条件下的目标群体成为样本目标的概率,通过可读规则展示用于对定类和定序目标变量的分类。
运算过程中,如果熵值越小,数据的纯度越高:
同时优先选取信息增益最大的字段
应用决策树模型,可以判断某一组目标群成为样本目标的可能性,用于最终决策。
2.2 利用多目标决策树研究客户职业细分的方法
2.2.1 基于多目标决策树的业务问题定义
基于以上介绍的多目标决策树分析方法,可将当前的业务问题定义如下:
1. 移动通信网络中的客户行为是研究的对象,用户个体是多目标决策树分析中的分析对象;
2. 目标是通过客户的通信行为,以职业维度将客户分为学生、家庭主妇和离退休人员、个体户、中高层管理者、白领、蓝领、求职者、公务员八类职业。
3. 除了准确地对客户职业进行细分之外,还需要分析出各职业客户的属性、消费行为等方面的特征,并对未来的经营分析与业务开展具有指导意义。
2.2.2 基于多目标决策树分析的客户行为研究思路
根据以上的业务问题定义,我们可以选取反映样本客户行为特征的属性,如ARPU值、MOU、数据业务费用等指标,训练多目标决策树,获得职业识别的规则,分析各类各指标的在判别职业中的作用和程度。同时利用另外的测试样本来检查职业识别的准确性。这个过程需要反复调整,来获得最好的细分模型。
2.3 基于多目标决策树的职业细分模型的构建
2.3.1 数据准备与数据探索
数据准备中需注意的相关问题:
1. 提取的数据细化到每一客户,我们的分析对象层面是客户级;
2. 对于金额、时长、比例等连续性指标,需提取最近三个月每月平均值,使得数据及分析的结论具有稳定性;
3. 选择的关键性指标不宜过多,且需排除之间相关性较强的指标。当选择的指标较多时,需要用因子分析等降维方法降低维度以利于后期对类别的命名;
4. 对数据进行标准化处理。
在后面数据分析全过程中,通过可视化(Visualization)工具及统计分析等方法来展示及探索(Explore)各个变量的效能,从而最终获得模型的输入变量。
通过数据探索进行变量筛选的分析方法很多,因为业务目标是分类数据,此处主要以直方图分析(Hitogram Analysis)、箱线图的方法进行数据探索。
通过比较变量在各类职业群体中的分布情况,观察其集中趋势,分析是否因职业不同而有显著差异。
2.3.2 客户职业细分分析
通过运用Teradata Warehouse Miner中决策树进行分析:
1. 选择数据表;
2. 选择决策树分析模块,选择自变量和因变量;
3. 设置参数:选择分裂算法(splitting method)、修剪方法(Pruning Method)等参数
4. 运行程序;
5. 检查生成的树和细分的准确率。
6. 反得进行3至5步,直到得出理想的决策树。
3 模型实现
3.1 模型定义
3.1.1 样本数据
职业标签数据的来源主要分为三部分:
1. 移动公司委托市场调研公司以问卷调研方式获得的有效样本数据共1137个;
2. 移动公司提供的个体户及家庭主妇样本数据509个,剔除名单内重复号码剩余321个;
3. 运用数据挖掘的方法选取部分深圳集团客户下属成员,总共确定包括中高层管理者、学生、白领、蓝领、公务员五类共62.6万个样本,为提高准确性再经条件过滤,剩余51万有效样本。
以上三种来源的职业标签数据经再次剔除重复后合计511928个。
3.1.2 问题定义
分析变量:
1. 客户信息类(如:品牌、在网时长……);
2. 通话行为类(如:通话次数、通话时长、通话占比……);
3. 费用类(如:ARPU、通话费用、数据业务费用……)
4. 数据业务类(如:点对点短信量、点对点彩信量、是否使用手机报……)
5. 交往圈类(如:交往圈人数、工作日小区号月数量……)
目标变量:
· 职业标签
3.2 数据探索
根据对业务问题的定义,我们选取如下指标进行探索性分析:
初始变量名称
变量描述
c_usr_nbr
手机号
c_brand
品牌
int_occupation_flag
职业标签
si_innet_dur
在网时长
scale_data_fee
最近三月数据业务费用占比
avg_per_dur
最近三月平均每通话时长
scale_day_dur
最近三月白天通话时长占比
avg_arpu
最近三月平均arpu
avg_fee
最近三月平均通话费
call_cnt
最近三月主叫通话次数
called_cnt
最近三月被叫通话次数
cdr_mms_o_cnt
最近三月外发点对点彩信数
flux_gprs
最近三月GPRS流量
full_cnt
最近三月通话次数
si_mou
最近三月平均MOU值
local_cnt
最近三月本地通话次数
long_cnt
最近三月长途通话次数
manyou_cnt
最近三月漫游通话次数
p2p_mms_cnt
最近三月点对点彩信数
p2p_sms_o_cnt
最近三月外发点对点短信数
phn_oi_cnt
最近三月交往圈人数
scale_call_called_dur
最近三月主被叫通话时长比例
scale_local_dur
最近三月本地通话时长占比
scale_long_dur
最近三月长途通话时长占比
scale_manyou_dur
最近三月漫游通话时长占比
f_cnt_12580
最近三个月拨打12580次数
f_cnt_12593
最近三个月拨打12593次数
f_cnt_12590
最近三个月拨打12590次数
int_l_cal_cnt
最近三个月与本地固话通话次数
int_staday_cell_cnt
周六小区号月数量
int_sunday_cell_cnt
周日小区号月数量
int_workday_cell_cnt
工作日小区号月数量
login_cnt
最近三个月网站登陆次数
cdr_211_cnt
是否使用211天气预报
si_139mail
是否使用手机邮箱
si_aimcon
是否使用一起玩吧
si_fet_usr
是否使用飞信
si_music
是否无线音乐俱乐部会员
si_phone_paper
是否使用手机报
si_vip
是否vip
si_wap
是否使用手机wap
avg_data_fee
最近三月平均数据业务费
call_dur
最近三月主叫通话时长
called_dur
最近三月被叫通话时长
day_dur
最近三月白天通话时长
local_dur
最近三月本地通话时长
long_dur
最近三月长途通话时长
manyou_dur
最近三月漫游通话时长
p2p_sms_cnt
最近三月点对点短信数
int_l_cal_dur
最近三个月与本地固话通话时长
经数据探索后发现:
1. 几乎各指标在各职业群体中都体现出有差异,差异程度大小不一。
2. 个别职业群体之间有相似性,如学生和蓝领的消费行为较相似,白领和公务员的消费行为较相似。群体之间的相似性越大,类别区分的难度也越大。
3.3 多目标分类模型构建
利用Teradata Warehouse Miner 的决策树进行建模。
1. 将数据随机抽样分组,训练集数据用于模型构建,测试集数据用于检测模型。
2. 此次建模所使用样本剔除了最近三月无通话记录的26043个样本(如不剔除,则会降低各群体的预测准确率),剩余485885个样本以7:3比例分成训练集数据与测试集数据分别为:340660、145225。
3. 受限于目前的条件无法获取“求职者”手机号作为模型训练的样本,未能在职业类别中预测出“求职者”这一类群体。
4. 因各职业群体样本比例悬殊,需运用统计抽样技术对各群体样本量调整,使得各群体样本比例接近现实世界的比例。
5. 经过试验比较,选择分裂算法(splitting method)为吉尼系数法(Gini Index)
6. 经过试验比较,选择最大分裂数为300,最大节点数为300,最大深度为8
7. 经过试验比较,选择决策树修剪方法(Pruning Method)为最大增益法(Gain Ratio)
3.4 结果评估
经过训练后,决策树中包括以下变量:
变量名称
变量描述
avg_arpu
最近三月平均arpu
avg_fee
最近三月平均通话费
avg_per_dur
最近三月平均每通话时长
c_brand
品牌
call_cnt
最近三月主叫通话次数
called_cnt
最近三月被叫通话次数
cdr_mms_o_cnt
最近三月外发点对点彩信数
full_cnt
最近三月通话次数
int_l_cal_cnt
最近三个月与本地固话通话次数
int_staday_cell_cnt
周六小区号月数量
int_workday_cell_cnt
工作日小区号月数量
local_cnt
最近三月本地通话次数
login_cnt
最近三个月网站登陆次数
long_cnt
最近三月长途通话次数
manyou_cnt
最近三月漫游通话次数
p2p_mms_cnt
最近三月点对点彩信数
p2p_sms_o_cnt
最近三月外发点对点短信数
phn_oi_cnt
最近三月交往圈人数
scale_call_called_dur
最近三月主被叫通话时长比例
scale_day_dur
最近三月白天通话时长占比
scale_local_dur
最近三月本地通话时长占比
scale_long_dur
最近三月长途通话时长占比
scale_manyou_dur
最近三月漫游通话时长占比
si_fet_usr
是否使用飞信
si_innet_dur
在网时长
si_mou
最近三月平均MOU值
决策树的一部分如下图所示:
测试结果显示除了样本量较小的个体户、中高层管理者、家庭主妇和离退休人员的较差外,其他各类群体测试准确率都较高。
职业群体
训练准确率
训练LIFT值
测试准确率
测试LIFT值
1.个体户
49.27%
9.85
17.87%
3.57
2.中高层管理者
45.45%
9.09
36.42%
7.28
3.学生
58.64%
14.66
56.56%
14.14
4.家庭主妇和离退休人员
56.51%
14.13
25.04%
6.26
5.白领
59.78%
1.71
57.57%
1.64
6.蓝领
74.17%
1.77
70.58%
1.68
8.公务员
55.29%
11.06
47.05%
9.41
总体准确率
65.38%
-
61.02%
-
从各类职业群体的LIFT值看,除了白领和蓝领这两类职业人群占比较大的原因使得LIFT值较低(但仍然达到1.6以上),其他都较高,学生类甚至超过14,说明模型具有较好的分类预测效果。
从总体看,训练准确率和测试准确率都达到60%以上,且两者差异不大,另外从各类职业看,除了样本量较小的个体户、家庭主妇和离退休人员两类外,其他类别训练与测试的准确率也相差不大,说明模型具有较强的稳定性。
根据以上分析总结,认为此客户职业细分模型是有效的,达到了预期的业务目标。
4 优化方法
由于样本的不均衡以及某些职业样本太小,这些职业的细分准确率并不高,需要增加各类职业群体的训练样本,特别是个体户、中高层管理者、家庭主妇和离退休人员、求职者这四类,以增强模型的预测准确性和稳定性。
另一方面也会尝试挖掘新的相对于职业有较大敏感性的变量,进一步提高模型LIFT值。
展开阅读全文