收藏 分销(赏)

客户行为研究成果-基于多目标决策树研究客户职业细分.doc

上传人:仙人****88 文档编号:9358839 上传时间:2025-03-23 格式:DOC 页数:7 大小:156.50KB 下载积分:10 金币
下载 相关 举报
客户行为研究成果-基于多目标决策树研究客户职业细分.doc_第1页
第1页 / 共7页
客户行为研究成果-基于多目标决策树研究客户职业细分.doc_第2页
第2页 / 共7页


点击查看更多>>
资源描述
基于多目标决策树研究 客户职业细分 1 概述 以客户为中心,深化客户导向的服务管理体系是中国移动2008年的重点市场工作。目前市场管理按照三大品牌分别对各类客户进行,但是随着客户和业务的不断发展,品牌对客户的区分能力逐渐弱化,需要按新的维度来重新刻画客户,使不同群体的客户特征区别更为明显,对不同的群体进行差异化的服务和营销,真正做到以客户为中心。同时,使同一群客户的价值或需求更加相似,他们对营销手段的反应也非常相似,这样就为有效的主动营销奠定了良好的基础。 现代社会中,职业是决定人们生活形态和消费模式的重要因素之一。职业与人们所处的社会地位以及获得的社会资源密切相关,也与人们的收入高度相关。职业在很大程度上决定了人们对移动通信、资讯服务的需求,上班时是否需求更多的工作交流?是否要经常出差?是否经常收发邮件?关心哪方面的资讯?职业仿佛是一个巨大的力场,牵引着人们的日常运行轨迹。因此,把客户从职业角度进行细分,归纳每种职业客户的消费行为特征,就可以把握他们对移动服务需求的规则,实现更有效的客户服务和营销。 2 模型方法 本项目主要解决的业务问题是根据现有客户的消费和行为数据,利用分类预测模型算法把客户按职业特点分为8个群: 1. 学生 2. 家庭主妇和离退休人员 3. 个体户 4. 中高层管理者 5. 白领 6. 蓝领 7. 求职者 8. 公务员 该问题可利用数据挖掘的手段或者方法加以解决。问题本身是一个multinomial分类预测问题,目标值是以上八类职业。对于多元分类预测问题,可以选用决策树、神经网络、逻辑回归、判别分析等数据挖掘算法进行分析建模。 此处我们选用决策树模型对客户进行职业细分。选用决策树模型进行多元分类预测较其他方法具有其优点: 1. 相对于神经网络,决策树方法可详细了解从变量到目标的每一规则,分析每一规则每一节点下的数据特征,而神经网络方法无法了解从变量到目标的规则; 2. 相对于逻辑回归,决策树方法可同时进行多目标的分类预测,而一次逻辑回归只能进行预测是否属于某一类,多元预测时需要多次逻辑回归,且回归算法对变量的要求较高,如变量正态分布、残差同分布等; 3. 相对于判别分析,决策树理论更成熟,且具有更高的准确性。 2.1 多目标决策树介绍 决策树方法通过自顶向下,分而治之的策略,采用信息煽理论构建树状结构,最终得到符合每组规则条件下的目标群体成为样本目标的概率,通过可读规则展示用于对定类和定序目标变量的分类。 运算过程中,如果熵值越小,数据的纯度越高: 同时优先选取信息增益最大的字段 应用决策树模型,可以判断某一组目标群成为样本目标的可能性,用于最终决策。 2.2 利用多目标决策树研究客户职业细分的方法 2.2.1 基于多目标决策树的业务问题定义 基于以上介绍的多目标决策树分析方法,可将当前的业务问题定义如下: 1. 移动通信网络中的客户行为是研究的对象,用户个体是多目标决策树分析中的分析对象; 2. 目标是通过客户的通信行为,以职业维度将客户分为学生、家庭主妇和离退休人员、个体户、中高层管理者、白领、蓝领、求职者、公务员八类职业。 3. 除了准确地对客户职业进行细分之外,还需要分析出各职业客户的属性、消费行为等方面的特征,并对未来的经营分析与业务开展具有指导意义。 2.2.2 基于多目标决策树分析的客户行为研究思路 根据以上的业务问题定义,我们可以选取反映样本客户行为特征的属性,如ARPU值、MOU、数据业务费用等指标,训练多目标决策树,获得职业识别的规则,分析各类各指标的在判别职业中的作用和程度。同时利用另外的测试样本来检查职业识别的准确性。这个过程需要反复调整,来获得最好的细分模型。 2.3 基于多目标决策树的职业细分模型的构建 2.3.1 数据准备与数据探索 数据准备中需注意的相关问题: 1. 提取的数据细化到每一客户,我们的分析对象层面是客户级; 2. 对于金额、时长、比例等连续性指标,需提取最近三个月每月平均值,使得数据及分析的结论具有稳定性; 3. 选择的关键性指标不宜过多,且需排除之间相关性较强的指标。当选择的指标较多时,需要用因子分析等降维方法降低维度以利于后期对类别的命名; 4. 对数据进行标准化处理。 在后面数据分析全过程中,通过可视化(Visualization)工具及统计分析等方法来展示及探索(Explore)各个变量的效能,从而最终获得模型的输入变量。 通过数据探索进行变量筛选的分析方法很多,因为业务目标是分类数据,此处主要以直方图分析(Hitogram Analysis)、箱线图的方法进行数据探索。 通过比较变量在各类职业群体中的分布情况,观察其集中趋势,分析是否因职业不同而有显著差异。 2.3.2 客户职业细分分析 通过运用Teradata Warehouse Miner中决策树进行分析: 1. 选择数据表; 2. 选择决策树分析模块,选择自变量和因变量; 3. 设置参数:选择分裂算法(splitting method)、修剪方法(Pruning Method)等参数 4. 运行程序; 5. 检查生成的树和细分的准确率。 6. 反得进行3至5步,直到得出理想的决策树。 3 模型实现 3.1 模型定义 3.1.1 样本数据 职业标签数据的来源主要分为三部分: 1. 移动公司委托市场调研公司以问卷调研方式获得的有效样本数据共1137个; 2. 移动公司提供的个体户及家庭主妇样本数据509个,剔除名单内重复号码剩余321个; 3. 运用数据挖掘的方法选取部分深圳集团客户下属成员,总共确定包括中高层管理者、学生、白领、蓝领、公务员五类共62.6万个样本,为提高准确性再经条件过滤,剩余51万有效样本。 以上三种来源的职业标签数据经再次剔除重复后合计511928个。 3.1.2 问题定义 分析变量: 1. 客户信息类(如:品牌、在网时长……); 2. 通话行为类(如:通话次数、通话时长、通话占比……); 3. 费用类(如:ARPU、通话费用、数据业务费用……) 4. 数据业务类(如:点对点短信量、点对点彩信量、是否使用手机报……) 5. 交往圈类(如:交往圈人数、工作日小区号月数量……) 目标变量: · 职业标签 3.2 数据探索 根据对业务问题的定义,我们选取如下指标进行探索性分析: 初始变量名称 变量描述 c_usr_nbr 手机号 c_brand 品牌 int_occupation_flag 职业标签 si_innet_dur 在网时长 scale_data_fee 最近三月数据业务费用占比 avg_per_dur 最近三月平均每通话时长 scale_day_dur 最近三月白天通话时长占比 avg_arpu 最近三月平均arpu avg_fee 最近三月平均通话费 call_cnt 最近三月主叫通话次数 called_cnt 最近三月被叫通话次数 cdr_mms_o_cnt 最近三月外发点对点彩信数 flux_gprs 最近三月GPRS流量 full_cnt 最近三月通话次数 si_mou 最近三月平均MOU值 local_cnt 最近三月本地通话次数 long_cnt 最近三月长途通话次数 manyou_cnt 最近三月漫游通话次数 p2p_mms_cnt 最近三月点对点彩信数 p2p_sms_o_cnt 最近三月外发点对点短信数 phn_oi_cnt 最近三月交往圈人数 scale_call_called_dur 最近三月主被叫通话时长比例 scale_local_dur 最近三月本地通话时长占比 scale_long_dur 最近三月长途通话时长占比 scale_manyou_dur 最近三月漫游通话时长占比 f_cnt_12580 最近三个月拨打12580次数 f_cnt_12593 最近三个月拨打12593次数 f_cnt_12590 最近三个月拨打12590次数 int_l_cal_cnt 最近三个月与本地固话通话次数 int_staday_cell_cnt 周六小区号月数量 int_sunday_cell_cnt 周日小区号月数量 int_workday_cell_cnt 工作日小区号月数量 login_cnt 最近三个月网站登陆次数 cdr_211_cnt 是否使用211天气预报 si_139mail 是否使用手机邮箱 si_aimcon 是否使用一起玩吧 si_fet_usr 是否使用飞信 si_music 是否无线音乐俱乐部会员 si_phone_paper 是否使用手机报 si_vip 是否vip si_wap 是否使用手机wap avg_data_fee 最近三月平均数据业务费 call_dur 最近三月主叫通话时长 called_dur 最近三月被叫通话时长 day_dur 最近三月白天通话时长 local_dur 最近三月本地通话时长 long_dur 最近三月长途通话时长 manyou_dur 最近三月漫游通话时长 p2p_sms_cnt 最近三月点对点短信数 int_l_cal_dur 最近三个月与本地固话通话时长 经数据探索后发现: 1. 几乎各指标在各职业群体中都体现出有差异,差异程度大小不一。 2. 个别职业群体之间有相似性,如学生和蓝领的消费行为较相似,白领和公务员的消费行为较相似。群体之间的相似性越大,类别区分的难度也越大。 3.3 多目标分类模型构建 利用Teradata Warehouse Miner 的决策树进行建模。 1. 将数据随机抽样分组,训练集数据用于模型构建,测试集数据用于检测模型。 2. 此次建模所使用样本剔除了最近三月无通话记录的26043个样本(如不剔除,则会降低各群体的预测准确率),剩余485885个样本以7:3比例分成训练集数据与测试集数据分别为:340660、145225。 3. 受限于目前的条件无法获取“求职者”手机号作为模型训练的样本,未能在职业类别中预测出“求职者”这一类群体。 4. 因各职业群体样本比例悬殊,需运用统计抽样技术对各群体样本量调整,使得各群体样本比例接近现实世界的比例。 5. 经过试验比较,选择分裂算法(splitting method)为吉尼系数法(Gini Index) 6. 经过试验比较,选择最大分裂数为300,最大节点数为300,最大深度为8 7. 经过试验比较,选择决策树修剪方法(Pruning Method)为最大增益法(Gain Ratio) 3.4 结果评估 经过训练后,决策树中包括以下变量: 变量名称 变量描述 avg_arpu 最近三月平均arpu avg_fee 最近三月平均通话费 avg_per_dur 最近三月平均每通话时长 c_brand 品牌 call_cnt 最近三月主叫通话次数 called_cnt 最近三月被叫通话次数 cdr_mms_o_cnt 最近三月外发点对点彩信数 full_cnt 最近三月通话次数 int_l_cal_cnt 最近三个月与本地固话通话次数 int_staday_cell_cnt 周六小区号月数量 int_workday_cell_cnt 工作日小区号月数量 local_cnt 最近三月本地通话次数 login_cnt 最近三个月网站登陆次数 long_cnt 最近三月长途通话次数 manyou_cnt 最近三月漫游通话次数 p2p_mms_cnt 最近三月点对点彩信数 p2p_sms_o_cnt 最近三月外发点对点短信数 phn_oi_cnt 最近三月交往圈人数 scale_call_called_dur 最近三月主被叫通话时长比例 scale_day_dur 最近三月白天通话时长占比 scale_local_dur 最近三月本地通话时长占比 scale_long_dur 最近三月长途通话时长占比 scale_manyou_dur 最近三月漫游通话时长占比 si_fet_usr 是否使用飞信 si_innet_dur 在网时长 si_mou 最近三月平均MOU值 决策树的一部分如下图所示: 测试结果显示除了样本量较小的个体户、中高层管理者、家庭主妇和离退休人员的较差外,其他各类群体测试准确率都较高。 职业群体 训练准确率 训练LIFT值 测试准确率 测试LIFT值 1.个体户 49.27% 9.85 17.87% 3.57 2.中高层管理者 45.45% 9.09 36.42% 7.28 3.学生 58.64% 14.66 56.56% 14.14 4.家庭主妇和离退休人员 56.51% 14.13 25.04% 6.26 5.白领 59.78% 1.71 57.57% 1.64 6.蓝领 74.17% 1.77 70.58% 1.68 8.公务员 55.29% 11.06 47.05% 9.41 总体准确率 65.38% - 61.02% - 从各类职业群体的LIFT值看,除了白领和蓝领这两类职业人群占比较大的原因使得LIFT值较低(但仍然达到1.6以上),其他都较高,学生类甚至超过14,说明模型具有较好的分类预测效果。 从总体看,训练准确率和测试准确率都达到60%以上,且两者差异不大,另外从各类职业看,除了样本量较小的个体户、家庭主妇和离退休人员两类外,其他类别训练与测试的准确率也相差不大,说明模型具有较强的稳定性。 根据以上分析总结,认为此客户职业细分模型是有效的,达到了预期的业务目标。 4 优化方法 由于样本的不均衡以及某些职业样本太小,这些职业的细分准确率并不高,需要增加各类职业群体的训练样本,特别是个体户、中高层管理者、家庭主妇和离退休人员、求职者这四类,以增强模型的预测准确性和稳定性。 另一方面也会尝试挖掘新的相对于职业有较大敏感性的变量,进一步提高模型LIFT值。
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 学术论文 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服