1、 第 卷 第 期厦门城市职业学院学报 年 月 收稿日期 作者简介 邱伟斌,男,中国移动厦门分公司市场部项目经理、中级统计师。连 壮,男,工学硕士,厦门城市职业学院(厦门开放大学)人工智能学院讲师、高级工程师。基于神经网络算法的电信客户选择预测模型研究邱伟斌,连 壮,(中国移动厦门分公司,福建 厦门;厦门城市职业学院,福建 厦门;厦门开放大学,福建 厦门)摘 要 当前,机器学习广泛应用于多个领域,大数据作为机器学习的原材料,也成为重要资源。电信行业积累了海量优质数据,立足电信企业一线工作需求,将机器学习技术与大数据统计思维、应用相结合,能够实现大数据赋能通信产业,以科技引领产业转型升级。基于某电
2、信运营商数据和 平台构建神经网络,可以实现客户行为预测模型。该预测模型在输入数据维度、实际样本量、参数量、最终预测准确率等方面出现明显提升,在实践中能够产生较大的商业价值和效益。关键词 神经网络算法;电信客户选择预测模型;深度学习;大数据中图分类号;文献标识码 文章编号 ()随着信息通信技术(,)的广泛应用,以及新型基础设施建设的推进,电信行业在国民经济中的地位逐步提高,大有成长为战略型、创新型、融合型产业的趋势,已然成为数字中国战略规划建设的主力军。随着信息技术的快速发展,人工智能领域发展日新月异,大量重复性技术工作预计将很快被人工智能替代。人工智能有望成为全新的生产要素,促进社会劳动生产力
3、大幅提高。大数据时代下,基础服务运营商、公共事业单位、政府部门等具有天然数据资源优势的企事业单位部门,应当积极投身数智技术创新应用,充分运用大数据技术挖掘信息隐含价值,赋能企业社会,把握人工智能时代的数智化转型机遇。电信企业在经营过程中产生、积累了大量用户消费和通信使用数据。如何挖掘这些宝贵数据的应用价值,通过机器学习技术赋能产业发展,创建规范的大数据产业生态,成为通信行业企业数智转型中的现实难题。作为统计工作者,应当充分发挥自身优势,融合应用信息技术与统计思维,帮助企业、政府作出更深入、更全面的需求分析与预测。本文基于神经网络算法和电信数据,构建基于神经网络算法的电信客户选择预测模型,以期为
4、大数据环境下的客户选择和产业大数据生态优化提供一些借鉴。一、深度学习在电信业中的应用概况(一)电信客户选择预测研究现状传统的对电信客户选择电信套餐的研究大多设定消费者是基于完全信息及理性作出选择行为。但现实情况与理想情况存在一定差距,消费者一般无法完全理解电信运营商的套餐费用结构及通话费、流量费、增值业务费等项目的内容,第 期邱伟斌,连 壮:基于神经网络算法的电信客户选择预测模型研究选择时也难以获得完全信息。同时,消费者还会受到运营商主动营销的影响,选择时无法做到完全理性。苗蕴慧等基于现实情况提出改进建议,建议采用基于参考依赖的 模型预测用户更改套餐的概率,并进行了仿真分析,结果显示改进 模型
5、的预测准确率高于传统 模型。当损失避免常数 时,模型预测准确率最高达到约 。但相对而言,该准确率仍较低,难以应用于现实商业环境中。梁彭勇的研究表明,变量的选择对模型的可信度与预测能力均有较大影响。万里平同时考虑消费者、运营商影响因素,利用分层模型对消费者选择不同运营商的偏好进行了研究,但没有对用户进一步的通信套餐选择进行研究。随着信息通信技术的快速发展,研究者开始借助信息通信技术开展研究。王可争和潘丹介绍了一种利用神经网络预测用户投诉的方法,采用 实现了一个利用 个输入指标预测用户投诉的人工神经网络,但数据维度、样本量都偏低。等指出,传统机器学习技术处理原始自然数据的能力较弱,构建机器学习系统
6、需要大量专业知识来设计特征提取器,将像素等原始数据转化为合适的特征向量。而深度学习减少了手工特征工程,可以充分利用计算能力增长和大数据训练,不断提升性能。当前业界正致力于深度神经网络的算法和架构创新,这将推动深度学习快速发展。而深度学习依赖数据驱动,减少人工特征设计,是一种有潜力的发展新方向。(二)深度学习的内涵深度学习是目前应用最广泛、最具突破潜力的机器学习技术,其对现实世界的模拟、表达灵活多样,具有广泛的适应性与灵活度。深度学习通过多层次的表示学习来处理高维数据,并在语音识别、计算机视觉、自然语言处理等领域取得了重大突破。当前成为社会热点的生成式语言大模型如、文心一言、盘古大模型等,背后都
7、离不开海量数据训练的人工神经网络大语言模型。近年来,深度学习发展极快,其原因主要有二:一方面是算法的进步,如注意力机制等最新科研成果的商用;另一方面是高质量数据的积累以及计算速度的暴增。只有基于大数据建立有效的模型和工具,才能充分发挥大数据的价值。在人工智能时代,深度学习和大数据成了密不可分的一对。相较于传统统计方法(如各种回归算法、聚类算法等),深度学习技术(如人工神经网络等)在以下方面具有显著优势:()特征学习能力强。深度学习可以自动学习数据的高级特征表示,而传统统计需要人工进行特征识别和提取。在大数据领域,单纯依靠人力进行特征识别尤为困难,只有借助计算机才能高效解决。()模型更加复杂。深
8、度学习模型可以建立复杂的非线性结构,拟合复杂的函数关系,而传统算法受限于人力因素,模型复杂度往往较低。()端到端学习。深度学习提供端到端学习(),也称端到端训练,是指在学习过程中不需要明确地给出不同模块或阶段的功能,中间过程不需要人为干预,从原始数据输入到任务结果输出,整个训练和预测过程都在模型里完成的。而传统统计机器学习需要人工运用一些方法来将问题分解为可控且清晰的若干小问题。同时,子问题上的最优解却并不意味着最后能得到全局问题的最优解。()计算性能更强。深度学习利用 等最新计算硬件加速训练,可以处理海量数据,充分利用大数据优势。而传统算法受限于数据规模与处理速度,往往是规模和速度不可兼得。
9、()泛化能力强。深度学习可以利用大量技术控制模型过拟合问题,同时通过层层抽象学习数据的内在高阶特征,因此具有迁移性。而传统算法无法迁移应用到类似问题上,没有泛化能力。()无需专业领域知识。深度学习具备自动学习特征,不需要人工提取领域知识特征。传统算法往往要求使用者对具体业务、对算法均有较深刻的认识,使用门槛高。神经网络源自对人类大脑结构的模拟研究。人脑包含大量神经元,这些神经元之间存在复杂的连接关系。神经网络试图通过相互连接的简单处理单元构建网络模型,来模拟生物神经系统进厦门城市职业学院学报 年行信息处理的方式,它是深度学习的核心模块。当前,人类大脑结构和运行机制还存在许多未知,但神经网络模型
10、能够抽象地反映人脑的某些核心特性。这种模型可形成大规模并行、自组织、自适应的非线性迭代学习系统,特别适用于处理多变量、不精确信息的复杂问题。具体而言,神经网络训练过程一般通过梯度下降等算法,不断优化神经单元之间的连接权重,从而拟合样本数据,最终模拟、预测人类大脑的决策过程。神经网络试图通过建立处理单元及其互联方式来模拟人脑的神经系统,探索具备学习与认知能力的人工智能系统。其关键特点是可以通过训练数据进行学习,并将结果编码在网络连接权重中。这种学习过程在一定程度上类似于人类获取知识的方式,都是在特定环境的激励下,通过不断学习样本调整“内部参数”(本质上都是调整神经网络的连接强度),以达到学习的目
11、标(神经网络收敛)。通过深度学习,使用者可以获得知识并在未来运用知识解决问题(用生成的神经网络来分类、预测等)。近年来“深度学习 应用”模式在许多行业落地应用,例如,于明鑫等基于神经网络算法实现电信客户流失预测、蔡加欣等基于局部轮廓实现人体行为识别,都是对扩宽深度学习应用场景的积极探索。神经网络的模型结构具体如图 所示,其中、等输入数据代表可能影响用户决策的各种变量,经过中间的隐藏层训练调整连接参数、权重后,最终输出层为、等。图 神经网络模型结构示意图(三)电信运营商研究情况马文斌等基于深度神经网络构造流失预测模型对电信运营商市场进行研究,认为在当前大数据快速增长情况下,依靠人工进行特征提取等
12、传统手段已不能有效处理海量数据。而神经网络模型可以通过多层结构逐步提取数据的高级特征表征,实现自动化的特征学习。相较于 回归、决策树等预测模型,深度神经网络的预测准确率最高,达到 ,但召回率偏低,仅。综合考虑后,马文斌等认为深度神经网络 得分最高为 。其中:准确率(,):正确预测为正的样本数占全部预测为正的样本数的比例;召回率(,):正确预测为正的样本数占全部实际为正的样本数的比例;得分(,):代表准确率与召回率的平衡,定义为:()本研究以用户套餐变更中的降低套餐行为作为主要研究对象。相较于套餐变更中的套餐升档行为(指用户变更后的新套餐价格高于原有套餐),套餐降档(指变更后的新套餐价格低于原有
13、套餐)更可能是用户主动发起的行为,更容易受到用户主观意愿、主观行动的影响,因此更适合以此为基础进行深度神经网络模型训练与预测。此外,深度学习形成的神经网络具有可迁移性,基于某一个任务训练的特定模型可以被迁移()到其他相关任务中,并获得较好的效果。一般认为,神经网络具有可迁移性的主要原因是可以从预训练模型中提取到高层的特征向量,这些语义、特征对许多下游任务、类似任务都有效。预训练模型的知识可以通过多种形式引入到新模型中,使之快速适应新任务,这也是神经网络可迁移性的重要价值。利用这一特性,基于本研究的电信套餐降档预测预训练神经网络,可以进一步建立、研究更普适通用的客户行为预测大模型。第 期邱伟斌,
14、连 壮:基于神经网络算法的电信客户选择预测模型研究二、基于神经网络算法的电信客户选择预测模型构建(一)数据来源与变量本研究以某运营商系统产生的客户通信使用情况作为系统数据,获取可以表示客户通信消费情况、更改套餐意愿、更改套餐行动的原始数据 万份(数据采用无记名、无标记方式,不含任何可指向客户隐私的数据信息)。研究变量主要考虑如下三类:客户套餐降低空间该变量用于衡量客户是否有降低套餐资费的空间,包括套餐费用、流量使用饱和度、语音使用饱和度等。例如,客户套餐费越高,可能越有空间可以降低套餐;客户套餐使用饱和度(指客户实际套餐用量占客户套餐容量的比例)越低,同样越有空间降低套餐。客户套餐降低意愿该变
15、量用于衡量客户降低套餐的意愿强烈程度,包括个人收入水平、更换套餐周期、是否有套餐优惠资费、使用流量单价、使用语音单价等。例如,客户个人收入的高低会直接影响其套餐选择,低收入客户更倾向于选择低价套餐;客户更换套餐周期表示客户平均多久会更换一次套餐,以往经常更改套餐的客户更有可能更改套餐;客户近期是否有优惠资费活动到期,也会影响到客户接下来的套餐选择。客户套餐降低行动该变量用于衡量客户为了更改手机套餐采取的实际行动,包括客户的年龄层、近期是否查询手机套餐资费、是否拨打运营商投诉电话、是否为电子渠道客户等。客户对套餐更改渠道的了解、使用程度,更改套餐的便利程度等,都可能对客户套餐更改行为产生直接或间
16、接作用。(二)基于神经网络算法的电信客户选择预测模型构建与训练在技术层面,本研究主要使用,并采用业界普遍使用的机器学习库,包括、等,模型训练过程中使用数据清洗、特征识别、神经网络模型搭建等技术。其中,数据清洗用于对系统内提取的基础信息进行异常值清洗、空缺值填充等;数据变换主要是对数据进行正则化处理,保障模型原材料的质量。神经网络模型搭建是利用数据,对初始神经网络进行训练,使其表现模拟、接近真实发生的样本,是神经网络构建的核心主体。模型训练主要流程如图 所示:图 模型训练一般流程 数据清洗本模型采用 语言进行训练,首先通过 等机器学习库读取 文件,随后对数据进行异常值处理、空缺值填充等;然后通过
17、特征工程,对数据进行正则化处理;最后完成数据集的分割,按 的比例将数据随机切分成训练集、交叉验证集、测试集。模型训练本模型输入层参数达 余个。基于以往研究和实践经验,本研究尝试构建三层神经网络:第一层隐藏层共 个节点,采用非饱和激活函数 作为激活函数;第二层隐藏层设置 个节点,也采用 作为激活函数;第三层是输出层,输出结果只有两类(降低套餐或者不降低套餐),因此采用 函数(代表变更套餐,代表未变更套餐)。函数(式)是一种非饱和激活函数,利用了仿生学的原理,即人类的意识不是二进制的,而是从 开始到非常大的数字,代表人类对事物的认知是从不知道到有点清楚,直至非常狂热。函数可以解决、等饱和激活函数存
18、在的梯度消失问题,训练收敛速度也更快,对噪声干扰也更具鲁棒性。(),()本模型采用 中广泛使用的 厦门城市职业学院学报 年机器学习库实现。样本为二分类问题,故损失函数采用二元交叉熵函数 。模型迭代主要使用 ()算法,是一种广泛使用的神经网络优化算法,表示自适应矩估计。相较于其他优化算法,算法对学习率较为敏感,能更快地收敛,因此被广泛用于深度学习模型的训练中。该算法基于随机梯度下降,集成了 算法和 算法的优点,可以在训练过程中对数据进行有效的自适应学习率调整,即自适应地调整学习率。本模型结合 算法,可以在训练初期进行更多探索、在训练后期进行更精细化的调整。模型评估在本研究中,分别设置并对比学习率
19、曲线()和 (),可以发现学习率等于 时,损失函数收敛更快,因此设置初始学习率为 。利用数据对模型进行训练,可以 看 到:训 练 次 后,损 失 函 数 由 下降到 ;训练到 次时,损失函数降为 ;训练到 次时,损失函数进一步下降到 。当模型损失下降速度已经低于 ,可以认为拟合完成。如图 所 示,对 比 训 练 样 本 损 失 函 数()与交叉验证集损失函数()可以看到,随着训练次数增加,样本损失函数不断下降,但交叉验证集损失函数基本在 到 之间波动,并没有继续减小的趋势,说明训练过程此时应该停止,继续增加训练次数可能导致过拟合问题,因此最终将模型迭代次数设置为 。图 损失函数曲线图 如图 所
20、示,当训练次数 时,在 时(代表检验模型的概率阈值,当样本预测概率大于 时,设置分类标签为,否则为 ),模 型 在 验 证 集 上 的 准 确 率 达 到,召回率达 ,得分 。进一步尝试不同 值,最终显示,选择 时,得分最高,此时准确率达 ,召回率 ,得分为 ,模型整体效果最好。图 损失函数交叉验证图该基于神经网络算法的电信客户选择预测模型的参数信息如表 所示。该模型共有 个参数,其中第一层有 个参数、第二层有 个参数、第三层有 个参数。表 模型参数总结表模型总结()()(,)()(,)()(,):三、研究结论与展望机器学习由于训练过程不需要依赖人工手工设计特征,因此可以充分利用计算能力和数据
21、量的增加,在实践中具有广阔的应用前景。同时,机器学习的使用门槛较低,在统计领域 第 期邱伟斌,连 壮:基于神经网络算法的电信客户选择预测模型研究特别是大数据统计领域,还有广阔的发展空间。本文所研究的基于神经网络算法的客户选择预测模型采用的输入指标达到 余个,相比之前的通信行业研究机器学习模型几乎提高了一个数量级,生成的模型参数达到 余个,超出人工可理解、可解释的数量级,客观上要求必须全面采用机器学习的形式进行模型训练。本研究设计并实现的神经网络模型的准确率由 提高到 以上,召回率上也达到 以上,有较高的现实意义和价值。综上所述,深度学习可以自动化地学习、建模,并利用强大的计算能力处理多维数据,
22、同时充分挖掘数据内在特征,这使其在复杂问题的处理上明显优于传统统计分析方法。深度学习构建模型的过程无需人工干预,无疑进一步扩大了它的潜在受众,也能将市场营销、统计工作者从费时费力的数据整理、特征识别工作中解放出来,投入到更具创新性的工作中。基于神经网络模型的迁移特性,使得模型潜的通用价值进一步提高。以本研究实现的神经网络模型为例,该模型可以自主学习并识别客户的收入水平、日常使用习惯、消费意愿等内在高级特征。因此,以本模型为基础,可以迭代训练客户的通用行为预测模型,进一步应用于通信行业企业业务精准营销、客户服务关怀、企业产品研发等领域。参考文献苗蕴慧,唐加福,张铁军 基于参考依赖的改进 模型预测电信套餐选择行为 系统工程,():梁彭勇 基于 模型移动用户套餐选择行为的实证研究 移动通信,():万里平 移动通讯用户套餐选择行为的影响因素研究:基于广义分层模型的分析 商讯,():王可争,潘丹 一种利用神经网络预测用户投诉的方法 通信世界,():,():于明鑫,郑雅匀 基于神经网络算法的电信客户流失预测 现代信息科技,():蔡加欣,冯国灿,汤鑫,等 基于局部轮廓和随机森林的人体行为识别 光学学报,():马文斌,夏国恩 基于深度神经网络的客户流失预测模型 计算机技术与发展,():责任编辑:黄茜
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100