基于SMOTE-PCA-RF模型的家宽潜在投诉用户识别研究.pdf

资源描述

1、16 2023年7月第 7 期（第36卷总第312期）月刊电信工程技术与标准化中国移动通信集团福建有限公司创新成果专栏随着运营商家庭宽带用户规模不断扩大及互联网新业务的快速发展，网络愈发复杂，家宽网络流量爆炸式增长，用户感知问题日趋多样化。家宽用户网络质量投诉率高，而用户感知评估手段却很匮乏，二者之间的矛盾日益严重。在数智化转型的大方向下，各运营商都积累了海量且高维的家宽网络用户数据。如何从海量的数据资源中挖掘出有价值的信息以提前识别出潜在投诉用户、及时修复和提升用户体验短板、高效支撑家宽用户网络满意度提升变得愈发重要。一方面，分类学习方法都有一个共同的基本假设，即不同类别的训练样本数据相

2、当，也称为数据样本量类别平衡。类别不平衡会对机器学习过程造成困扰，而本文研究的家宽潜在投诉用户识别属于典型的二分类问题，由于投诉用户话单占所有话单比例极低，导致训练数据集的类别标签极度不平衡。另一方面，家宽端到端业务流程涉及用户域、网络域、内容域、市场域和客服域等多数据域。各域都存在大量的属性特征，因此在特征工程的数据预处理阶段，在保证不丢失重要数据信息的前提下，需要通过一定的降维算法将数据集从高维空间映射至低维空间，以避免维数灾难，然后再训练分类器。这样既可降低学习任务的难度，又可提升分类器准确率。为此，本文提出了一种融合 SMOTE 算法、PCA算法与 RF 算法的家庭宽带潜在投诉用户识别

3、方法。先基于SMOTE-PCA-RF模型的家宽潜在投诉用户识别研究*陈志安，杨慰民（中国移动通信集团福建有限公司，福州 350108）摘要随着运营商家宽用户规模不断扩大，面对家宽网络的复杂性、用户侧组网的不透明性和家宽用户数据集高维不平衡等特点，传统的统计学方法已无法很好地满足家宽用户网络使用感知评估需求。本文提出一种基于SMOTE-PCA-RF模型的家宽潜在投诉用户识别模型，利用SMOTE算法与PCA算法进行数据预处理，用RF作为分类器。实验结果显示模型准确率为77%，可有效解决家宽用户满意度提升工作中遇到的“时效低、缺抓手”等难题。关键词 PCA;特征选择;不平衡数据集;用户感知中图分

4、类号 TN913 文献标识码 A 文章编号 1008-5599（2023）07-0016-05收稿日期：2023-06-18*基金项目：中华全国总工会职工创新项目资助。17 2023年7月第 7 期（第36卷总第312期）月刊电信工程技术与标准化中国移动通信集团福建有限公司创新成果专栏通过 SMOTE 算法解决数据集不平衡问题；然后利用PCA 算法获取低维特征集；最后将 PCA 输出的低维特征集作为 RF 分类器的输入。通过多次实验及对比评估，本方法分类精度为 77%，可有效支撑家宽用户满意度提升工作。1 数据预处理算法1.1 SMOTE 算法训练数据类别失衡是指不同类别的训练样本数目差

5、别很大的情况。对于二分类问题，若失衡训练数据集的类别 A 的样本量远远大于类别 B 的样本量，则将类别 A 称为多数类样本，样本量小的类别 B 称为少数类样本。由于业界主流的分类算法在很多场景下都是以提高全局分类结果的准确率为最终的优化目标，所以在处理失衡训练样本集分类问题时，把类别 B 样本判定为类别 A 的可能性更大。在这种情况下，模型的全局准确率虽然得到了一定程度的保证，但是类别 B 的分类准确率却大大降低。现实中的分类学习任务中经常会遇到类别失衡的场景，而许多场景中的几个类别取样价值往往比大多数类目的取样价值都要高。比如本文所研究的家宽潜在投诉用户识别场景，投诉用户数相对规模庞大的家宽

6、用户基数来说微乎其微，但这些投诉用户的特征数据对分类器的准确率却相当重要。那么如何提高少数类别样本的分类正确率，是数据挖掘领域在不平衡数据集分类问题上面临的一大挑战。当前不平衡数据集处理的通用方法是在分类模型建立前对原始数据集进行平衡，主要有过采样和欠采样两种思路。通过生成少数类样本来进行平衡调整，而通过减少大多数类样本的数量来达到平衡数据比例的目的是欠采样方法的思路，但这可能使一些有用的信息丢失。SMOTE 算法是基于随机过采样算法的一种改进方案。常规的随机过采样使用简单复制样本的策略来增加少数类样本，将导致模型过拟合的问题，使得模型学习到的信息过于特别而不够泛化。SMOTE 算法认为两个相

7、近的同类样本之间的样本也属于该类，所以算法的核心思路是在两个最近邻少数类样本之间进行随机线性插值，生成新的少数类样本，有效避免随机过采样的过拟合问题。1.2 PCA 算法特征选择和特征提取是两种降低维度的方法，但是两者的实现方式是不一样的。特征选择是以特征空间降维为目的，在特征工程中从原始特征集(特征数量为m)中抽取出最有效的一组特征子集(特征数量为d)，其中d小于m，在业界有 Pearson 相关系数、基尼指标和信息增益等算法。PCA 也是一种常用的特征提取技术，可以将一组高维的数据映射到低维的空间中，从而使得数据更容易被理解和分析。其基本思想是找到能够最大化原始数据特征差异的特征组合，也就

8、是找到能够最大化数据“差异度”的特征组合。具体地，PCA 将原始数据投影到一个新的空间中，使得新空间中的每个特征都对应着原始数据中的一个主要成分，而且这些成分之间的方差最大。通过对这些成分进行分析，可以得到原始数据的主要特征，并且可以进一步对数据进行降维和分析。对于已有的m条n维模型训练数据集D，要降维到维数为n的数据集D，则 PCA 的算法具体流程如下。（1）对所有的样本进行中心化。（2）计算样本的协方差矩阵XXT。（3）对矩阵XXT加工处理实现特征值分解。（4）从（3）中取出最大的n个特征值并组成目标特征向量(w1,w2,wn)。（5）将（4）计算得出所有的特征向量进行标准化运算，构建目标

9、特征向量矩阵W。（6）对训练样本集中的每一个样本x(i)，通过（5）构建的特征向量矩阵，利用z(i)等于WTx(i)计算新样本，最终输出n维的新训练样本集D。18 2023年7月第 7 期（第36卷总第312期）月刊电信工程技术与标准化中国移动通信集团福建有限公司创新成果专栏2 RF 算法集成学习是近年来比较热门的机器学习领域，其通过组合多个不同的学习算法来解决单个算法无法解决的问题，可解决单个模型或某一组参数模型所固有的缺陷，整合更多的模型，取长补短，避免局限。这些不同的算法可以是不同的机器学习算法，也可以是其它类型的算法（如规则挖掘和统计学习等）。集成学习的目标是通过组合这些不同的算法

10、来获取更好的学习效果，提高模型的准确性和泛化能力。RF 算法是一种集成学习算法，是由多个决策树组成的一个集合。每个决策树对数据进行一次分类或回归，并将其作为一个决策树集合来训练模型。决策树是一种基于树结构的机器学习算法，将数据集划分为多个子集或分支，并根据每个子集或分支的特征进行预测或分类。在随机森林算法中，每个决策树都是通过从原始数据集中抽取随机子集（采样）来构建的。这个子集被称为“自助样本”或“bootstrap sample”。然后，每个决策树都是通过在自助样本上训练一个基本的分类器或回归器来构建的。在构建完所有的决策树之后，用多数表决或平均数来对每个决策树进行最终的预测或分类。随机森林

11、算法通常用于分类和回归问题，可以提高模型的准确性和泛化能力，并且能够减少过拟合的风险。随机森林大致过程如下。（1）准备数据集。首先需要准备一个数据集，该数据集应该具有足够的大小和多样性，以便在训练和测试时使用。（2）决策树的构建。对于每个决策树，从数据集中抽取随机子集，并使用该子集来训练一个基本的分类器或回归器。每个决策树的分类器或回归器应该具有不同的特征选择和超参数，以便增加模型的多样性和准确性。（3）决策树的组合。对于每个决策树，使用多数表决或平均数来对其进行最终的预测或分类。这个预测结果将被用于构建整个集合的最终模型。（4）模型的评估和优化。使用测试集对最终的模型进行评估，并使用交叉验证

12、或网格搜索等技术来优化模型的参数和超参数。（5）模型的应用。最终的模型可以用于分类、回归和排序等各种机器学习问题。可以使用模型来预测新数据或对已有数据进行分类和回归等分析。3 家宽潜在投诉用户识别模型构建与实施家庭宽带属于有线传输，家宽端到端业务流程涉及多个数据域。用户域、网络域、内容域、市场域、客户服务域等影响用户感知体验的因素很多，且很复杂，既有客观因素，也有主观因素。为了更好地满足用户的需求，需要不断优化网络质量和用户体验。虽然传统的网管指标已经可以衡量用户感知指标，但是随着用户需求的不断提高，这种方法已经无法完全满足要求。从用户满意度调查结果来看，网络业务质量仍然存在短板，用户的投诉焦

13、点是网速较慢和网络不稳定。因此，需要采用更加科学和客观的方法来衡量用户感知指标，如基于用户行为分析的方法等。这样才能更好地掌控客户体验，提高用户满意度和网络业务质量。宽带用户上网过程中涉及家庭网关、接入网、骨干网、出口和内容源等众多环节，每个环节都会产生海量的日志、性能和告警数据。面对如此海量的数据，基于大数据的机器学习算法将会派上用场。本文提出的家宽潜在投诉用户识别模型整体流程如图 1 所示。3.1 数据准备及预处理整个数据准备及预处理流程如下。（1）从终端、认证、DNS、拨测和 DPI 等多个数据源梳理出 100 多个特征因子。其中 DPI 的 96 个指标又可进一步细分为网页使用感知、视

14、频使用感知、游戏使19 2023年7月第 7 期（第36卷总第312期）月刊电信工程技术与标准化中国移动通信集团福建有限公司创新成果专栏用感知、综合使用感知 4 大类指标集。在时间维度上又进一步区分出晚忙时和全天两种粒度，如图 2 所示。（2）从投诉用户库取出最近 1 个月的用户投诉清单，过滤掉非网络原因产生的投诉，最终获取到 1 万多投诉用户及其关联的网络使用特征信息作为原始数据集的正样本。随机从全网非投诉用户数据指标库中抽取 10 万个用户作为负样本数据集。（3）使用 SMOTE 算法对不平衡的投诉用户数据集执行再平衡操作，使得正负样本数据集规模比例接近 1。（4）使用 PCA 算法获

15、取到权重排行 TOP N的主要特征集，N分别取 10、20、30、40、50 共做 5 次实验，其中 TOP 30 的特征清单见表 1。图1 识别模型流程图DPI(96个)终端(25个)认证(20个)DNS(15个)拨测(15个)数据集特征分布统计图2 数据集特征分布图3.2 模型构建与评估模型构建步骤如下。（1）以预处理阶段 PCA 输出的多份关键特征为基准，从平衡后的 20 万个训练样本转化为只包含N个关键特征的数据集，并按4:1的方式分为训练集与测试（验证）集。（2）利用 sklearn 库提供的随机森林算法实现类进行模型训练与验证。（3）记录当前N维特征的性能，变更N值直到PCA 输出

16、的多份关键特征集全部实验完，转下一步。（4）对比各轮实验结果评估数据选择查准率最高的模型。通俗地说，查准率要求把尽可能少的真实负例判定为预测正例，查全率则要求把尽可能少的真实正例判定为预测负例。一般情况下，查准率和查全率是鱼和熊掌不可兼得的一对指标，需要根据实际生产场景进行取舍。由于针对潜在投诉用户需要客服和一线人员进行上门排查和安抚，涉及大量的人工成本，所以模型更关注查准率，保证尽量不误判，节省成本。多次实验结果表明，当N取 30 时（PCA 输出结果为 30 个主要特征）模型效果最佳，评估结果见表 2。虽然查全率为 0.57 不算很高，但 F1 分值为 0.66尚在可接受范围内。20 20

17、23年7月第 7 期（第36卷总第312期）月刊电信工程技术与标准化中国移动通信集团福建有限公司创新成果专栏特征名权重值http_video_usage0.047665911http_browse_usage0.034178409auth_count0.020788871sd_http_total_bigpkt_dl_rate_busy0.015266786min_http_video_dl_data_busy0.011391198min_http_browse_bigpkt_dl_rate_busy0.011383055sd_http_total_bigpkt_dl_rate0.0111

18、56701onu_rx_power0.011037103bras_warning_lv2_count0.010016017sd_http_browse_dl_data_busy0.009595441max_http_total_bigpkt_dl_rate0.009363083sd_http_browse_response_time_busy0.00931144sd_http_browse_ul_rtt_busy0.009214735http_video_success_count_busy0.009200351http_browse_count_busy0.009089278http_tot

19、al_time_busy0.008922998http_browse_success_count_busy0.008902615http_video_count_busy0.008826082http_video_time_busy0.008513058min_http_total_bigpkt_dl_rate_busy0.008446437sd_http_video_dl_data_busy0.008025416http_total_count_busy0.00775095auth_freq_disconnect_count0.007536686avg_http_video_dl_data_

20、busy0.007390683http_browse_time_busy0.00701113olt_up_peak_utilization0.006959321max_http_video_dl_data_busy0.006634956max_http_video_bigpkt_dl_rate0.006599958http_total_dl_data_busy0.006587411avg_http_total_bigpkt_dl_rate_busy0.006521287表1 PCA权重排行TOP30特征清单3.3 模型应用成效该模型最终应用于家宽潜在不满意用户感知评估项目中。该项目以影响家宽用

21、户网络感知的异常事件为基础元素，聚焦用户端到端感知问题的分析研究、拟合、模型构建和预测，通过探索网络质量和用户感知关系，打造用户感知监测和问题定界的智能化流程，支撑家宽网络质量满意度正向提升。自项目上线以来，实现对质差用户或区域的问题处理。以 2021 年 10 月为例，项目实施前宽带画像质差用户数 10 755 个、潜在不满意用户数 170 813 个。汇聚后，画像质差聚类小区 126 个，主要为部分住宅小区和农村；潜在不满意质差聚类小区数有 768 个（主要为宾馆酒店和聚类市场，其次是城中村和发达农村），不满意用户修复率 92%以上。4 结束语为有效支撑家宽用户满意度提升工作，本文提出了一

22、种基于 SMOTE-PCA-RF 模型的家宽潜在投诉用户识别方法，并基于该研究成果构建了家宽潜在不满意用户分析系统，以天为单位定时向一线部门输出潜在感知劣化的用户清单，实现在用户投诉前进行修复与关怀，并收集用户反馈数据。后续将基于用户反馈数据及用户感知异常事件数据对模型进行迭代，不断提升模型预测准确率。类别标识查准率查全率F1 分值00.66%0.83%0.7400.77%0.57%0.66表2 TOP 30模型评估表参考文献1 CHAWLA N V,BOWYER K W,HALL L O,et al.SMOTE:synthetic minority over-sampling techniq

23、ueJ.Journal of Artificial Intelligence Research,2002(1).2 BREIMAN L.Random forestsJ.Machine Learning,2001(1).21 2023年7月第 7 期（第36卷总第312期）月刊电信工程技术与标准化中国移动通信集团福建有限公司创新成果专栏Research on identifying broadband potential complaining users based on SMOTE-PCA-RF modelCHEN Zhi-an,YANG Wei-min(China Mobile Gro

24、up Fujian Co.,Ltd.,Fuzhou 350108,China)Abstract As the scale of operators home broadband users continues to expand,traditional statistical methods can no longer meet the complexity of home broadband networks,the opacity of user-side networking,and the high-dimensional imbalance of home broadband use

25、r data sets.Household broadband user network usage perception assessment needs,this paper proposes a household broadband potential complaint user identifi cation model based on the SMOTE-PCA-RF model,using SMOTE-PCA as the data preprocessing combination algorithm,and using RF as the classifi er.The

26、experimental results show that the accuracy of the model is 77%.At the same time,the application results of the model show that the method in this paper can eff ectively solve the problems of low timeliness and lack of hands-on encountered in the improvement of home width user satisfaction.Keywords PCA;feature selection;imbalanced datasets;user perception

展开阅读全文