基于TF-IDF算法的运营商客户投诉原因研究.pdf

资源描述

1、第 26 卷第 2 期2 024 年4 月北京邮电大学学报(社会科学版)Journal of Beijing University of Posts and Telecommunications(Social Sciences Edition)Vol.26,No.2Apr.2024收稿日期:2024-02-03项目基金:通鼎研究基金作者简介:张爱华(1964),女,安徽六安人,博士,教授,硕士生导师DOI:10.19722/ki.1008-7729.2024.0021基于 TF-IDF 算法的运营商客户投诉原因研究张爱华,孙嘉鸿(北京邮电大学经济管理学院,北京 100876)摘要:针对运营

2、商人工处理客户投诉工单高成本低效率问题,提出了一种基于 TF-IDF 算法的定量研究方法,旨在高效精准地识别客户投诉原因。选用 Jieba 分词,导入自定义词典和停用词列表,对运营商客户投诉工单进行关键词抽取,获取各类问题中 TF-IDF 值排名前 6 的关键词,输出关键词集。提高了关键词抽取的准确性和效率。此外,对比仅对文档集使用 TF 进行统计和使用 TextRank 算法的情况,突显了 IDF 的重要性及算法原理的差异。实验结果表明,光猫、路由器、机顶盒问题广泛存在于各类投诉中。针对这三类问题,为运营商提供了改进产品、服务的相关建议,对运营商集中治理、解决问题具有一定的实用价值。关键词:

3、投诉工单;投诉原因;关键词抽取;TF-IDF中图分类号:F626.5 文献标识码:A文章编号:1008-7729(2024)02-0039-11一、引言高质量发展是全面建设社会主义现代化国家的首要任务。对于电信运营企业,分析客户投诉原因从而准确处理网络质量问题,是提高通信服务质量,推进电信业高质量发展的重要手段。在移动互联网快速发展的背景下,网民规模快速扩张,人们对于网络稳定性、速度的要求不断提高。特别是在家庭宽带使用场景中,客户对网络质量的期望与投诉数量同步上升。因此,解决家庭宽带产品及设施的问题,提升相关产品和服务的质量,成为运营商关注的重中之重。在讨论这一议题时,运营商客户投诉工单的作

4、用不容忽视。运营商客户投诉工单是一种服务于客户、记录客户在使用运营商服务过程中遇到问题的记录文档。但是,家庭宽带网络的投诉原因纷杂多样,如果不进行有效分析,就不能从中发掘出裨益家庭宽带网络产品、服务的维修举措,难以提高企业自身的竞争力。运营商可以定期分析既往工单中的投诉原因,找到导致网络质量差的关键因素,以及维修后用户反馈有效的措施,从而优化自身产品和服务。然而,随着信息技术的进步,网络信息爆炸式增长,文本数据极为浩瀚,其中大多是难以处理的非结构化数据。运营商往往在一个月内便获得数以万记的客户投诉工单,其中含有大量文本数据。由于维修工人填写缺乏规范,工单内的无效信息也不在少数。仅通过人工识别无

5、法及时获取有效信息。如何快速从工单中获取关键问题,从而集中治理、高效解决问题,是具有一定研究价值的问题。基于上述问题,为提高数据分析效率、实现投诉原因月度迭代报告,需要运营商采用大数据时代的数据技术对客户投诉工单内的投诉原因进行规模化处理和分析,高效提取其中关键词。基于此,本研究主要选取自然语言处理(natural language processing,NLP)领域的 TF-IDF 算法,拟对工单中的投诉原因进行关键词抽取分析。二、文献回顾在现有研究中,文本挖掘技术已被广泛应用于电力、通信、建筑和金融等多个行业中的工单分析93中。万磊等1对 95598 的投诉工单中的信息进行文本挖掘,绘制出

6、工单量分布图并获得应用性结论。李颢等2结合语义分析技术,先设计分类标签后构建文本挖掘模型,实现自动分类工单文本。吴刚勇等3对电力客户投诉工单运用隐马尔可夫模型对客户投诉受理内容进行文本挖掘,从而发现电力客户投诉原因和改进方式。汤宁4建立基于邻近算法及支持向量机的文本分类模型实现工单自动分类,提高了解决电力客户投诉的服务效率。除了电力行业外,通信、建筑、金融等领域也有学者将文本挖掘应用到投诉工单分析中。通过建构基于 Word2vec 算法的文本分析模型,蒋海刚5实现了建筑运维工单专业自动分类识别。而在金融业,牛倩6结合 LDA 主题模型,将证券客户投诉的问题与客户基本信息相结合,发掘出不同客户群

7、体的敏感点。综合现有研究可以观察到,尽管文本挖掘在工单分析中的应用已取得一定成果,但研究主要集中在电力行业,有关通信行业将文本挖掘技术应用到工单分析领域的研究尚不成熟。本研究立足于通信行业,拟采用 TF-IDF 算法这一关键词抽取方法,对运营商的客户投诉工单文本进行深入处理分析,旨在克服传统运营商依赖人工处理工单面临的高成本、低效率的弊端,有利于运营商高效定位家庭宽带网络质量差的原因,发掘出通用且有效的维修措施,从而实现降本增效的目标。在具体方法方面,现有关键词抽取方法主要分为有监督抽取方法和无监督抽取方法两种,前者需要人工标注对识别模型进行训练,耗时长、成本高。目前大多对无监督关键词抽取方法

8、进行了研究,其代表性算法有 LDA 文档主题生成模型、TextRank 算法和 TF-IDF 等。TF-IDF 算法是由 Salton 等7提出的一种应用于挖掘数据和检索信息的加权技术,是目前使用频率最高的特征权重算法,它通过计算单词在文本中的权重来评估单词对文本的重要性。Havrlant 等8从概率学角度对 TF-IDF 算法作了解释,证明 TF-IDF 算法的合理性,并从概率上予以结果修正的步骤与解释,提出了一种更复杂也更符合实际的概率模型。区别于传统的 TF-IDF 算法,对逆文档频率 IDF 取对数而非原本的取平方根,可获得更为精确的概率描述。相较于 LDA 和 TextRank 算法

9、,TF-IDF 算法能够降低提取出现频率高却无意义的词的可能性,这对分析运营商获得的大量客户投诉工单中的投诉原因具有很强的应用意义:能够快速排除冗余信息、不规则填写数据,获取有效关键信息以提升用户服务体验,有益于运营商进行客户管理,以此削减原来人工筛选关键词的人力成本,排除人工筛选的主观性。TF-IDF 算法是经典的特征项权重算法,但并非一种十分完善的算法,存在忽略文本结构信息、忽略特征词在类之间分布状况等问题。国内外众多学者对此提出不同改进方案,改进方法主要集中于频次、位置以及特征项分布三个方向。Singh 等9开发了 rRF 法(去除冗余特征),通过使用词嵌入技术 GloVe 将具有相似意

10、义的词进行分组,实现了有效降维。Liang 等10构建了一个融合多个层次结构的神经网络对文本进行处理,更为精确地突出词语对文本分类的贡献程度。Yang 等11将 TF-IDF、TextRank、LDA 和 t-SNE 这四种算法结合使用,构建了一个新的集成模型,在有效获取语义关系的同时减少了语义信息的丢失,大大提升了关键词识别率。周源等12对准 TF-IDF 算法忽略文本结构中隐藏信息这一问题,分别从 TF 和 IDF 两个特征值进行改造,整合提出了 TF-IDF 特征提取的改进流程。赵晓平等13针对短文本聚类,提出融合 TF-IDF 方法和词向量的方法,借助 Word2Vec 和 skip-

11、gram 神经网络模型,使用 WMD 距离计算相似度从而获取最终关键词结果。张蕾等14瞄准了 TF-IDF 算法对多义词识别精度低的问题,用 K-means+进行聚类分析,以此区分特征词在不同学科中的含义以提高 TF-IDF 算法结果的置信度。金镇晟15提出了TF-IDF-KE 算法,针对突发的热门词条因短时间内激增的特点故聚类时特征并不明显的问题,用动能原理突增强了文本聚类效果。牛萍16注重关键词提取前对候选词的选取的效果,提出了一种结合识别不间断单字的未登录词和多词表达式的方法来获取候选词。此外,由于互联网的发展,在时代的汛流中涌现了大量新词,叶雪梅17针对互联网语料库的特点,加入识别新词

12、这一步骤,采用了改进的特征权重算法处理识别出的新词以主动提升其权重,降低了特征空间维度。04北京邮电大学学报(社会科学版)2024 年第 2 期除了技术方向的改进与研究,在实际应用角度,由于 TF-IDF 算法可以很好地概括文档内容,使人们能够直观地了解数据信息的主要内容,其具有很高的应用和研究价值。当今学者已将 TF-IDF 算法应用到信息检索、大数据分析、信息过滤、自动摘要等诸多领域,并在横向市场不断拓宽其应用行业。三、研究设计(一)数据获取和预处理移动行业电子运维系统(electric operation maintenance system,EOMS)是电信专业网络运维协同流程支撑平台

13、,其中展示了网络运维管理信息。作为一个信息展示的平台,EMOS 面向全网供相关人员展示运维信息,便于大家进行经验交流共享,是各级进行信息传递和任务调度的重要手段,可以帮助运营商快速定位网络问题、解决网络故障,提高系统运行效率。笔者从中国移动的 EOMS 平台上获取家庭宽带用户因网络质量差而投诉的客户投诉工单,其中含有客户投诉原因的文本数据。笔者首先对下载后未经处理的工单数据进行预处理,去除文本中的无效数据和在分析范围之外的干扰文本。(二)文档拆分运营商的投诉工单通常包括客户的基本信息、投诉内容和问题描述、投诉发生的时间和地点、要求运营商解决或处理的要求或建议及客户的联系方式等。从 EOMS 中

14、可获取该运营商于某一时间段内的投诉工单,对其中的一些字段进行针对性分析。实验主要对 EOMS 中的客户投诉工单文本字段进行分词,用关键词来定位网络质量问题。如果直接对整个文档进行分析,获得的分析结果并不具备区分度,也不能充分发挥 TF-IDF 算法的分析价值。所以需要在抽取分词和关键词之前,扩充文档集数量,以文档中的投诉原因为依据将初始文档拆分为多个文档。(三)文本分词分词处理是将组成句子的词划分,切分成一个个独立的词语。相较于英文,中文字词之间没有清晰的区分界限,且中文的语法结构更不易理解,故中文分词(Chinese word seg-mentation,CWS)比英文分词难度更大。经过学者

15、三十余年的研究,如今的中文分词技术已取得可观进步。目前分词的三大主流方法为:基于统计的方法、基于词典的方法和基于规则的方法18,包括 N 元语法模型(N-gram)、隐马尔可夫模型(HMM)、条件随机场模型(CRF)等。此外,国内已有很多成熟的分词工具,如 Jieba、NLPIR 分词系统、THULAC、FuDanNLP 等。作为一种开源且成熟的中文分词工具,Jieba 分词在训练词库和分词效率上都表现良好,且能利用上下文关联对文本进行分词。鉴于本研究采用的数据量较大,对分词的效率要求较高,笔者拟选用Jieba 分词作为分词工具,采用逐词切分的精准模式,将预处理后的文本数据分词,以便后续算法应

16、用。Jieba 分词的原理大致可分为三步:第一步是创建一个前缀字典来扫描句子的词图,对句子进行分段,并获得所有可能的分词结果。第二步是在此基础上,构造一个有向无环图。随后使用动态规划查找最大概率路径,并基于词共现频次的最大概率获得分割结果。第三步使用基于成词能力的隐马尔可夫模型和基于动态规划的维特比算法(Viterbi)来计算未登录词。(四)关键词抽取提取关键词是文本挖掘的关键步骤之一,其目的是从文本中抽出能够代表文档主旨的词或者短语,用以总结归纳为文章的关键内容。目前,关键词抽取技术主要分为有监督和无监督两种方法。有监督方法虽然在识别准确率上表现优异,但其较高的标注成本限制了其在一般分析需求

17、中的应用范围。相比之下,无监督抽取算法,如基于词频统计的 TF-IDF 算法、LDA 文档主题生成模型19和 pLSA 主题模型,以及基于图的 PageRank 和 TextRank 算法20,无需昂贵的人工标注,更适合大规模文本数据的快速处理和分析。14张爱华等:基于 TF-IDF 算法的运营商客户投诉原因研究本研究选择无监督抽取算法中的 TF-IDF 算法,是因为它能够在无需预先标注数据的情况下,根据词语在文本中的频率和重要性有效地提取关键词。这种方法对运营商客户投诉工单的分析尤为重要,因为投诉文本通常包含大量的非结构化数据,且难以获取足够的标注数据训练有监督模型。TF-IDF 算法能够高

18、效识别出在特定投诉文档中频繁出现且在整个文档集中较为稀有的词语,从而捕捉与客户投诉相关的关键信息。在具体实验中,为避免原 TF-IDF 公式中对 IDF 值的计算方式可能导致的部分在各个文档中都出现的词的 IDF 值为 0,从而导致其 TF-IDF 值为 0 的情况,笔者在计算时采用取对数前先对其进行加 0.01的计算公式,使所有文档中均出现的词的 IDF 值不为 0。相关公式如式(1)(5)所示。tfi=ni,jknk,j(1)其中:式(1)表示在第 j 个文档中计算词的词频 tfi;ni,j表示第 j 个文档中第 i 个词出现的次数;nk,j表示第 j 个文档中第 k 个词语出现的次数,k

19、nk,j表示第 j 个文档中所有词出现次数的总和。idfi=lgDj:tid(2)式(2)用以计算逆文档频率 idfi。其中:D 是所有文档的数量总和;j:tid 是整个文档集 d 中包含文档中词语 ti的文档数;j:tid是包含词 i 的文档数量。idfi=lgD+1j:tid+1()(3)式(3)表示将式(2)中右式分母进行加 1 处理,这是为了避免分母为 0,导致计算错误,对应的对公式的分子也进行加 1 处理。idfi=lgD+1j:tid+1+0.01()(4)式(4)表示在取对数前先对其进行加 0.01 的处理,使所有文档中出现的词的 IDF 值不为 0。TF-IDFideftfi

20、idfi(5)式(5)为 TF-IDF 值的计算公式,即将 TF 与 IDF 值求积。本研究通过 Python 对文档集使用 TF-IDF 算法进行处理,以获取关键词抽取结果,从而获得家庭宽带用户常出现问题及通用解决方案。同时,为探索 TF-IDF 算法的特点,采用 TextRank 算法对文本进行关键词抽取,而后对抽取结果进行对比。具体技术路线如图 1 所示。;209;2B*3+),0A*+,*?*,*?(D=A*5*,*1.*91.0*9(,*图 1 技术路线图四、实证研究(一)数据来源本研究处理分析的数据提取自 EOMS 平台中某省移动 2022 年 8 月家庭宽带用户因网络质量差而投诉

21、的客户投诉工单,包含客户投诉原因的文本数据,数据总量为 773 965 条。24北京邮电大学学报(社会科学版)2024 年第 2 期图 2 展示了部分从 EOMS 系统下载后未经处理的客户投诉工单数据。获取的工单中包含了“工单标题”“工单类型”“客服投诉分类”等数十列数据。其中,“工单状态”“客服流水号”等属性对本研究分析无益,需要清洗。图 2 下载自 EOMS 的未经处理的客户投诉工单数据(部分)(二)数据预处理从 EOMS 中下载文本数据时未经过滤,文本中包含未记录有效信息的无效数据及因工单填写格式错误而不属于采集范围内的其他数据,因此不能直接使用工单中的文本数据分析。此外,在实际操作中,

22、因装维工人工单填写不规范、含错别字、维修措施表述不清、关键字段缺失,以及存在重复派单等现象,这些对文本挖掘存在一定负面影响。为提高分析结果的精确性,需要对采集到的文本进行预处理,去除无效信息及干扰后续分析的文本。具体处理规则如下:(1)取出“更新时间”字段为 2022 年 8 月(2022080120220831)的数据。(2)去除“宽带账号”“更新时间”和“报结人员”等后续对分析无明显作用的列,仅保留用于标记的“工单编号”列、用于分类的“投诉原因”列和用于文本分析的“申请报结处理情况”列这三列。(3)去掉“投诉原因”或“申请报结处理情况”字段为空的数据。(4)经过观察,“申请报结处理情况”字

23、段中“n”后为维修的详细参数,如处理时间、维修人员姓名、维修人员联系方式、维修人员是否上门、客服派单满意度等,这些对本研究的文本分析来说均为无效内容,故而全部去除。(5)因维修工人工单填写不规范,文本包含错别字、专业术语缺字漏字的情况,如“尾纤”误写为“尾线”、“熔接”误写为“溶接”、“路由器”缩写为“路由”、“光猫”缩写为“猫”。将错别字替换为正确的字词,将缺字漏字的专业术语补全。(6)去除“【2022 质差用户整治攻坚】”“【2022 年质差专项优化】”“【末端质差】”等不涉及具体问题或具体维修措施的无意义字段。(7)删除仅填写“已处理”“已维修”等只写明维修结果,但不标明具体设施的具体故

24、障以及具体维修手段的数据。(8)对“申请报结处理情况”列使用 len()指令,按单元格数据长度升序排列,删除字段长度在 0 34张爱华等:基于 TF-IDF 算法的运营商客户投诉原因研究3、不含有效信息的数据。(9)删除未经维修人员维修,客户故障“自动恢复”的数据。预处理后数据如图 3 所示。经数据预处理后,共获初步筛选数据共 505 240 条。图 3 预处理后的数据(部分)(三)文档拆分实验主要对 EOMS 客户投诉工单文本字段作分词,以关键词定位网络质量问题。若仅对整个文档进行分析,分析结果不具备区分度,获得的分析结果有限,且不能充分发挥 TF-IDF 算法的分析价值。因此,抽取分词和关

25、键词之前,需扩充文档集数量,将初始文档拆分为多个文档。以运营商“投诉原因”字段为主要划分依据对文档进行初步划分,引用电信网分层结构的理论。首先,挑选出投诉占比最大的“用户原因”“网络原因”“终端原因”三大类原因作为一级标签;其次,根据运营商规定的二、三级标签概要后分别区分。由于部分投诉原因不含四级原因,不考虑四级标签的区分。将标签进行分级拆分后的部分结果如图 4 所示。图 4 按标签分类后的文本数据(部分)分类后文档集内保留的文本数据共 338 430 条,如表 1 所示。44北京邮电大学学报(社会科学版)2024 年第 2 期表 1 文档分类结果一级标签二级标签三级标签小计共计用户原因网络原

26、因终端原因用户感知终端接入网核心网FTTHONU 光猫故障互联网电视机顶盒故障路由器故障户线或接头问题115 642用户自购53 263用户家庭组网问题4 249接入网络线路及分光器问题31 458接入网设备故障15 535接入网升级、割接或配置问题1 897网络重载、流控或光功率不达标4 263传输设备或主干光缆问题4 790CMNET 网络故障43749 511173 15453 1535 22737 93915 3704 076此外,经过分类后发现七个文档的长度长短不一,各分类的数据量如图5 所示。长度最长的“用户-终端”问题文档有 173 154 条数据,而最短的“终端-路由器故障”问

27、题文档只有 4 076 条数据。如果按照原 TF-IDF 公式,则会偏向长文档,对结果产生影响。于是,将分类后的文档集按照数据量进行再拆分,使每一个文档中只包含最多 4 200 条数据。最终获得的文档集中共有 83 个文档。对每一分类下、每一个文档进行关键词抽取后获取的关键词及对应的 TF-IDF 值进行加总后取均值排序,以获得该分类下抽取的关键词。这种操作可以在一定程度上抵消 TF-IDF 算法对于长文档的偏向。A/BAA/-D+;4-+3?图 5 各分类的数据量(四)文本分词笔者采用 Jieba 对文本进行分词。在正式实验之前,对文本数据进行词频统计,初步掌握高频词和无实际意义的词汇。阅读

28、移动运营行业相关资料后,整理出自定义词典。此外,对于停用词列表,笔者还下载了公众认可度较广的中文停用词表和百度停用词表,结合自整理的停用词并进行整合使用,54张爱华等:基于 TF-IDF 算法的运营商客户投诉原因研究对文档集进行停用词滤除。表 2 和表 3 分别为笔者总结的自定义词典和停用词列表的部分展示。表 2 自定义词典(部分)名词动词路由器熔接网络测速光猫熔纤光纤重熔表 3 停用词列表(部分)自整理停用词百度停用词网间他们平台以下工单以后能差全体导入自定义词典和使用停用词列表后,为发现每个类的具体问题,使用 Jieba 分词保留名词词性的候选词对文本进行分词。获得的部分分词结果如表 4

29、所示。表 4 分词结果(部分)序号分词前分词后1速率不匹配更换光猫、户外各种接头速率、匹配、光猫、接头2经上门检查是线路尾纤处理后上网检查、线路、尾纤3更换尾纤重新热熔尾纤、热熔4PON 口割接调整PON 口、割接、调整5弱光整治、ONU 光功率不达标弱光、整治、功率(五)关键词抽取完成分词后,取出每个文本中 TF-IDF 值排名前十的词,对每一分类下、每一个文档进行关键词抽取后获取的关键词及对应的 TF-IDF 值进行加总后取均值最后排序,再取出综合排名前 6 的关键词。获得的最终关键词代表了每个分类中运营商需优先处理的问题。为凸显 TF-IDF 算法中 IDF 数值特征的作用,实验还对文档

30、集分别应用标准词频(TF 值)和 TextRank算法。与 TF-IDF 算法的应用结果进行对比,以分别观察 IDF 值的作用及 TF-IDF 算法的算法特色。最终获取的每个分类前 6 个关键词如表 5 所示。表 5 关键词抽取结果文本类别TF-IDF 抽取关键词TF 抽取关键词TextRank 抽取关键词用户原因-用户感知问题账号、路由器、机顶盒、账号密码、感觉、错误账号、路由器、机顶盒、账号密码、感觉、错误错误、账号密码、感觉、机顶盒、路由器、账号用户原因-终端问题路由器、光纤、网线、光猫、皮线、弱光路由器、光纤、网线、光猫、皮线、弱光路由器、光纤、网线、线路、光猫、弱光网络问题-接入网问

31、题皮线、光缆、光猫、网线、接头、OLT皮线、光缆、光猫、网线、接头、光纤皮线、光缆、网线、光猫、接头、弱光64北京邮电大学学报(社会科学版)2024 年第 2 期续表文本类别TF-IDF 抽取关键词TF 抽取关键词TextRank 抽取关键词网络问题-核心网问题主干光缆、大网、版本升级、光缆、红线、网间出口质量主干光缆、大网、版本升级、光缆、红线、网间出口质量主干光缆、大网、光缆、红线、网间出口质量、线路终端原因-FTTHONU光猫故障光猫、机顶盒、网关、路由器、电源、终端光猫、机顶盒、路由器、网关、电源、终端光猫、机顶盒、路由器、电源、原因、终端终端原因-路由器故障路由器、光猫、组网、机顶

32、盒、重置、网线路由器、光猫、组网、机顶盒、重置、网线路由器、光猫、组网、电源、原因、机顶盒终端原因-互联网电视机顶盒故障机顶盒、电视、电视盒、光猫、路由器、终端机顶盒、电视盒、电视、光猫、路由器、终端机顶盒、电视、光猫、电视盒、终端、电源(六)实验结果分析与建议1.结果分析通过实验,TF-IDF 算法成功定位出每个投诉原因分类的关键问题:在用户感知问题类别中,客户端账号问题最显著,其次是路由器和机顶盒问题;终端问题类别揭示了客户端路由器、光纤、网线和光猫等设备故障的普遍性;接入网问题类别中,皮线问题尤为突出,伴随光缆、光猫和接头问题,这些问题通常与线路老化或损坏有关;核心网问题类别则主要集中在

33、主干光缆、大网问题和版本升级上,这些问题可能导致普遍的网络服务质量下降;在终端故障的三类细分中,FTTHONU 光猫故障、互联网电视机顶盒故障和路由器故障被有效识别,光猫、机顶盒和路由器问题在各自分类中的 TF-IDF 值较高,表明它们是用户投诉的主要焦点。总而言之,实验结果反映了 TF-IDF 算法的特点,即对重要程度高的词汇赋予高权重值,从而突出重点词汇,过滤无关词汇,更准确地反映了文档的主题和内容。从实验结果来看,TF-IDF 算法的应用不仅提高了信息检索的效率,而且通过赋予重要词汇更高的权重,更准确地反映出投诉文档的主题和内容。同时,进一步将 TF-IDF 算法的应用结果与标准词频法和

34、 TextRank 算法进行比较,结果揭示出不同算法在关键词抽取方面的差异。分析对比结果,得出以下结论。(1)与 TF 比较结果表明,TF-IDF 算法与 TF 词频统计方法在关键词抽取上存在显著差异。如在接入网问题分类中,TF-IDF 算法突出显示了“OLT”,而 TF 统计则强调了“光纤”。在 FTTHONU 光猫故障分类中,TF-IDF 算法的关键词顺序与 TF 方法相反,这是由于 IDF 数值特征的加入显著影响了关键词的提取和排序。与基于词频的方法相比,IDF 提高了关键词的区分度,从而提高了分析结果的准确性和可靠性,为运营商提供了更深入的客户投诉分析。(2)与 TextRank 比较

35、结果显示,两种方法的关键词抽取结果差异更为显著,用户感知和路由器故障这两类问题区分程度较大,出现了某个单词的权重值为 1 的情况。其他类别如终端问题、接入网问题、核心网问题、FTTHONU 光猫故障和互联网电视机顶盒故障,虽然区分程度较小,但也可从中观察到不同关键词的抽取结果。这是由于相较于 TF-IDF,TextRank 算法更注重对词语在文本中关联度的计算。因此,在处理关键词数量较多、研究重点在于数量而非关联度的文本数据,尤其在处理本研究关注的客户投诉文本中时,TF-IDF 算法的表现效果相对较好。2.应用建议实验结果发现,光猫、路由器和机顶盒问题广泛存在于各个问题的关键词前列中。因此,在

36、运营商进行产品、服务改善时,应首先将目光集中于这三项设施的相关问题的整修和维护,提高出厂质量,降低后续出现故障的可能性。加大资金研发和改进的投入力度,为用户配备质量更好的终端设备,优74张爱华等:基于 TF-IDF 算法的运营商客户投诉原因研究化通信设备的维护和管理。另外,与局限于单个家庭的、无区域性关联的问题相比,核心网问题,特别是大网问故障和版本升级问题通常涉及广泛区域的统一调整。这种变动导致网络质量下降,引发大量客户投诉。为减少这类投诉,减轻维修负担,地方运营商应在大网维修前和版本升级前向用户发送统一通知,详细说明维修相关信息和时间,确保用户知情,从而有效减少用户相关投诉,缓解维修压力。

37、最后,运营商也要注意加强投诉接待员相关业务的培训,并根据每月提取的关键词设置问题汇集手册。业务接待员可以根据手册在电话端指导客户快速解决问题,在减少维修力量消耗的同时提高客户满意度。五、结论与讨论(一)研究结论在我国运营商市场竞争日趋激烈的背景下,客户对网络质量的要求日益提高,投诉问题随之增多。本研究选取了关键词抽取技术中的 TF-IDF 算法,对客户投诉工单中的投诉原因进行关键词抽取分析,以提高数据分析效率,实现投诉原因的月度迭代报告。本研究综合运用文献研究法和实证研究法,对TF-IDF 算法和工单文本挖掘相关文献研究,结合中文分词技术(Jieba 分词)和 TF-IDF 算法进行实验,对问

38、题进行具体研究。本研究的主要研究工作包括:总结阐释了客户投诉工单文本分析的方法;应用 TF-IDF 算法对客户投诉工单进行定量研究;对数据进行分词处理,以及从应用层面分析实验结果。实验结果表明,TF-IDF 算法能够有效识别工单中的关键问题,如客户端账号问题、路由器和机顶盒问题等,为运营商改进产品和服务提供重要依据。与 TF 词频统计和 TextRank 算法相比,在处理客户投诉文本时,TF-IDF 算法在关键词抽取方面展现出显著优势。IDF 值的引入不仅提高了关键词的区分度,也提高了分析结果的准确性和可靠性。TF-IDF算法能够更准确地提炼出客户投诉工单中各个分类的关键问题,提升关键词抽取效

39、率。基于实验结果,本研究为运营商提供以下应用建议:首先,集中关注光猫、路由器和机顶盒等设施的整修和维护,减少故障发生;其次,针对核心网问题,应提前通知用户,减少不确定因素导致的投诉;最后,加强投诉接待员的业务培训,并根据提取的关键词设置问题汇集手册,提高客服服务水平,减少维修资源浪费。综上所述,本研究发掘了 TF-IDF 算法在运营商客户投诉原因分析中的显著应用价值,深入揭示了影响网络质量的月度关键问题,为运营商改进产品和服务提供了切实可行的建议,帮助运营商提升用户服务体验,方便运营商进行客户管理。(二)局限与展望本研究存在一些不足之处:首先,虽然 TF-IDF 算法在关键词抽取方面表现出色,

40、但其本身的局限性可能会影响分析结果的精度。因此,未来可考虑结合其他算法,如词嵌入或深度学习模型,进一步提高关键词抽取的准确性和全面性。其次,本研究未对实验结果的关键词抽取质量进行系统性评估,这可能会影响结果的普遍接受度。为了增强实验结果的说服力,未来研究可引入评估指标来量化关键词抽取的性能。同时,对客户投诉工单分类的文本筛选机制进行改进,降低关键词的相似度,确保从每个类别都能提取出更具区分性的关键词。最后,未来研究还可纵向比较不同时间段的客户投诉数据,或对月内时间段进行细分并分别抽取关键词进行比较,以便运营商更好地理解客户重点投诉问题随时间变化的趋势,为运营商提供更加精细化的产品服务改进策略。

41、参考文献:1 万磊,严道波,杨勇,等.基于文本挖掘的 95598 投诉工单关键信息提取分析J.电力与能源,2019,40(1):70-72.2 李颢,张吉皓.基于文本挖掘技术的客服投诉工单自动分类探讨J.移动通信,2017,41(23):66-72.84北京邮电大学学报(社会科学版)2024 年第 2 期3 吴刚勇,张千斌,吴恒超,等.基于自然语言处理技术的电力客户投诉工单文本挖掘分析J.电力大数据,2018,21(10):68-73.4 汤宁.基于文本挖掘的电力工单分析C/2018 智能电网新技术发展与应用研讨会论文集,2018:312-316.5 蒋海刚.词向量文本挖掘技术在建筑设施管理应

42、用研究J.电脑知识与技术,2021,17(33):22-25.6 牛倩.C 证券公司客户投诉管理研究D.天津:河北工业大学,2022.7 SALTON G,BUCKLEY C.Term-weighting approaches in automatic text retrievalJ.Information Processing&Management,1988,24(5):513-523.8 HAVRLANT L,KREINOVICH V.A simple probabilistic explanation of term frequency-inverse document frequenc

43、y(tf-idf)heuristic(and variations motivated by this explanation)J.International Journal of General Systems,2017,46(1):27-36.9 SINGH K,DEVI S,DEVI H,et al.A novel approach for dimension reduction using word embedding:an enhanced textclassification approachJ.International Journal of Information Manage

44、ment Data Insights,2022,2(1):100061.10 LIANG M,NIU T.Research on text classification techniques based on improved tf-idf algorithm and lstm inputsJ.ProcediaComputer Science,2022,208:460-470.11 YANG Z,WU Q,VENKATACHALAM K,et al.Topic identification and sentiment trends in weibo and wechat content rel

45、atedto intellectual property in ChinaJ.Technological Forecasting and Social Change,2022,184:121980.12 周源,刘怀兰,杜朋朋,等.基于改进 TF-IDF 特征提取的文本分类模型研究J.情报科学,2017,35(5):111-118.13 赵晓平,黄祖源,黄世锋,等.一种结合 TF-IDF 方法和词向量的短文本聚类算法J.电子设计工程,2020,28(21):5-9.14 张蕾,姜宇,孙莉.一种改进型 TF-IDF 文本聚类方法J.吉林大学学报(理学版),2021,59(5):1199-1204.

46、15 金镇晟.基于改进的 TF-IDF 算法的中文微博话题检测与研究D.北京:北京理工大学,2015.16 牛萍.TF-IDF 与规则结合的中文关键词自动抽取研究D.大连:大连理工大学,2015.17 叶雪梅.文本分类 TF-IDF 算法的改进研究D.合肥:合肥工业大学,2019.18 钟昕妤,李燕.中文分词技术研究进展综述J.软件导刊,2023,22(2):1-6.19 刘啸剑,谢飞,吴信东.基于图和 LDA 主题模型的关键词抽取算法J.情报学报,2016,35(6):664-672.20 李航,唐超兰,杨贤,等.融合多特征的 TextRank 关键词抽取方法J.情报杂志,2017,36(8

47、):183-187.Reasons for Customer Complaints in Operators Based on TF-IDF AlgorithmZHANG Aihua,SUN Jiahong(School of Economics and Management,Beijing University of Posts and Telecommunications,Beijing 100876,China)Abstract:Focusing on the issue of high cost and low efficiency associated with manual pro

48、cessing of customercomplaints by operators,a quantitative research method based on TF-IDF(term frequency-inverse documentfrequency)algorithm is proposed,aiming to efficiently and accurately identify the reasons for customercomplaints.Jieba,combined with the custom dictionary and the list of stopword

49、 is used to extract key words fromcomplaint worksheets.The top six key words with the highest TF-IDF values in each issue are obtained,and aset of key words is output,thereby enhancing the accuracy and efficiency of keyword extraction.Furthermore,bycomparing this method with the sole use of TF and t

50、he application of the TextRank algorithm,the importance ofIDF and the differences in algorithmic principles are highlighted.Results indicate that issues related to opticalmodems,routers,and set-top boxes widely exist in complaints.In terms of these issues,this study providesoperators with relevant s

展开阅读全文