基于机器学习模型的客服短文本分类技术研究.pdf

资源描述

1、现代计算机Modern Computer第 29 卷第 15 期2023 年 8 月 10 日基于机器学习模型的客服短文本分类技术研究李艳1*，朱倩倩2，董秀萍3（1.兰考三农职业学院信息工程系，开封 475300；2.郑州科技学院信息工程学院，郑州 450000；3.开封大学电子电气工程学院，开封 475000）摘要：客服的本质工作是对用户登记的问题进行分类，并根据分类结果将其转发对应的部门进行处理，分类通常依赖人工分析，处理效率较低。为了提高客服人员的工作效率，对基于机器学习模型帮助客服自动分类用户反映问题的方法进行研究，准确进行文本分类和识别。研究选取某公司登记的用户问题数据，分别采用

2、哈希向量化（HashVectorizer）和词频-逆文档频率（TFIDF）等技术构建文本向量，对比分析多种机器分类模型，选取最优模型，且取得较好分类效果。关键词：机器学习；文本分类；哈希向量化；TFIDF文章编号:10071423（2023）15006405DOI:10.3969/j.issn.10071423.2023.15.012收稿日期：20230413修稿日期：20230424基金项目：河南省高等学校重点科研项目（23B460019）：智能型果蔬分选专家系统训练平台作者简介：*通信作者：李艳（1994），女，河南兰考人，硕士研究生，助教，研究方向为视觉识别与自然语言处理，Email：；

3、朱倩倩（1993），女，河南郑州人，硕士研究生，助教，研究方向为计算机信息处理；董秀萍（1993），女，河南开封人，硕士研究生，研究方向为物联网0引言传统的人工客服全天候为市民提供问题咨询、登记、建议和转发处理等热线服务。随着信息技术的飞速发展，市民咨询、求助的数据也在急速增长1，人工客服如何快速、准确分类用户反馈的需求，并转发相应的部门是一个等待解决的问题。为了提高客服人员的工作效率，要求对客服人员登记的信息进行分类，方便下一步转发处理，势必需要融入各种新技术。目前随着机器学习算法研究的逐渐深入，文本分类的方法也在不断优化，并且应用于电力领域2、石油化工行业3等。本文以某公司登记的用户问题为

4、研究数据，对比多种机器学习分类模型，以帮助客服自动分类用户反映的问题，准确进行文本分类和识别。1基于机器学习模型的文本分类方法短文本分类4是自然语言处理（NLP）中的基础任务，原理是将文本内容根据一定的标准划分为一个或多个类别的过程，本文是根据已有类别标签的用户问题文本集合，训练学习得到该文本特征和类别标签之间的关系模型，然后利用这种关系模型对用户反映新问题进行分类。现针对本文实验过程中使用的算法，如线性支持向量机、KNN、朴素贝叶斯和随机森林做详细介绍。1 1.1 1线性支持向量机线性支持向量机支持向量机（support vector machine）56是短文本分类中最常见的一种模型，同时

5、也可以做回归。支持向量机通过寻求结构化风险最小来提高学习机泛化能力，实现经验风险和置信范围的最小化，故在解决小样本、非线性实际问题时具有一定优势。该模型在特征空间上找出最优间隔分离超平面，最终转化为一个凸二次规划问题的求解。1 1.2 2朴素贝叶斯朴素贝叶斯朴素贝叶斯分类法是Lewis7提出的一种用于文本分类任务的算法，主要分训练阶段和测试阶段，在训练阶段，根据训练数据计算先验 64第15期概率（似然度）；在测试阶段，根据输入的特征计算后验概率；而学习的过程就是不断提高似然度的过程。朴素贝叶斯的优点是具有较高的独立性，分类所需要估计的参数少，对于缺失数据不敏感。1 1.3 3随机森林随机森林随

6、机森林的算法原理是以若干个决策树8为基分类器创建了一个森林，并使它拥有某种方式随机性，最终的结果由每个决策树结果投票得到。所构建的“森林”大部分时候都是用“Bagging”方法训练的9。Bagging算法对特征选择与特征降维具有较好分类效果，它采用随机、有放回的选择训练数据，并组合学习构造的分类器，进而增加整体的效果。简而言之：随机森林建立了多个决策树，并将它们合并在一起以获得更准确和稳定的预测。随机森林的一大优势在于该模型既可用于分类，也可用于回归问题。1 1.4 4KNNKNN算法算法K近邻法（KNearest Neighbor）是假设一个样本在特征空间中的k个最邻近的样本中的大多数属于某

7、一个类别，则该样本也属于这个类别，进而以其实现预测分类10。2实验结果与分析2 2.1 1实验数据实验数据本实验的数据集为某公司客服在 20122018 年收集的用户登记的问题信息，共有371120条数据。每一个信息包含78个属性，总体拥有78个大类信息和249个小类信息。借助第三方工具统计所得的数据信息如图1所示。根据研究需求，本文只选用了每条信息中的大类属性、小类属性、投诉内容三条属性信息。并且将数据划分为训练集和测试集，其中70%的数据作为训练集，30%的数据作为测试集，类别属性作为标签。2 2.2 2文本向量化文本向量化2 2.2 2.1 1数据预处理数据预处理为进一步提升分类效果，训

8、练模型前本文需要对原始数据进行预处理，主要包含：分词、去停用词等。（1）分词。文本类型为英文的句子容易分割单词，而中文需要借助一些工具来完成分词处理，本文借助jieba来进行分词。（2）去停用词。根据研究需求制作特定的停用词词典，并将其导入进行数据清洗，剔除语气词、介词和助词。2 2.2 2.2 2特征提取特征提取在本文研究中主要使用TFIDF和HashVectorizer两种文本向量化方法。（1）TFIDF算法11是评估一个特征字或者单词对一个语料库中一份文本的重要程度。某个特征字或词的权重与它在文件中出现的频率成正比，但与它出现在语料库的次数成反比。词频（term frequency,TF

9、）表示语料库中某个单词在当前文本出现的频率，词频的高低代表特征词的重要程度，其计算公式如（1）所示：TFij=ni,jknk,j（1）其中：ni,j表示单词ti在文本dj中出现的次数，（a）大类数据统计（b）小类数据统计图1数据集李艳等：基于机器学习模型的客服短文本分类技术研究 65现代计算机2023年knk,j表示所有词在文档dj中出现的总次数。逆文档频率（inverse document frequency,IDF）主要指的是特征词语的逆向文件频率，一些特征词对主题没有太大作用，所以在设计权重时不能只考虑TF，而是将最能预测主题的特征词赋予较大权重。IDF 权重越大，说明该特征词的重要程度

10、也就越高。其计算公式如（2）所示：IDFi=log()D1+|Di|（2）其中：D表示训练集总文本数，|Di|表示含有特征词的总文本数。TFIDF算法是TF算法与IDF算法相乘，其权重计算公式如（3）所示：TFIDF=TFIDF（3）（2）HashVectorizer 是一种快速且空间利用率高的特征向量化方法，即将任意特征转换为向量或矩阵中的索引。它通过对特征应用散列函数并直接使用特征的散列值作为索引来工作。具体思路：对应任意一个特征名，利用Hash函数找到与其对应在哈希表的位置，然后将特征名对应的词频统计值累加到该哈希表位置。HashVectorizer 与 TFIDF 相比节省内存，也更快

11、，故适用于处理大规模的文本数据。2 2.3 3实验结果及分析实验结果及分析2 2.3 3.1 1模型评估模型评估本文用的模型评估方法为精确率（Pression）和召回率（Recall）。精确率（Pression）指正确模型预测为正的占全部预测为正的比例；召回率（Recall）又称查全率，表示分类结果是正确的时候由算法预测正确的是多少。2 2.3 3.2 2实验结果分析实验结果分析（1）根据不同年份的大小类数据对比不同机器模型的分类效果基于TFIDF的特征提取方法，本实验分别在20122018年的大类和20122018年的小类数据集上验证多种分类模型的分类效果，结果如图2和图3所示。SmallC

12、ategory2012 201320142015201620172018Year0.650.600.550.500.45PressionMultinomiaNBKNNXGBClassifierLinearSVCSmallCategory2012 2013 2014201520162017 2018Year0.650.600.550.500.450.400.35RecallMultinomiaNBKNNXGBClassifierLinearSVC图 2基于不同模型在小类数据上评估的结果PressionMultinomiaNBKNNXGBClassifierLinearSVC0.780.760.7

13、40.720.700.680.660.64BigCategoryYear2012 2013 20142015 2016 2017 2018BigCategoryYearRecall2012 2013 20142015 2016 2017 2018MultinomiaNBKNNXGBClassifierLinearSVC0.750.700.650.600.550.500.45图 3基于不同模型在大类数据的评估结果 66第15期由图2和图3可以看出，基于TFIDF的特征提取方法，分别用每年的大类数据和小类数据去评估多种机器模型，在大类的效果要优于小类的评估结果。从分类结果可以看到，效果并不理想，那

14、么除了分类算法的选择外，对结果影响最大的可能是特征的选择，即向量化方法的选择。（2）将向量化的方法换为哈希向量算法（HashingVectorizer），选用梯度下降算法（SGDClassifier），所得结果如图4所示。2012201320142015201620172018Year0.900.850.800.750.700.65Resultsmall_Pressionsmall_Recallbig_Pressionbig_Recall图 4基于SGDClassifier在大小类数据的分类评估图4对比图3和图2，利用哈希向量进行提取特征，效果优于利用TFIDF提取特征。以上都是

15、基于每年的数据分开进行评估，为进一步评估当前模型，取全部数据在此模型测试，数据量小的类别，几乎很难达到60%的Precision，经过分析得出是由于数据不平衡所致。为验证上面的分析，本文将数据量中的小类别按照一定规则进行切分处理，将符合数量条件的小类组成一个新数据集进行测试，分出的数据集之中，数据量小于 100 条、小于 200条、小于 300条的小类数据集，以及数量小于1000的小类数据集，未达到60%的Precision。（3）基于 HashVectorizer，在不同模型上对20142018年的全部数据进行测试，得到的结果见表1。表 1不同模型的评估方法SGDClassifierLine

16、arSVCPrecision/%7079Recall/%6279由表1的评估结果可以看出，LinearSVC模型的分类效果优于SGDClassifier，进一步提升了分类的精准率。3结语科学和准确的信息分类技术对于提高客服人员的工作效率有极大的帮助。有效满足人工客服快速、准确分类用户反馈的需求，并转发相应的部门是一个等待解决的问题。本文在真实数据集上对比多种机器模型，从而找到最优模型。但是用户反馈的问题中词语少，提供的有效信息有限，为进一步解决这个问题，下一步将考虑基于某种规则改进分类过程，优化改进模型，从而提高分类效果。参考文献：1 运行监测协调局.2021年110月份互联网和相关服务业运行

17、情况 EB/OL.（20211201）.https:/ 张逸，李渴，邵振国，等.基于标准文件的电能质量领域本体构建方法 J.电力系统自动化，2020，44（17）：102110.3 王梦涵，贺辉宗，厉建祥，等.基于机器学习模型的HSE审核短文本分类技术研究 J.安全、健康和环境，2022，22（12）：1823.4 WANG F，WANG Z Y，LI Z J，et al.Conceptbasedshort text classification and ranking C Proceedingsof the 23rd ACM International Conference on Confe

18、rence on Information and Knowledge Management，Shanghai，China，2014：10691078.5 庄婷婷，李冬梅，檀稳，等.基于分层支持向量机的微博用户自杀倾向预测与分析 J.哈尔滨工程大学学报，2019，40（11）：18901895.6 周跃.基于SVM 的文本分类算法研究 D.安徽：合肥工业大学，2021.7 LEWIS D.Naive（Bayes）at forty：the independenceassumption in information retrieval C Proceedingsof the 10th Europea

19、n Conference on Machine Learning，1998：415.8 LEO B.Random forestsJ.Machine Learning，2001，45（1）：5329 BREIMANL.Baggingpredictors J.MachineLearning，1996，24（2）：123140.10 隋文涛，王文超，袁林，等.基于KNN算法的铣刀状态监测技术研究 J.机械设计与制造，2023，388（6）：8991，96.11 唐钰，唐加山.一种改进的 TFIDF文本分类算法J.信息技术与信息化，2022（3）：1316.李艳等：基于机器学习模型的客服短文本分类技术

20、研究 67现代计算机2023年Research on short text classification technology of customer servicebased on machine learning modelLi Yan1*,Zhu Qianqian2,Dong Xiuping3（1.Department of Information Engineering,LanKao Vocational College of San Nong,Kaifeng 475300,China;2.Department of Information Engineering,Zhengzhou

21、University of Science and Technology,Zhengzhou 450000,China;3.School of Electronic and Electrical Engineering,Kaifeng University,Kaifeng 475000,China）Abstract:The essence of customer service is to classify the user registration problems and forward them to the correspondingdepartments for processing

22、 according to the classification results.Classification usually relies on manual analysis,and the processing efficiency is low.In order to improve the work efficiency of customer service personnel,a method based on machine learningmodel to help customer service automatically classify users questions

23、,and accurately classify and recognize text.Research and select the user problem data registered by a company,constructs the text vector using HashVectorizer and TFIDF technologies respectively,compares and analyzes various machine classification models,selects the best model,and achieves good class

24、ificationresults.Keywords:machine learning;text classification;HashVectorizer;TFIDFResearch and application of firewall technology in computer networkdevelopmentHao Qinglong*（Office of Academic Affairs,Lanzhou Petrochemical University of Vocational Technology,Lanzhou 730060,China）Abstract:The core o

25、f computer application is security,which will encounter a lot of challenges due to changes in the externalenvironment.To catch the overall Internet technology update,the existing computer security network must be timely improved.Ifthe privacy and security of users cannot be well protected,the social

26、 reputation of the network information system will be seriouslyaffected.To improve the efficiency and security of the whole computer network,the network security firewall technology must beconstantly improved in view of various dangers in the use of computers.This paper mainly discusses and analyzes the firewall technology in the process of computer network development.Keywords:computer;firewalls;network security（上接第63页）68

展开阅读全文