基于TextCNN的邮政快递业申诉文本事件分类.pdf-资源下载-咨信网助力知识提升-让知识获取变得高效!

基于TextCNN的邮政快递业申诉文本事件分类.pdf

1、计算机时代 2023年第12期0 引言邮政快递业与我们的日常生活密切相关，但一部分快递企业在追求利益的同时，难免忽略了一些客户体验，缺件丢件、包裹损坏、时效延长等问题也经常被提及，客户对快递服务的不满成为制约快递业发展的一大原因。邮政快递业的申诉渠道每月都会收到大量针对各类邮政快递事件的申诉信息。这些申诉信息以工单的形式进行采集，其中，申诉事件描述字段是本文将要处理和分类的对象，该字段包含申诉当事人描述的事发地点、发生日期以及对事件经过的详细描述等重要信息。但是在实际采集过程中，存在数据量大、描述信息缺失、格式和内容不统一等问题，导致目前人工进行申诉关键信息提取与分类汇总效率低下，误报或漏报

2、情况时有发生，且为邮政业安全中心对快递业的监管和决策带来诸多不变。为了解决这些问题，本文采用文本特征提取与深度学习模型对上述从平台导出的大量快递业申诉工单中的事件描述文本进行快速准确的自动分类，明确每个申诉事件的原因。文本分类是自然语言处理中的一个重要分支，二十世纪九十年代，机器学习的方法逐渐成熟，例如决策树1，朴素贝叶斯2，支持向量机3等，这些方法在DOI:10.16644/33-1094/tp.2023.12.026基于TextCNN的邮政快递业申诉文本事件分类*宁艺博，陈景霞，张鹏伟，王梅嘉(陕西科技大学，陕西西安710021)摘要：为解决邮政安全监管部门在对大量申诉事件原因进行分类汇

3、总时耗时耗力、效率低下等问题，提出应用Word2vec和TextCNN模型，实现对大量快递申诉文本事件进行申诉原因自动分类。首先对自采集的申诉文本做预处理，申诉原因分为延误、投递、丢失短少、损毁、其他共五种类型，再使用Word2vec进行词向量的转换，构建TextCNN模型，对其进行训练得到申诉文本的分类模型。在真实数据上的实验结果表明，该方法能够对申诉文本进行有效分类，准确率达到94.05%，召回率93.03%，F1值0.9325。关键词：快递业申诉事件；文本分类；Word2vec；TextCNN中图分类号：TP391.1文献标识码：A文章编号：1006-8228(2023)12-120-0

4、5TextCNN based appeal text event classification for postal express delivery industryNing Yibo,Chen Jingxia,Zhang Pengwei,Wang Meijia（Shaanxi University of Science and Technology,Xian,Shaanxi 710021,China）Abstract：To solve the problems of time-consuming,labor-intensive,and inefficient classification

5、and summary of the causes of alarge number of appeal incidents by postal security regulatory authorities,a Word2vec and TextCNN combined method is proposedto achieve automatic classification of appeal reasons for a large number of express delivery industry appeal texts.Firstly,the self-collected app

6、eal text is preprocessed and divided into five types:delay,delivery,loss or shortage,damage,and others.Then,Word2vec is used to convert the text into word vectors,and TextCNN model is constructed and trained to obtain a classificationmodel for the appeal text.The experimental results on real data sh

7、ow that this method can effectively classify appeal texts,withan accuracy of 94.05%,a recall rate of 93.03%,and an F1 value of 0.9325.Key words：appeal events in the express delivery industry;text classification;Word2vec;TextCNN收稿日期：2023-08-23*基金项目：国家自然科学基金(61806118)；陕西科技大学科研启动基金项目(2020BJ-30)；陕西省教育厅科

8、学研究计划项目(22JK0303)作者简介：宁艺博（1998-），女，陕西延安人，研究生，主要研究方向：深度学习、自然语言处理。通讯作者：陈景霞（1979-），女，陕西西安人，博士，教授，主要研究方向：数据挖掘、深度学习、多模态情感计算等。120Computer Era No.12 2023一定程度上实现了文本的自动分类，也在各个领域得到了广泛的应用。但传统机器学习方法在构建分类器之前需要进行复杂的人工特征抽取，而深度学习算法解决了这一问题。因此，目前深度学习的方法饱受研究者们的关注4。GolVe和Word2vec等5词向量模型的提出，为深度学习算法在文本分类领域的推广应用奠定了基础。Miko

9、lov等人6提出的Word2vec方法能够将单词表示为空间词向量，进而输入到模型中去进行下游任务，之后又建立了基于RNN的语言模型，在文本分类任务中取得了好的效果。Kim等人使用卷积神经网络进行了文本分类7，提出了TextCNN模型，经过在七个公开的文本分类和情感分析数据集上的实验，TextCNN模型相比其他算法取得了更高的准确率，研究结果证明了单词向量的无监督预训练是NLP深度学习的重要组成部分，浅层的神经网络也能够在文本分类任务上进行准确分类。Liu P等人8重点研究了RNN模型对高并发情况的处理能力，使用多任务学习框架来跨多个相关任务进行联合学习，并简化了特征工程环节的工作。Joulin

10、 A等提出了一种准确率较高，而且模型的训练速度超快的 FastText 分类模型9，大大节约了训练成本。Rie Johnson等提出一种用于文本分类的低复杂度单词级深度卷积神经网络10即DPCNN模型，可以有效地表示文本中的长距离关联，在情绪分类和主题分类的六个基准数据集上，模型的表现优于之前的最佳模型。本文使用TextRNN等深度学习模型进行对比实验，实验结果表明，相比于人工分类和其他对比方法，本文所采用的方法分类性能更优，为解决邮政部门海量申诉信息的自动分类汇总和评判决策提供了一种有效途径，具有重要的理论意义和应用价值。1 研究方法本文在收集到申诉事件文本数据后，首先进行数据的预处理11，

11、再对文本数据进行向量化处理，最后输入到构建的深度学习模型中进行深度特征提取与分类。具体步骤如下：通过邮政安全中心12345申诉平台，收集到快递业相关申诉事件的描述文本。对收集到的文本数据进行预处理，包括去除停用词，中文分词等，接着使用Word2vec模型对文本数据向量化处理，作为embedding层。利用TextCNN模型对embedding词向量，使用大小分别为2*2，3*3，4*4的三种尺寸的卷积核，经过卷积层和池化层对向量做进一步的文本特征提取。将提取到的文本特征输入softmax层做具体的事件分类。本文的研究路线如图1所示。图1研究路线图1.1 数据集的制作本文的数据来自12345申诉

12、平台推送的真实申诉数据。由于收到的快递业申诉事件的文本中，包含许多无意义的标点符号，停用词等，因此在进行实验之前，需要对收集到的文本数据进行清洗等预处理，之后再进行标注，具体步骤如下：去除停用词快递业申诉文本中包括许多与分类任务无关的词，去停用词可以有效提高句子理解和文本处理的效率和准确性。本文基于百度停用词表对照，对文本数据中的停用词做了删除处理。中文分词在本文所需要处理的快递业申述事件文本中，有许多快递行业的专有名词，比如“菜鸟驿站”，“转运中心”，“派送站点”等，因此在数据预处理阶段，对文本进行分词显得尤为重要。分词是指将申诉文本进行划分，得到一个最基本的特征单元，比如一个字或是一个词语

13、。目前的中文分词方法主要有三种12，分别121计算机时代 2023年第12期为基于字符串匹配的分词方法，基于统计的分词方法以及基于理解的分词方法。本文采用jieba分词工具对快递业申诉文本进行分词处理，在通用词库的基础上导入快递业相关的部分名词，将快递业申诉事件文本关键词进行优化分词，并与申诉事件文本候选关键词进行比照，再进行权重排序，最终作为特征关键词输入模型。人工标注类别将申诉事件文本进行人工类别标注，按照事件的申诉原因，分别标记为延误、投递、丢失短少、损毁、其他共五类，并按照该顺序标记为0-4的标签。为了保持各类别文本数据数量基本平衡，本文共抽取了10535条文本数据进行实验。每条申诉

14、事件文本的长度不超过200字，并且在实验过程中以8:1:1的比例随机抽取文本数据分别作为训练集、验证集和测试集。用“XX”屏蔽掉了申诉人的个人信息和具体快递网点的信息，去除停用词并进行中文分词后的部分数据展示如表1所示。表1部分实验数据文本数据购买的快递自4月3日已发货物流显示4月10日已到达 XX但至今一直未收到市民收货地为XX多次联系客服至今未果快递收货地为 XX但快递配送员在未经许可的情况下将快递送至 XX驿站而且不联系告知快递已送达群众对此不认可市民反映从XX发往XX的快递至今未送达快递显示 2022年 1月 22日到达 XX中转站 1 月24日快递员打了电话快递员表示快递疑似丢失至今

15、未找到市民 1 月 15 日通过 XX 县的 XX 快递发了 15箱苹果收货地为XX收到货后发现其中5箱损坏1月19日联系快递公司反映一直无人处理市民反映1月20日在XX区XX路XX快递代办点寄两条烟被告知两条烟邮费30元市民咨询 XX快递总公司告知按照称重计费即可市民认为此处乱收费类别设置延误（0）投递（1）丢失短少（2）损毁（3）其他（4）1.2 文本向量化本文所处理快递业申诉文本数据是不可计算的非结构化的数据，因此在进行分类之前需要将文本数据转化为计算机可以识别的、可计算的向量。词嵌入模型是目前实现词语到其特征向量映射的一种最有效的方法13。基于Word2vec模型来获取词向量特征，通过

16、词向量的表示，向量之间的空间距离就可以体现出词与词之间的相似度。Word2vec 提供了两种训练模型，即CBOW（Continuous Bag-of Words）连续词袋模型和Skip-gram连续跳字模型14。CBOW模型是根据一个词的前后词去预测中间词的概率。对于一个词wt，该模型分别利用它左边及右边的k个词，来预测它对于词典中属于某个词的概率P，进行预测的目标函数L可表示为：L=t=1Tp(wt-k,.,wt-1,.,wt+k)其中，T表示词典中的词汇数，CBOW 模型训练就是求L目标函数的最大值。Skip-gram模型与CBOW模型则恰恰相反，它是利用中间词去预测前后词的概率，对于一个

17、词，用它来预测其左右k个词在词典中属于某个词的概率P，用于预测的目标函数L 可表示为：L=t=1Tp(wt-k,.,wt-1,.,wt+k|wt)其中，T同样表示词典中词汇的数量。Skip-gram模型与CBOW模型类似，都是由输入层、隐层和输出层构成，并且Word2vec模型为了提高对概率的计算速度，提供了层次化softmax和负采样进行优化15。本文选择了CBOW模型进行文本的向量化处理，训练词向量的维度设置为100，窗口移动大小设置为5，利用 min_count对词频小于5的词进行了过滤，其余参数为默认参数。与其他普通神经网络的语言模型相比，它能够在较快的训练速度下仍然保持较好的训练精度

18、。1.3 TextCNN分类模型的构建本文采用文本卷积神经网络TextCNN模型进行文本分类，该模型可以通过定义不同的卷积核大小，来提取不同的局部特征，从而可以得到比较具代表性和多样性的特征16。TextCNN 模型中包括：卷积层Convolutional layer、池化层 Pooling layer、全连接层Fully Connected layer。其模型的结构如图2所示。使用Word2vec模型训练得到相应的词向量作为分类模型的embedding层，将其输入到TextCNN模型当中。考虑到快递业事件文本的领域特殊性，针对Word2vec训练的词向量，本文自定义了Word embeddi

19、ng的训练权重矩阵。TextCNN模型的卷积核共设置了2*2、3*3、4*4 三种尺度，卷积核的数量均设置为256，122Computer Era No.12 2023经卷积后对得到的向量进行最大池化，之后再输入全连接层，最后通过softmax层完成分类。图2TextCNN模型结构图17卷积层是TextCNN模型的核心所在，通过卷积核可以提取到申诉文本数据中不同层次的深度特征，卷积层的计算公式为：hi=f(x=13y=13wi(x,y)cx,y+bi)其中，f表示激活函数，wi(x,y)表示其输出矩阵第i个节点对应输入节点的权重，cx,y表示输入节点的值，bi表示该输入节点对应的偏置值，通过卷

20、积核来实现特征提取，hi即为卷积核输出的结果18。池化层将卷积层各通道的输出进行最大池化计算，然后利用具有256个隐单元的全连接层将池化层提取到的特征进行拼接融合，得到最终的较为全面的组合特征。最后将其输入到softmax分类器中进行申诉事件文本分类。2 实验及结果分析2.1 实验环境及设置基于Windows11上的PyTorch深度学习框架进行实验，配置的 CUDA 环境为 CUDA11.1，语言版本为Python3.7。实验过程中，将数据集随机划分为十个子集，每次选取其中一个子集作为测试集，其余九个子集作为训练集，交叉验证重复十次，直至每个子集都已作为一次训练集。最终选取了一组实验效果最佳

21、的参数设置，如表2所示。表2模型参数设置参数类型EpochBatch_sizePad_sizeLearning_rate数值设置101282001e-32.2 模型性能评估在模型测试阶段，通常通过模型在测试集上的表现来检验模型的泛化能力，采用文本分类任务中常用的评估指标进行模型性能评估，具体包括准确率（Accuracy）、精确率(Precision)、召回率(Recall)和F1测评值19。各指标计算公式如下。准确率：ACC=TP+TNTP+FN+FP+TN精确率：P=TPTP+FP召回率：R=TPTP+FNF1评测值：F1=2 R RR+P其中，TP表示真正例，TN表示为真反例，FP表示为伪

22、正例，FN表示为伪反例。2.3 本文方法实验结果如表3所示，展示了本文方法对每个类别数据的分类准确情况，各项指标为十折交叉验证的最优值。表3TextCNN对测试集各类别文本的分类结果类别01234Precision（%）93.4994.0696.1797.5986.18Recall（%）94.9791.7998.0498.1882.17F1（%）94.2292.9197.0997.8984.13从表3可以看出，在对申诉事件文本进行分类时，投递、丢失短少、损坏这三类（表 1）的事件描述更为明了，分类的准确率也更高一些，在“其他”这一类别的数据中，数据的组成较为复杂，涉及多种情况，因此分类的准确率

23、也较其余四类更低。实验结果表明，基于Word2vec和TextCNN模型的方法，能够对本文的快递业申诉事件文本进行有效的申诉原因分类，并且分类效果良好，模型也具有较强的泛化能力，在未学习过的测试数据集上也能展现出良好的预测效果，模型检测精确率高。2.4 不同方法的分类对比在各项实验中，先通过Word2vec对已经预处理过的文本进行词向量处理，再作为词嵌入层输入到各个123计算机时代 2023年第12期深度学习模型中进行特征提取及分类，各个对比模型的最终分类效果如表4所示。表4不同模型的分类效果比较ModelTextRNNDPCNNFastTextLSTMTextCNNTextCNNAccur

24、acy（%）91.7291.9191.8192.289494.0505Precision（%）90.6391.5890.6591.189393.5050Recall（%）90.8889.6391.1091.259393.0303F1（%）90.7390.3790.8391.209393.2525由表4可见，本文使用的TextCNN模型，比其他模型的分类准确率更高。TextCNN模型在此次分类任务中，准确率达到了94.05%，在相同的参数设置下，大多评估指标均高于其他方法，模型准确率平均高出2.12%，并且模型泛化能力强，在未学习过的训练集上也能保持较高的准确率，这些实验结果均表明本文所采用的W

25、ord2vec模型结合TextCNN模型的分类方法结果最优，能得到良好的分类结果。3 结论本文针对邮政安全中心对收集到的大量申诉事件处理效率低下的问题，提出应用 Word2vec 和TextCNN模型的方法，对海量的申诉事件文本进行了有效的分类，从而减轻人工分类的负担，为部门和企业更好更快地解决申诉问题提供数据支持。未来的研究中，将会探索如何进一步提升分类准确率，并且不断扩充完善数据集，尝试加入半监督或者无监督的方法对特征提取和分类模型进行改进优化。参考文献(References):1 Li H,Yamanishi K.Text classification using

26、 ESC-basedstochastic decision listsJ.ACM,1999:122-130.2 KIM S B,HAN K S,RIM H C,et al.Some effectivetechniques for naive Bayes text classificationJ.IEEETransaction on Knowledge and Data Engineering,2006,1(11):1457-1466.3 JOACHIMS T.Text categorization with support vectormachines:learningwithmanyrele

27、vantfeaturesM.NewYork,USA:SpringerUS,1998.4 何力,郑灶贤,项凤涛,等.基于深度学习的文本分类技术研究进展J.计算机工程,2021,47(2):1-11.5 PENNINGTON J,SOCHER R,MANNING C.GloVe:globalvectors for word representation.Proceedings of 2014ConferenceonEmpiricalMethodsinNaturalLanguageProcessingC.San Diego,USA:ACL,2014:1532-1543.6 Mikolov T,Mar

28、tin Karafit,Burget L,et al.Recurrent neuralnetwork based language model.Interspeech,Confer-ence of the International Speech Communication As-sociationC.Makuhari,Chiba,Japan,September.DBLP,2015.7 Yoon Kim.Convolutional neural networks for sentenceclassification.In Proceedings of Empirical Methods inN

29、aturalLanguageProcessing(EMNLP),2014:1746-1751.8 Liu P,Qiu X,Huang X.Recurrent Neural Network for TextClassification with Multi-Task Learning,2016.9 Joulin A,Grave E,Bojanowski P,et al.Bag of Tricks forEfficient Text ClassificationJ.2017.10 Johnson R,Zhang T.Deep Pyramid Convolutional NeuralNetworks

30、 for Text Categorization.Proceedings of the55thAnnualMeetingoftheAssociationforComputational LinguisticsC.Vancouver,Canada,2017:562-570.11 BAO Yujia,WU MenghuaCHANG Shiyu,et al.Few-shottextclassificationwithdistributionalsignatures.Proceedings of the 8th International Conference onLearning Represent

31、ationC.Ethiopia:s.n.,2020:1-5.12 杨秀璋,武帅,张苗,等.基于TextCNN和Attention的微博舆情事件情感分析J.信息技术与信息化,2021(7):41-46.13 王方伟,柴国芳,李青茹,等.基于参数优化元学习和困难样本挖掘的小样本恶意软件分类方法J.武汉大学学报(理学版),2022,68(1):17-25.14 熊富林,邓怡豪,唐晓晟.word2vec Parameter LearningExplainedJ.南京师范大学学报（工程技术版）,2015(2):43-48.15 李玉.基于深度学习的文本分类方法研究与应用D.南京:南京邮电大学,2021.

32、16 杨飞洪,王序文,李姣.基于BERT-TextCNN模型的临床试验筛选短文本分类方法J.中华医学图书情报杂志,2021,30(1):54-59.17 Yoon Kim.Convolutional neural networks for sentenceclassification.In Proceedings of Empirical Methods inNatural Language Processing(EMNLP),2014:1746-1751.18 Le H T,Cerisara C,Denis A.Do Convolutional Networksneed to be Deep for Text ClassificationJ.2017.19 卢欣,李旸,王素格.融合语言特征的卷积神经网络的反讽识别方法J.中文信息学报,2019,33(5):31-38.CE124

邮箱/手机：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？