基于深度学习的藏文文本自动分类研究.pdf

资源描述

1、192青海科技202303探索与实践青海科技INGHAI SCIENCE AND TECHNOLOGY0 引言20 世纪中叶以来，随着数字信息技术的快速发展，人类的信息越来越多地被记录在电子文档中，方便查阅和研究。在我国的少数民族中，藏族文化源远流长。藏文是藏族文化的典型代表，传承至今。我国藏文信息化工作已经具有较高水平，已经完成了相当数量的藏文文献电子化工作。但是，如何从大量的藏文数字文档中快速并准确地进行文本分类，对于藏文信息处理具有重要作用，藏文文本分类是藏文信息化处理的关键要素之一。藏文文本分类方法主要有两大类：基于关键词的文本分类方法1和基于机器学习的文本分类方法2。基于关键词的藏文

2、文本分类方法主要是指，从文章中提取出关键词，然后对关键词的类别进行判断，得到文章的类别。这种方法的优点是比较的词语数量大幅度减少，算法复杂度较低。但是也存在一定的问题，现有藏文分词技术不是很成熟，对于较长文档而言，文章中存在的一些具有歧义的词不能被正确识别，同时在抽取关键词时会删除一些停用词，这样使得抽取出的关键词并不能代表整个文章的类别，分类精度较低。基于传统机器学习方法的藏文文本分类方法，以统计模型占主导，如朴素贝叶斯分类（NB）、K近邻（KNN）、支持向量机（SVM）以及树模型结构 XGBoost 和 LightGBM。基于传统机器学习方法需要将输入的文本转化成向量，进行特征提取。最基本

3、的方法有 wordcount 和 TF-IDF，这两种方法只是考虑了某个词在文本中出现的次数或者频率，没有考虑到词的上下文结构信息。机器学习方法速度快，在小样本上分类效果较好，但是由于提取特征较简单，所以在大数据集上的泛化能力受到了限制。在过去几年中，深度学习已成为大多数 AI 类基于深度学习的藏文文本自动分类研究索南多杰官却多杰拉玛杰公保加羊（青海省海南州藏文信息技术研究中心，共和 813099）摘要：在藏文信息处理中，文本分类技术可以将藏文文档自动分类为某种提前设定的类别，因此藏文文本分类在信息检索、新闻推荐等应用中具有重要的应用价值。传统的文本分类方法需要复杂的特征工程处理，分类

4、效果不是非常理想。随着深度学习的快速发展，基于深度学习的藏文文本分类方法成为主要研究趋势。文章提出基于双向 LSTM 的文本分类方法，在藏文文本分类数据集上进行实验，本文算法的精准率、召回率、F1 分数分别提升 2.56%、1.87%和 1.75%。关键词：藏文信息处理；文本分类；深度学习；Bi-LSTM中图分类号：TP391.1；TP181 文献标识码：A 文章编号：1005-9393(2023)03-0192-05基金项目:青海省重点研发与转化计划科技成果转化专项项目“云藏高效爬虫及检索系统优化与集成”(2020-GX-164)。作者简介:索南多杰(1992),男,本科,研究方向为计算机科

5、学与技术。E-mail:。193青海科技202303探索与实践青海科技INGHAI SCIENCE AND TECHNOLOGY型问题的首选技术，掩盖了经典的机器学习。深度学习方法把输入转化为词向量，取平均等一系列操作，再经过线性分类器得到文本类别。输入的词向量可以是预先训练好的，也可以随机初始化，与分类任务一起训练。深度学习方法学习能力强，泛化能力强。基于深度学习的文本分类方法，以循环神经网络（Recurrentneuralnetwork，RNN）3和基于门限的循环神经网络（长短期记忆网络（Longshort-termmemory,LSTM）4为例。本文针对现有藏文文本分类方法的不足，提出基

6、于双向 LSTM 藏文文本分类模型。主要创新点如下：（1）构建藏文文本分类数据集；（2）设计双向 LSTM 架构进行藏文文本分类；（3）进一步提升藏文的文本分类模型的精准率、召回率和 F1 分数。1 藏文文本分类方法1.1 基于关键词的文本分类方法基于关键词进行藏文文本分类的研究与应用1，主要分为以下步骤：步骤 1：藏文语料收集。藏文语料的完整性和语料标注的准确性是文本分类的关键，因此藏文语料收集是基于关键词的藏文文本分类方法的基础。实际上语料收集也是所有藏文文本分类任务的前提。步骤 2：应用藏文分词算法进行文本分词。步骤 3：制定关键词表。由藏文专家和具体文本分类应用需求方共同商议，制定关键

7、词表。步骤 4：基于步骤 3 的关键词表，运用自动统计词频算法，统计关键词的词频。步骤 5：按照词频最高的关键词进行文本分类输出。1.2 基于机器学习的文本分类方法基于机器学习的藏文文本分类方法分为传统机器学习和深度学习方法两类。1.2.1 基于传统机器学习的文本分类本文介绍两类基于传统机器学习方法：朴素贝叶斯（NaiveBayesianalgorithm）5和支持向量机（SupportVectorMachine,SVM）算法6。（1）朴素贝叶斯（NaiveBayesianalgorithm）方法是典型的基于统计学的方法。例如，给定文本（样本）特征 X 和文本类别 Y，可以计算出 X 和 Y

8、的联合概率 P（X,Y）。应用贝叶斯定理 P（X,Y）=进行藏文文本分类。（2）支持向量机（SVM）算法为分类任务选择最恰当的超平面，对于文本分类具有比较理想的结果。但是，SVM 算法在二分类文本分类任务中的效果要远远高于多分类任务。因此，针对多分类藏文文本分类任务需要更加准确的模型。1.2.2 基于深度机器学习的文本分类针对现有基于关键词和传统机器学习文本分类方法的不足，本文介绍两类基于深度学习的方法：循环神经网络（RecurrentNeuralNetwork,RNN）3和基于门限的循环神经网络（长短期记忆网络（Longshort-termmemory,LSTM）4。（1）循环神经网络（Re

9、currentNeuralNetwork,RNN）循环神经网络（RNN）用来建模序列数据，在自然语言处理中具有广泛应用，在藏文文本处理任务中取得了较为理想的结果，并且在文本多分类任务中效果优势明显。RNN 模型的结构具有“记忆能力”，可以联系上文内容进行分析，也一定程度上体现了部分人脑处理问题的机制。然而，由于在场文本任务中，深度学习模型有较大概率会产生梯度爆炸和梯度消失的问题，因此，基于RNN 的文本分类方法只能对较短的文本进行处理，对于长文本的处理效果不佳。（2）长短期记忆网络（Longshort-termmemory,LSTM）为了解决循环神经网络（RNN）对于长文本分类的问题，基于门限

10、的循环神经网络设置目前在深度学习领域中较为普遍。LSTM 和 RNN 的重要区别是 LSTM 中将结果内部定义为三个门限一个状态：输入门限（InputGate）、输出门限（OutputGate）、忘记门限（ForgetGate），结构状态（CellState）。其中输入门限（InputGate）可以决定哪些序列信息要输入进入模型；输出门限（Output194青海科技202303探索与实践青海科技INGHAI SCIENCE AND TECHNOLOGYGate）可以决定哪些序列信息最终要从模型中输出；忘记门限（ForgetGate）决定哪些序列信息要遗忘或者继续传递；结构状态（CellStat

11、e）就代表着传递的信息。由于 LSTM 的特殊结构设计，在长输入序列里即便是输入较早的信息，只要该信息较为重要，都可以依次通过以上门限传递下去。综上，传统的基于关键词的文本分类和基于机器学习的文本分类方法虽然取得了较好的结果，但是仍然存在不能同时获取上下文信息的问题。因此，需要设计出精度和准确率更高的藏文文本分类算法。2 方法设计本节主要介绍基于双向 LSTM 和前馈神经网络（feed-forwardneuralnetwork,FFN）的藏文文本分类算法 Bi-LSTMFFN（如图 1 所示）。图 1藏文文本分类算法架构图2.1 藏文文本分类数据集构建获得正确分类标准的藏文文本分类数据集是进行

12、准确藏文文本分类的基础。藏文数据集处理一般包含过滤非藏语字符、切分音节、词性标注、分词等内容。本文研究的藏文数据是通过数据爬虫工具在网络上爬取的藏文数据，然后进行人工文本阅读和分类标注。其中，带标注的文本分类数据有 9413 条，共计标注新闻、教育、经济、宗教、医学、体育、文学 7 类。2.2 藏文文本分类算法 Bi-LSTMFFN本文设计的藏文文本分类算法为基于双向LSTM 和 FFN 的藏文文本分类算法 Bi-LSTMFFN。因此，Bi-LSTMFFN 算法分为两个模块：Bi-LSTM模块和 FFN 模块。（1）藏语分词词向量生成首先我们应用藏文分词算法7对藏文语料进行分词，然后应用词向量

13、算法将藏文词转换为向量的表现形式 X。因此，一组需要输入并进行分类的藏文词向量序列为 Xinput=X1,X2,.XN。（2）Bi-LSTM双向 LSTM 包含两部分内容，一种是前向LSTM，另外一种是后向 LSTM。前向 LSTM 顾名思义是从在语料序列中第一个词向量开始向最后一个词运行的 LSTM 循环神经网络；而后向 LSTM 是从语料序列中最后一个词开始向第一个词运行的LSTM 网络。因此，Bi-LSTM 可以应用来自首位两端的信息，可以理解为能让模型具有上下文理解的能力。具体计算过程如下：在时刻 t，输入数据为 Xt，激活函数是。前向 LSTM 表示为，后向 LSTM 表示为。其中、

14、是前向 LSTM 模型的参数；、是后向 LSTM 模型的参数。Bi-LSTM 部分应用来自序列前后两端，因此可以得到前后文的信息。接下来，将前向 LSTM 的嵌入状态和后向 LSTM 的嵌入状态连接起来，形成最终的嵌入信息 Ht，并作为下层前馈神经网络（FFN）的输入。（3）前馈神经网络（FFN）前馈神经网络（FFN）实际上是最后藏文文本嵌入的信息处理，生成嵌入信息 E=FFN（Ht），本架构中用多层感知机网络（MultilayerPerceptron，MLP）构成。195青海科技202303探索与实践青海科技INGHAI SCIENCE AND TECHNOLOGY（4）藏文文本分类结果

15、输出最终分类结果为：Y=Softmax（E）。2.3 实验结果2.3.1 实验环境本文所进行的实验环境为操作系统 Ubuntu18.04，深度学习框架为 Tensorflow2.1，编程语言为 Python3.7。2.3.2 评价指标本文藏文文本分类的评价指标为：精准率、召回率和 F1 分数。以一个二分类系统举例，我们把结果分为两类即正类（Positive）和负类（Negative），则结果分类器有四种分类结果：TP（TruePositive）：正确的正例，一个实例是正类并且也被判定成正类。FN（FalseNegative）：错误的反例，漏报，本为正类但判定为假类。FP（FalsePositi

16、ve）：错误的正例，误报，本为假类但判定为正类。TN（TrueNegative）：正确的反例，一个实例是假类并且也被判定成假类。在本文中，我们应用的评价指标有：（1）精准率：正确预测为正的占全部预测为正的比例（2）召回率：正确预测为正的占全部实际为正的比例（3）F1 分数：F1-Score 作为综合指标平衡准确率和召回率的影响，较为全面地评价藏文分类模型。2.3.3 实验结果本文应用 Bi-LSTMFFN 藏文文本分类算法在藏文文本分类数据集上进行藏文文本分类实验。我们应用 RNN、RCNN、LSTM、LSTM-Attention作为基线算法。具体结果如表 1 所示。表 1藏文文本分类结

17、果模型准确率/%精度/%召回率/%F1 值/%RNN91.7794.6291.9792.13RCNN93.6192.9992.3490.35LSTM94.3993.0792.9594.86LSTM-Attention95.3295.5094.5795.99Bi-LSTMFFN97.8897.3796.3397.74本文对藏文文本分类任务进行了实验验证，结果如表 1 所示。从实验结果可以看出，五种模型在本文藏文文本分类数据集上取得了不同程度的效果，本文基于 Bi-LSTMFNN 模型，识别精度最高，而 RNN 模型的识别精度最低。从结果中可以得出用 Bi-LSTMFFN 藏文文本分类算法具有明显

18、优势，其相对 LSTM-Attention 模型，精准率提升 2.56%，召回率提升 1.87%，F1 分数指标提升了 1.75%。Bi-LSTMFNN 通过两层 LSTM 的堆叠，使得模型摆脱了只能依据之前时刻的时序信息来预测下一时刻的输出的限制，能更好地结合上下文进行输出，有效利用了输入的前向和后向特征信息。同时，FFN 结构简单、应用广泛，是一种静态非线性映射,有复杂的非线性处理能力，可以精确实现任意有限训练样本集。本文模型结合了Bi-LSTM 模型和 FFN 两种模型的优点，有效实现了藏文文本分类任务。3 结束语本文针对藏文文本分类问题，分析和讨论了基于关键词的传统文本分类方法和基于机

19、器学习的文本分类方法，提出基于双向 LSTM 的 Bi-LSTMFFN 模型。在藏文文本分类数据集上，分类结果得到了全面优化。参考文献：1洛桑嘎登,仁增多杰,索南尖措,等.藏文问句分类及关键词提取J.电子技术与软件工程,2020(6):126-127.2苏慧婧,群诺.藏文文本分类技术研究综述J.电脑知识与196青海科技202303探索与实践青海科技INGHAI SCIENCE AND TECHNOLOGY技术,2021,17(4):190-192+200.3DYERC,KUNCOROA,BALLESTEROSM,etal.RecurrentneuralnetworkgrammarsJ.arXi

20、vpreprintarXiv:1602.07776,2016.4HOCHREITERS,SCHMIDHUBERJ.Longshort-termmemoryJ.NeuralComputation,1997,9:1735-1780.5郭肇毅.引入类别关键词的朴素贝叶斯林业文本分类J.乐山师范学院学报,2022,37(8):39-43.6李玉.基于深度学习的文本分类方法研究与应用D.南京邮电大学,2021.7游治勇.基于字的分词方法的研究与实现D.电子科技大学,2015.Research on Automatic Classification of Tibetan Texts Based on De

21、ep LearningSuonanDuojie,GuanqueDuojie,LaMajie,GongbaoJiayang（HainanPrefectureTibetanInformationTechnologyResearchCenter,Gonghe813099,Qinghai,China）Abstract:InTibetaninformationprocessing,textclassificationtechnologycanautomaticallyclassifyTibetandocumentsintocertainpre-setcategories.Therefore,Tibeta

22、ntextclassificationhasimportantapplicationvalueinapplicationssuchasinformationretrievalandnewsrecommendation.Traditionaltextclassificationmethodsrequirecomplexfeatureengineeringprocessing,andtheclassificationeffectisnotveryideal.Withtherapiddevelopmentofdeeplearning,Tibetantextclassificationmethodsb

23、asedondeeplearninghavebecomethemainresearchtrend.ThispaperproposesBi-LSTM,atextclassificationmethodbasedonbidirectionalLSTM.ExperimentswerecarriedoutontheTibetantextclassificationdataset.Thealgorithminthispaperimprovedtheprecisionrate,recallrate,andF1scoreby2.56%,1.87%and1.75%respectively.Keywords:Tibetaninformationprocessing;Textclassification;Deeplearning;Bi-LSTM

展开阅读全文