收藏 分销(赏)

基于层级自适应微调的长文本分类算法研究.pdf

上传人:自信****多点 文档编号:2197686 上传时间:2024-05-22 格式:PDF 页数:4 大小:2.27MB
下载 相关 举报
基于层级自适应微调的长文本分类算法研究.pdf_第1页
第1页 / 共4页
基于层级自适应微调的长文本分类算法研究.pdf_第2页
第2页 / 共4页
基于层级自适应微调的长文本分类算法研究.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 18 期2023 年 9 月无线互联科技Wireless Internet TechnologyNo.18September,2023作者简介:郑坚燚(1997),男,广东汕头人,工程师,硕士;研究方向:自然语言处理。基于层级自适应微调的长文本分类算法研究郑坚1,王俊鑫2,陈奕林3,林灵鑫4,侯子豪5(广东工业大学,广东 广州 510000)摘要:随着算力的提升,文本分类算法已进入深度学习时代。文章以深度学习下的自适应微调长文本分类模型为基础,针对其策略网络存在决策能力不足与离散噪声这一问题,结合现有分层模型展开研究,提出融合层编码的层级自适应微调长文本分类模型,力求推进模型在长文本分类任

2、务上的性能。首先,文章重构策略网络,将策略网络迁移至模型内部,消除离散噪声,提高决策精度。其次,考虑预训练模型的层级特征差异,文章提出层编码,为策略网络提供层位置信息,提高策略网络对特征的层位置感知。文章基于 Yelp-2013、IMDB、Reuters 3 个国际数据集,利用对比实验、烧蚀实验验证模型性能。实验表明,文章提出的长文本分类模型相较于基线模型在 3 个数据集上的性能更优。关键词:长文本分类;预训练模型;注意力机制;循环神经网络中图分类号:TP391.1 文献标志码:A0 引言 随着 5G 技术的发展,长文本数据量剧增。长文本数据在社会信息传播中扮演了重要的角色,高效的长文本分类算

3、法能提高数据管理系统对长文本数据的管理效率。良好的数据管理系统不仅能提高企业对长文本数据的管理水平,还能提高信息调配速率并优化用户体验。随着算力的提升,深度学习下的长文本分类算法研究也在不断推进。当前,深度学习下的长文本分类算法研究可分为基于非预训练模型的浅层模型与基于预训练模型的深层模型。浅层模型基于 Long Short Term Memory(LSTM)等时序模型搭建,如 tree-LSTM、缓存 LSTM等1-3。该类模型具有计算量低、易于实现等优点,但在长文本分类任务中仍存在梯度爆炸的问题。相较于前者,深层模型利用预训练模型对文本块进行特征抽取,由此建模上下文,在长文本分类任务下的性

4、能有 较 大 的 提 升,如:Hierarchical BERT with An Aadaptive Fine-tuning Strategy(HAdaBERT)等4。但是,深层模型下的自适应微调模型仍存在问题,如:策略网络决策能力不足、离散噪声等。1 模型设计与原理 针对自适应微调模型所存在的问题,本文提出一种融合层编码的层级自适应微调长文本分类模型,模型结构如图 1 所示。该模型由 Local Encoder(局部编码器)与 Global Encoder(全局编码器)组成。其中,局部编码器由融合层编码的层级自适应微调 BERT(Layer Aadaptive Fine-tuning BER

5、T with Layer Encoding,LAdaBERT/LE)组成,局部编码器对文本块进行特征提取,形成具有上下文特征的文本块特征。全局编码器由 BiLSTM(Bi-directional Long Short Term Memory)、AGM(Attention-based Gated Memory Network)、输出层组成,全局编码器对文本块特征进行融合,形成长文本特征后投入输出层完成长文本分类任务4。1.1 局部编码器 本文以自适应微调模型为基础,由于该模型的输入长度限制为 512 词,待分类的长文本被分割为多个文本块。为了建立文本块之间的联系,同一个长文本中的上一个文本块的尾

6、句取出,设置为下一个文本块的首句。若当前文本块长度超出文本块阈值,则当前句将被保存,作为下一文本块的首句。1.1.1 LAdaBERT/LE当 长 文 本 被 分 割 为 文 本 块 后 被 分 别 投 入LAdaBERT/LE 中提取文本块特征。该模型由多层重复单元组成,其结构如图 1 中右侧所示。其中,每层单元由动态 BERT 单元、静态 BERT 单元、策略网络组成。单层单元的计算公式如下:LayerOuti=Wai pi+Wfi(1-pi)(1)其中,LayerOuti为第 i 层输出,Wai为当前层动态BERT 单元输出,Wfi为当前层静态 BERT 单元输出,pi为当前层策略权重。

7、经过多层单元计算,获得最终的输出 Vi,即第 i 个文本块特征。931第 18 期2023 年 9 月无线互联科技研究创新No.18September,2023图 1 模型结构图 2 策略网络结构1.1.2 策略网络 策略权重 pi由策略网络产生,其结构如图 2 所示。本文将策略网络迁移到模型内部,相比外部策略网络,内部策略网络更贴近决策层与决策信息,降低了决策难度。因此,在本文中,策略网络利用多层全连 接 层 与 Sigmoid 激 活 函 数 完 成 决 策 计 算,Sigmoid 激活函数的引入消除了离散噪声。其计算公式如下:pi=(MLP(LayerOuti-10+Li)(2)其中,表

8、示 Sigmoid 激活函数,MLP 为全连接层,LayerOuti-10表示上层输出的第一个向量,Li表示当前层层编码。1.1.3 层编码 为了增强策略网络对当前层位置的感知,本文提出层编码。本文采用静态构建的方式产生层编码,为策略网络提供层位置信息,其计算公式如下:LE(l,2i)=sinl10 0002idmodel()(3)LE(l,2i+1)=cosl10 0002idmodel()(4)其中,l 表示当前层位置,dmodel表示层编码的维度,该维度与输入向量维度一致,2i 表示偶数维度,2i+1 表示奇数维度。1.2 全局编码器 文本块经 LAdaBERT/LE 处理后,归属于同个

9、长文本的文本块特征被按顺序收集,由此构建每个长文041第 18 期2023 年 9 月无线互联科技研究创新No.18September,2023本的文本块特征合集 VCi,文本块特征合集经全局编码器处理后形成长文本特征,该特征被投入分类层完成分类。1.2.1 双向交互网络 在全局编码器中,文本块特征集合首先被投入BiLSTM 层进行特征交互,经残差连接后产生中间特征 Hi,其计算公式如下:Hi=BiLSTM(VCi)+VCi(5)其中,BiLSTM 表示 BiLSTM 层。在长文本中,并非所有特征具有同等重要性。本文引入 AGM 网络,该网络通过注意力机制,计算中间特征的重要性并进行交互,由此

10、产生长文本特征 o。其计算公式如下:o=AGM(Hi)(6)其中,AGM 表示 AGM 网络。长文本特征向量 o自此构建完成。1.2.2 输出层 与其他分类模型输出层一致,本文采用全连接层与 Softmax 激活函数组合为输出层,输出层利用长文本特征计算并输出样本在各个类别上的概率,其计算公式如下:ycn=Softmax(MLP(on)(7)其中,ycn表示第 n 个样本在 c 个类别上各自的预测概率,Softmax 表示 Softmax 激活函数。本文针对长文本数据下的多分类与多标签分类进行研究,因此采用交叉熵损失函数,其计算公式如下:=-Ni=1(yi)log(ycn)(8)其中,yi为真

11、实标签,(.)为独热编码。2 数据集介绍 本文针对长文本分类任务,在 Yelp-2013、IMDB(Internet Movie Database)、Reuters 3 个国际公开数据集上 进 行 实 验。其 中,数 据 集 的 样 本 量 分 别 为78 966、135 669、10 789,类别数分别为 5、10、90,Yelp-2013 与 IMDB 数据集为多分类任务,评价指标为准确率,Reuters 数据集为多标签分类任务,评价指标为 F1 分数。3 实验参数设置与分析3.1 实验参数设置 本文所采用的实验平台为单卡单机平台,操作系统为 Windows 10 专业版,处理器为 Int

12、el(R)Core(TM)i7-10700 CPU 2.90 GHz,运算加速器为 RTX3090(24 G),采用的编程语言为 Python3.10,深度学习框架为 Pytorch1.10.2,CUDA 版本为 11.7.1。对于 Yelp-2013、IMDB、Reuters 数据集,训练 epoch 分别设置为 50、50、100,学习率分别设置为 6e-5、1e-5、1.2e-4,文本块阈值分别设置为 160、160、360。3.2 实验结果分析 本文采用对比实验与烧蚀实验验证模型的有效性。实验结果如表 2 所示。其中,TACC 表示测试集准确率,DACC 表示验证集准确率,TF1 表示

13、测试集F1 分数,DF1 表示验证集 F1 分数。表 2 模型实验结果ModelsYelp-2013IMDBReutersDACC/%TACC/%DACC/%TACC/%DF1TF1CNN56.357.742.942.783.580.8LSTM53.157.748.448.084.882.7BiLSTM57.658.449.348.986.984.7ATT-LSTM60.862.449.749.387.485.1NSC61.462.750.950.686.784.8HAN62.763.151.851.284.885.2DocBERT65.166.354.454.290.589.0RoBERTa

14、66.267.254.954.591.390.7ALBERT65.366.552.852.690.990.4HAdaBERT66.467.557.757.391.690.9LAdaBERT66.867.957.857.492.191.0LAdaBERTw/LE67.068.557.957.792.291.3141第 18 期2023 年 9 月无线互联科技研究创新No.18September,20233.2.1 对比实验 表 2 展示了多个模型在不同数据集上的表现情况,相较于基线模型,本文所提出的长文本分类模型在各个数据集上的表现最优,充分展示了该模型在长文本分类任务上的优秀性能。3.2.2

15、烧蚀实验 本文采用烧蚀实验验证内部策略网络与层编码的有效性,实验结果如表 2 所示。其中,LAdaBERT 表示删除层编码后的模型,HAdaBERT 表示采用外部策略网络并去除层编码的模型。由实验结果可知,当模型采用内部策略网络时,模型性能有所提升,这表明内部策略网络相较于外部策略网络的决策能力更高,进一步提升了模型在长文本分类任务上的性能。当模型采用内部决策网络并引入层编码后,模型性能进一步提升,这表明层编码所带来的层位置信息提高了策略网络的决策能力,进而提升了模型的长文本分类性能。4 结语 为了优化自适应微调模型在长文本分类任务上的性能,本文采用内部策略网络与层编码提高决策网络决策能力,提

16、出融合层编码的层级自适应微调长文本分类算法。实验表明,该模型在长文本分类任务上具有良好的分类性能。参考文献1HOCHREITER S,SCHMIDHUBER J.Long short-term memory J.Neural computation,1997(8):1735-1780.2TAI K S,SOCHER R,MANNING C D.Improved semantic representations from tree-structured long short-term memory networks:Proceedings of the 53rd Annual Meeting o

17、f the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language ProcessingC.Stroudsburg,PA:ACL,2015.3XU J,CHEN D,QIU X,et al.Cached long short-term memory neural networks for document-level sentiment classification:Proceedings of the 2016 Conference on

18、Empirical Methods in Natural Language ProcessingC.Stroudsburg,PA:ACL,2016.4KONG J,WANG J,ZHANG X.Hierarchical BERT with an adaptive fine-tuning strategy for document classification J.Knowledge-Based Systems,2022(238):107872.(编辑 王永超)Research on long text classification algorithm based on hierarchical

19、 adaptive fine-tuningZheng Jianyi1 Wang Junxin2 Chen Yilin3 Lin Lingxin4 Hou Zihao5 Guangdong University of Technology Guangzhou 510000 China Abstract With the improvement of computational power text classification algorithms have entered the era of deep learning.This article is based on an adaptive

20、 fine-tuning long text classification model under deep learning and focuses on the issues of insufficient decision-making ability and discrete noise in its policy network.By combining existing hierarchical models a hierarchical adaptive fine-tuning long text classification model with fusion layer en

21、coding is proposed aiming to advance the performance of the model in long text classification tasks.Firstly this article reconstructs the policy network by transferring it internally within the model eliminating discrete noise and improving decision accuracy.Secondly considering the hierarchical fea

22、ture differences of pre-trained models this article introduces layer encoding to provide layer position information to the policy network enhancing the decision network s perception of feature layer positions.Based on the Yelp-2013 IMDB and Reuters international datasets this article validates the m

23、odel s performance through comparative experiments and ablative experiments.The results demonstrate that the proposed long text classification model outperforms the baseline model on all three datasets.Key words long text classification pre-training model attention mechanism recurrent neural network241

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服