收藏 分销(赏)

基于BERT预训练模型的事故案例文本分类方法.pdf

上传人:自信****多点 文档编号:574071 上传时间:2024-01-02 格式:PDF 页数:7 大小:1.75MB
下载 相关 举报
基于BERT预训练模型的事故案例文本分类方法.pdf_第1页
第1页 / 共7页
基于BERT预训练模型的事故案例文本分类方法.pdf_第2页
第2页 / 共7页
基于BERT预训练模型的事故案例文本分类方法.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、文章编号:1006-3080(2023)04-0576-07DOI:10.14135/ki.1006-3080.20220223002基于 BERT 预训练模型的事故案例文本分类方法涂远来,周家乐,王慧锋(华东理工大学信息科学与工程学院,上海200237)摘要:事故案例数据库中的大量事故信息为安全攸关系统的设计提供了丰富、宝贵的经验,包括事故发生的时间、地点、原因、经过等。这些信息在危险辨识中起着至关重要的作用,但它们通常分布在事故文档的各个段落中,使得人工提取的效率低且成本高。本文提出了一种基于 BERT(BidirectionalEncoderRepresentationsfromTran

2、sformers)预训练模型的事故案例文本分类方法,可将事故案例文本分为 ACCIDENT、CAUSE、CONSEQUENCE、RESPONSE这 4 类。此外,收集并构建了事故案例文本数据集用于训练模型。实验结果表明,本文方法可以实现对事故案例文本的自动分类,分类准确率达到 73.44%,召回率为 69.13%,F1 值为 0.71。关键词:危险辨识;文本分类;BERT;需求分析;安全攸关系统中图分类号:TP183;X45文献标志码:A在 安 全 相 关 领 域,将 安 全 攸 关 系 统(SafetyCriticalSystem)定义为:当系统发生事故时,会造成严重的人员伤亡、巨大的财产损

3、失或者是造成严重的环境污染,即造成人类无法接受的后果的这一类系统1。危险辨识是安全攸关系统设计的一个重要环节。事故案例数据库中记载了大量的事故经过、原因、后果及应对措施等信息,这些信息在危险辨识工作中起着至关重要的作用2。近年来,研究人员开始将文本分类技术应用于危险辨识任务中,Jing 等3根据事故类型将事故案例文档分为火灾、化工厂爆炸等类型。Fang 等4将建筑行业中的事故分为工作环境引发的事故、主体结构质量引发的事故等。Goh等5将工地事故分为施工现场交通状况引发的事故、极端天气引发的事故等。这些研究将事故案例文档分类后分析事故的共有特征、共有原因,为危险辨识提供有价值的线索,可以帮助安全

4、需求分析师识别事故发生的潜在因素,进而采取预防措施6。然而,事故信息通常以非结构化的自由文本形式记录,从大量案例中手动挖掘信息是一个耗时、劳动密集、低效的过程7-9。为了提高分析人员分析事故案例文档的效率,本文将文本分类技术应用于事故案例文档中,将文档中的事故关键信息分类整理,便于分析人员直接分析事故发生的经过和原因等。本文将事故案例文本分为 4 类,即 ACCIDENT、CAUSE、CONSEQUENCE、RESPONSE。从大型事故案例数据库中收集并构建了事故案例文本数据集ACDB(AccidentCaseDatabase),基于大规模预训练语言模型 BERT(BidirectionalE

5、ncoderRepresentationsfromTransformers)10,通过预训练-微调的方式建立事故案例文本的分类模型,实现对事故案例文本的自动分类。1研究现状 1.1 文本分类技术研究现状研究人员开发了许多基于文本分类的研究方法11,早期的研究侧重于开发基于机器学习的方法12,Goh 等13评估了 6 种用于对事故报告进行分收稿日期:2022-02-23基金项目:青年科学基金(61906068);国家重点研发计划(2018YFC1803306)作者简介:涂远来(1996),男,江西南昌人,硕士生,主要研究方向为自然语言处理、危险辨识。E-mail:通信联系人:周家乐,E-mail

6、:引用本文:涂远来,周家乐,王慧锋.基于 BERT 预训练模型的事故案例文本分类方法 J.华东理工大学学报(自然科学版),2023,49(4):576-582.Citation:TUYuanlai,ZHOUJiale,WANGHuifeng.TextClassificationMethodofAccidentCasesBasedonBERTPre-TrainingModelJ.JournalofEastChinaUniversityofScienceandTechnology,2023,49(4):576-582.华东理工大学学报(自然科学版)Vol.49No.4576JournalofEas

7、tChinaUniversityofScienceandTechnology2023-08类的机器学习方法,使用线性回归、随机森林、k-最近邻、支持向量机、决策树和朴素贝叶斯方法进行分类实验,表明机器学习方法在分类效果上有着较优的结果。机器学习方法需要手动提取文本特征,再将这些特征输入到分类器中。尽管手工提取的特征能够提高模型最终的分类效果,但效率低,且使得模型泛化能力更弱14。随着人工智能的发展,深度学习方法已经表现出相当大的潜力,并且在计算机视觉以及自然语言处理中的应用也越发成熟15-16。目前最先进的深度学习方法引入了注意力机制,它使模型更关注输入序列中各元素之间的依赖关系,而忽略各元素

8、的位置距离,提高了分类模型的分类精度17。Yang 等18开发的用于文档分类的分层注意网络具有两个层次的注意力机制,分别应用于单词和句子层面,使模型能够在文档的特征构建时区别和关注不同重要程度的内容。到目前为止,BERT 是文本分类任务中最准确的语言模型之一,并且在各种自然语言处理任务中都有卓越的表现10。但是由于事故案例文本的语言风格与语言结构具有特殊性,BERT 模型预训练语料库BooksCorpus19和 EnglishWikipedia20与 ACDB 中的数据分布情况不同,因此还需要对 BERT 进行进一步的训练,用迁移学习的方式让模型包含事故案例文本中的语言特征,使其更好地完成对事

9、故案例文本的分类任务。1.2 BERT 模型介绍BERT 模型是基于 Transformer21的大规模预训练语言模型,可以独立地在各个大型数据集上进行预训练,然后在特定的领域以及特定的任务中进行微调,使其适用于最终的目标任务。BERT 模型预训练-微调过程如图 1 所示。BERT 用于文本分类任务主要分为两个步骤:首先,在未标注的大型语料集中训练模型,使其掌握语言的表达能力,能够支持之后的文本分类任务;其次,针对文本分类任务对模型进行微调,在有标记的数据集中进行有监督的训练。Semi-supervised learning stepModel:Model:(Pre-trainedin ste

10、p 1)Dataset:Dataset:BooksCorpus WikipediaObjective:Predicting the masked wordBERTBERT12 Supervised learning stepAccident case databaseResultClassifier图1BERT 模型预训练-微调过程Fig.1Pre-training-finetuningprocessofBERTmodelLayerNormSubLayerBERT 模型由多个 Transformer 编码器堆积而成,如图 2 所示是 Transformer 编码器的结构,主要包含两个子层:多头

11、注意力层和全连接前馈神经网络层。这两个子层先通过残差连接,然后进行层归一化,最终输出 768 维的向量。各子层的输出如式(1)所示,其中 x 为每一层的输入向量,是对隐藏层进行层归一化操作,是在归一化操作之前的全连接前馈神经网络层或多头注意力层,两个子层输出向量的维度都是相同的。Osublayer=LayerNorm(x+SubLayer(x)(1)多头注意力层在 Transformer 的结构体系中至关重要,利用注意力机制将单个文本中不同位置的信息相关联,将输入映射为一个查询向量 Q 和一组键值向量(K,V),最终获得自注意力的输出(式(2),其dk中为 K 向量的维度。Attention(

12、Q,K,V)=softmax(QKTdk)V(2)Add&NormalizeAdd&NormalizeMulti-head attentionFeed forwardENCODERFeed forward图2编码器结构Fig.2Structureofencoder第4期涂远来,等:基于BERT预训练模型的事故案例文本分类方法5772研究方法图 3 示出了事故案例文本分类研究框架,主要包括 4 个步骤:数据集处理、文本特征提取、分类器的构建以及模型性能的评估。Classification of accident casesData set processingModel performance

13、evaluation based on accuracy,recall and F1Text feature extractionBuilding classifiersNaiveBayesclassifierLogisticregressionclassifierSupportvectormachineclassifierBased onBert modelclassifierBag of wordsBERT图3事故案例文本分类研究框架Fig.3Textclassificationresearchframeworkofaccidentcases 2.1 数据集处理2.1.1数据清洗收集的事故

14、案例文本数据中包含大量无用的标点符号、停用词以及网页中的特殊字符等,在许多算法中,尤其是基于统计学的算法中,噪声和不必要的特征会对系统性能产生不利影响。因此需要对收集到的文本数据进行清洗,具体操作如下:(1)去除停用词。文本中包括许多对分类任务无 重 要 意 义 的 词,例 如“a”、“about”、“above”、“across”、“after”、“afterwards”、“again”等。处理这些单词的最常用方法是将它们从文本和文档中删除22。(2)单词小写处理。文本数据中常会出现各种大写的单词或字母。在训练分类模型的过程中,单词的大小写形式可能会影响模型的训练效果。处理大小写不一致的常用

15、方法是将每个字母都转化为小写,即将文本中的所有单词投影到相同的特征空间中。(3)词干提取。在文本数据中,一个词可以以不同的形式出现(如单数和复数名词形式),而每种形式的语义其实都是相同的。词干提取是将单词的不同形式合并到同一特征空间中的一种方法。2.1.2数据集制作本文数据来源为 EMARS(TheEuropeMajorAccidentReportingSystem)重大事故数据库中 19792021 年的重大事故的事故案例报告,共 1139 篇。将收集到的文本分为 4 类,并分别为这4 类文本打上标签 03,表 1 示出了数据集中部分样本,示例为 EMARS 数据库中记载的一件化学物品引发的

16、火灾事故。ACCIDENT 中的文本记录的是事故发生的经过概述。CAUSE 中的文本记录的是事故发生的原因概述,在数据集中还存在少量事故原因不明的案例。CONSEQUENCE 中的文本记录的是事故发生的后果概述,例如人员伤亡和财产损失等。RESPONSE 中记录了事故发生后的救援措施以及疏散措施等。ACDB 数据集中总共包含 20306 个样本,其中ACCIDENT 类别中的文本共有 7502 个样本,CAUSE、CONSEQUENCE、RESPONSE 类别中的文本分别有4669、4669、3466 个样本。将数据集按照 82 的比例分为训练集和验证集。2.2 文本特征提取文本数据是非结构化

17、的数据形式,无法直接作为模型的输入形式。将文本数据输入到分类模型之前,必须将这些非结构化文本序列转换为结构化的特征向量。本文使用词袋法(BagofWords)将文本转化为向量形式输入到机器算法分类模型中。词袋表1事故案例文本示例Table1TextexampleofaccidentcasesLabelTexttypeTextdescription0ACCIDENTAerosolcans,packedincartonsonpalletsinastore,caughtfire.Thestorebelongstoafactoryinanurbanareawhichpreparesthistypeof

18、product.Thestoreisinthelowerbasementofthefactory.Theaerosolcansexplodedduringthefire,makingthefirefightingmoredifficult-amini-BLEVE(BoilingLiquidExpandingVaporExplosion).Thefirespreadveryrapidlytoalltheinstallation.1CAUSETwoprincipalcausesledtotheaccident:theimmediatecausewasafire(seenbythedriver)wh

19、ichstartedunderafork-lifttruckwhenitpassedthroughthestore.Thiswascausedbyanaerosolcanwhichhadfallenearlierandwascrushed,withsubsequentignitionofthegas.Moreover,theaerosolcansreturnedbycustomershadleaks.Thefork-lifttruckwasnotaprioriofanappropriatetypeforthisarea.2CONSEQUENCEOneemployeeand4firemenwer

20、einjured,thefiremenwhilefirefighting.Fire-fightingwaterwascontainedwithinthesitesretentionsystem,sotherewasnoreleasetotheenvironment.3RESPONSEDetectionandalarmsystemworked.About140firemenfoughtthefirefor4hours.About100peoplewereevacuated,sincethefactorywasinanurbanarea.578华东理工大学学报(自然科学版)第49卷法通过计算训练集

21、中每个出现过的单词的频率,构建出词汇表,从而得到对应的文本的特征矩阵23。词袋法主要考虑文本中的单词多样性,用来确定文本描述中的焦点所在。基于 BERT 预训练模型,直接采用 BERT 模型的输出作为文本的特征向量。2.3 分类器的构建首先基于传统的机器学习方法构建事故案例文本分类器,其中包括朴素贝叶斯分类器、SVM 分类器以及逻辑回归分类器,这 3 类方法已经被广泛地应用在文本分类任务中,因此将其作为本文的对比分类方法。图 4 示出了基于 BERT 的微调分类模型结构示意图。输入的数据在预处理过程中,通过在文本序列首位加入特殊标记 CLS 来表示一条文本或一个EMTM句子对,并且在句子的分隔

22、处加上 SEP 来表示句子的衔接。将事故经过的描述文本输入模型后,该文本经过词嵌入层将文本中的单词标记化,标记化后的向量中包含标记词的嵌入向量、句子词的嵌入向量以及位置词的嵌入向量。TokN和TokM分别表示第 1 个句子中的第 N个标记和第 2 个句子中的第M个标记,并且在训练的过程中会随机地遮挡部分,ECLS和 ESEP表示特殊标记对应的嵌入向量,EN和分别表示第 1 个句子中的第N个标记的嵌入向量和第 2 个句子中的第M 个标记的嵌入向量,C和TSEP表示特殊标记对应的特征向量,TN和表示第N 个标记和第M个标记在经过模型处理后最终得到的特征向量。SoftmaxClassificatio

23、n resultFully connected layerCT1T1TMTNTSEPE1E1EMENESEPECLSCLSSEPTok1TokNTok1TokMDuring the isomerization of wax ina lube oil plant,the high pressurereactor ruptured,releasing its contentsReleased gas was ignited and a firedeveloped in the plant area whereoperators and engineers were workingBERT图4基于

24、BERT 的微调分类模型结构示意图Fig.4StructurediagramBERT-basedfine-tuningclassificationmodel为了将 BERT 应用于事故案例文本的分类任务中,本文在输出层后增加一个分类层(全连接层),分类层输出的结果通过 softmax 函数计算会得到 4 类标签的概率,最终概率最大值所对应的标签即为模型分类的结果。微调的过程即在 ACDB 数据集中对模型进行有监督的训练,以此改变模型中的权值矩阵。模型的权值矩阵将会根据训练参数不同而发生变化,设置多组训练参数使模型能够在 ACDB 数据集下达到最佳的分类效果。2.4 模型性能的评估本文引入以下评

25、价指标来评估分类器最终的分类效果:(1)准确率:Precision=TPTP+FP(3)其中:TP 表示真正例;FP 表示伪正例;Precision 表示预测为正例中真正的正例的样本比例。(2)召回率:第4期涂远来,等:基于BERT预训练模型的事故案例文本分类方法579Recall=TPTP+FN(4)其中:FN 表示伪反例;Recall 表示预测为正例的样本占所有正样本的比例。(3)F1 评测值:F1=2PrecisionRecallPrecision+Recall(5)3实验及结果分析实验环境为运行在 Ubuntu20 系统基础上的PyTorch 深 度 学 习 框 架,配 置 的 CUD

26、A 环 境 为CUDA11.1,CUDNN7.5深度学习库加速 GPU 计算,显卡使用了 TeslaK80,显存为 12GB。3.1 不同模型分类效果对比在 ACDB 数据集中,基于 BERT 预训练模型微调后得到的分类模型比基于机器学习的分类模型的模型性能更强。表 2 示出了不同模型方法的分类结果,其中微调后的分类模型的分类准确率相比于其余 3 个对比模型的分类准确率平均提高 12.93%,召回率平均提高 11.68%。图 5 示出了本文分类模型在微调过程的训练损失图(参数设置为:batch 大小为32,学习率为 0.00002,输入最大长度为 128)。从图 5可以看出,在迭代次数为 80

27、00 时损失的下降速度明显开始降低。表2不同模型方法的分类结果Table2ClassificationresultsofdifferentmodelmethodsModelPrecision/%Recall/%F1BERT73.4469.130.71SVM60.7958.570.60Logisticregression58.3953.880.56NaiveBayes62.3459.890.602 00000.20.40.60.8Loss1.01.21.44 0006 0008 000Step图5文本分类模型的训练损失Fig.5Traininglossoftextclassificationmo

28、del事故案例文本存在高度的上下文依赖关系,并且需要分类的 4 个种类的文本在语言风格上非常相近。BERT 是带有注意力机制的双向语言模型,能够更好地关注到文本中的上下文关系。表 2 的实验结果表明,经过大型语料数据的预训练的 BERT 模型在分类任务中表现出更强的分类效果。3.2 不同预训练模型分类效果分析为充分探究预训练模型的不同对分类效果的影响,本文共设置 3 组模型进行实验分析,分别为“bert-base-uncased”(第 1 组模型)、“bert-base-cased”(第 2 组模型)、“bert-large-uncased”(第 3 组模型)。表 3 示出了各组模型的结构以及

29、参数量,其中第 1 组模型相比于第 2 组模型,其将所有输入的文本的字母转化为小写来减少字母大小写可能对模型产生的影响。第3 组模型与前两者相比,其模型包含的参数量更多。表 4 示出了不同预训练模型在微调后的分类结果,从整体趋势上可以看出,在 ACDB 数据集中,忽略字母大小写对模型的分类性能有所优化。表3不同预训练模型结构及参数量Table3Structureandparameternumberofdifferentpre-trainingmodelsModelLayersHiddenslayersParameternumberbert-base-uncased127681.1108bert

30、-base-cased127681.1108bert-large-uncased2410243.4108表4不同预训练模型的分类结果Table4Classificationresultsofdifferentpre-trainingmodelsModelLearningratePrecision/%Recall/%F1bert-base-uncased0.0000273.4469.130.710.0000573.3968.580.710.0000970.2767.240.69bert-base-cased0.0000272.5567.430.710.0000572.6766.580.710.0

31、000971.8767.090.70bert-large-uncased0.0000272.8468.830.710.0000571.4967.690.710.0000971.3768.990.71 3.3 不同参数分类效果分析本文在模型的微调过程中设置多组训练参数,研究训练参数对最终分类效果的影响。在本文的实580华东理工大学学报(自然科学版)第49卷验环境下,从 0.00002 到 0.00009 之间共设置了 5 个学习率数值,根据 GPU 的最大内存将批次大小设置为 8、16、32,并将 epoch 设置为 5。最终得到分类模型在不同的参数组合下的准确率、召回率和F1 值。表5示出了不

32、同学习率下模型的分类结果,结果表明,学习率在一定范围内变化对模型的分类效果影响较小。表 6 示出了不同批次大小下模型的分类结果。从表 6 可以看出,当模型批次从 8 增长到 16,再到32,其准确率、召回率以及 F1 值都呈上升趋势,故在一定的参数范围内增加批次大小对模型的分类效果有一定的优化作用。表5不同学习率下模型的分类结果Table5ClassificationresultsofmodelsunderdifferentlearningratesLearningratePrecision/%Recall/%F10.0000273.4469.130.710.0000372.8468.340.

33、710.0000573.3968.580.710.0000772.3368.910.710.0000970.2767.240.69表6不同批次大小下模型的分类结果(学习率:0.00002)Table6Classification results of models under different batchsizes(Learningrate:0.00002)BatchsizePrecision/%Recall/%F1869.7965.170.671670.6466.940.693273.4469.130.714结论针对事故案例文本分类问题,本文使用预训练-微调的方式将 BERT 预训练模型成

34、功应用于事故案例文档的分类任务中,并且在 ACDB 数据集中取得了较好的分类效果,实验结果表明:(1)在本文的实验条件下,基于 BERT 模型的分类器对事故案例文本的自动分类效果优于传统机器学习分类方法,在 ACDB数据集中的分类的准确率达到 73.44%,召回率为69.13%,F1 值为 0.71。(2)对于事故案例文本数据集的数据分布情况而言,预训练模型的参数量对提升分类效果并未有明显作用。(3)在一定范围内,学习率的变化对 BERT 模型的训练效果影响较小。随着训练批次大小的增大,分类效果也随之增强。综上,基于 BERT 预训练模型的事故案例文本分类方法可以快速对事故关键信息分类整理,对

35、提高危险辨识效率有着重要意义。目前深度学习的分类方法还难以达到 100%的分类准确率,未来工作应更加关注无监督的训练方式以减少数据集的制作成本,并继续提高该模型的分类准确率。参考文献:ERICSONCA.HazardAnalysisTechniquesforSystemSafetyM.NewYork:JohnWiley&Sons,2005.1KIDAMK,SAHAKHA,HASSIMMH,et al.Methodforidentifying errors in chemical process development anddesignbaseonaccidentsknowledgeJ.Pro

36、cessSafetyandEnvironmentalProtection,2015,97:49-60.2JINGS,LIUX,GONGX,et al.CorrelationanalysisandtextclassificationofchemicalaccidentcasesbasedonwordembeddingJ.ProcessSafety and Environmental Protec-tion,2022,158:698-710.3FANGW,LUOH,XUS,et al.Automatedtextclassifica-tionofnear-missesfromsafetyreport

37、s:Animproveddeeplearning approachJ.Advanced Engineering Informatics,2020,44:101060.4GOHYM,UBEYNARAYANACU.Constructionacci-dentnarrativeclassification:AnevaluationoftextminingtechniquesJ.Accident Analysis and Prevention,2017,108:122-130.5LOVEPED,SMITHJ,TEOP.Puttingintopracticeerrormanagement theory:U

38、nlearning and learning to manageactionerrorsinconstructionJ.AppliedErgonomics,2018,69:104-111.6VARGASAP,BLOOMFIELDR.Usingontologiestosup-portmodel-basedexplorationofthedependenciesbetweencausesandconsequencesofhazardsC/7thInternationalConference on Knowledge Engineering and OntologyDevelopment(KEOD)

39、.Lisbon,Portugal:SCITE Press,2015:316-327.7TAYLOR J R.Statistics of design error in the processindustriesJ.SafetyScience,2007,45(1/2):61-73.8JINGS,LIUX,XUC.Asimpleandeffectivemethodforthe use of chemical accident casesC/2016 IEEE Inter-nationalConferenceonServiceOperationsandLogistics,andInformatics

40、(SOLI).Beijing,China:IEEE,2016:206-210.9DEVLINJ,CHANGMW,LEEK,et al.BERT:Pre-train-ingofdeepbidirectionaltransformersforlanguageunder-standingC/2019AnnualConferenceoftheNorthAmer-icanChapteroftheAssociationforComputationalLinguist-ics(NAACL).Minneapolis,USA:AssociationforComputa-10第4期涂远来,等:基于BERT预训练模

41、型的事故案例文本分类方法581tionalLinguistics,2019:4171-4186.赵鸿山,范贵生,虞慧群.基于归一化文档频率的文本分类特征选择方法J.华东理工大学学报(自然科学版),2019,45(5):809-814.11CHINW,LINKY,HSIEHSH.Usingontology-basedtext classification to assist job hazard analysisJ.AdvancedEngineeringInformatics,2014,28(4):381-394.12GOHYM,UBEYNARAYANACU.Constructionacci-d

42、entnarrativeclassification:AnevaluationoftextminingtechniquesJ.AccidentAnalysis&Prevention,2017,108:122-130.13LAIS,XUL,LIUK,et al.Recurrentconvolutionalneuralnetworks for text classificationC/Twenty-Ninth AAAIConferenceonArtificialIntelligence.Texas,USA:AAAI,2015:2267-2273.14XUW,TANY.Semi-supervised

43、target-orientedsentimentclassificationJ.Neurocomputing,2019,337:120-128.15FUX,WEIY,XUF,et al.Semi-supervisedaspect-levelsentimentclassificationmodelbasedonvariationalautoen-coderJ.Knowledge-BasedSystems,2019,171:81-92.16SHINB,CHOKSHIFH,LEET,et al.Classificationofradiology reports using neural attent

44、ion modelsC/2017Internationaljointconferenceonneuralnetworks(IJCNN).Anchorage,USA:IEEE,2017:4363-4370.17YANGZ,YANGD,DYERC,et al.HierarchicalattentionnetworksfordocumentclassificationC/Proceedingsofthe182016 Conference of the North American Chapter of theAssociationfor Computational Linguistics:Human

45、 Lan-guage Technologies.California,USA:Association forComputationalLinguistics,2016:1480-1489.PECHENICKEA,DANFORTHCM,DODDSPS.Char-acterizingtheGoogleBookscorpus:Stronglimitstoinfer-ences of socio-cultural and linguistic evolutionJ.PlosOne,2015,10(10):e0137041.19COSTERW,KAUCHAKD.SimpleEnglishWikipedi

46、a:Anew text simplification taskC/Proceedings of the 49thAnnualMeetingoftheAssociationforComputationalLin-guistics:Human Language Technologies.USA:Associ-ationforComputationalLinguistics,2011:665-669.20VASWANIA,SHAZEERN,PARMARN,et al.AttentionisallyouneedC/NeuralInformationProcessingSystems(NIPS).USA

47、:MITPress,2017:6000-6010.21SAIFH,FERNANDEZM,HEY,et al.Onstopwords,fil-tering and data sparsity for sentiment analysis oftwitterC/The9thInternationalConferenceonLanguageResourcesandEvaluation.Reykjavik,Iceland:s.n.,2014:810-817.22ZHANG Y,JIN R,ZHOU Z H.Understanding bag-of-words model:A statistical f

48、rameworkJ.InternationalJournalofMachineLearningandCybernetics,2010,1(1):43-52.23Text Classification Method of Accident Cases Based onBERT Pre-Training ModelTUYuanlai,ZHOUJiale,WANGHuifeng(SchoolofInformationScienceandEngineering,EastChinaUniversityofScienceandTechnology,Shanghai200237,China)Abstract

49、:Thelargeamountofaccidentinformationintheaccidentcasedatabasecanproviderichandvaluableexperienceforthedesignofsafetyrelatedsystem,includingtime,location,cause,processofaccidents,etc.Theseinformationsplayanimportantroleinhazardidentification,buttheyareusuallydistributedinvariousparagraphsofaccidentdo

50、cuments,whichmakesmanualextractioninefficientandcostly.Thispaperproposesatextclassificationmethod for accident cases based on BERT pre-training model,which can classify accident case texts into fourcategories:ACCIDENT、CAUSE、CONSEQUENCE,andRESPONSE.Inaddition,atestdatasetofaccidentcasesiscollectedand

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服