1、20电视技术 第 47 卷第 1 期(总第 566 期)PARTS&DESIGN器件与设计文献引用格式:孙文涵,王俊杰.基于 BERT 的施工安全事故文本命名实体识别方法 J.电视技术,2023,47(1):20-26.SUN W H,WANG J J.Named entity recognition method of construction safety accident text based on BERTJ.Video Engineering,2023,47(1):20-26.中图分类号:TP311.1 文献标识码:A DOI:10.16280/j.videoe.2023.01.00
2、5基于 BERT 的施工安全事故文本命名实体识别方法孙文涵,王俊杰(中国海洋大学 工程学院,山东 青岛 266400)摘要:为解决传统施工安全管理中对事故报告信息分析效率低的问题,利用自然语言处理(Natural Language Processing,NLP)技术,提出基于双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)的施工安全事故文本命名实体识别方法。以自建的施工安全事故领域实体标注语料数据集为研究对象,首先利用 BERT 预训练模型获取动态字向量,然后采用双向长短时记忆网络-注意力机制-条件随机场
3、(BiLSTM-Attention-CRF)对前一层输出的语义编码进行序列标注和解码以获取最优文本标签序列。实验结果表明,该模型在自建数据集上的 F1 值分数为 92.58%,较基准模型 BiLSTM-CRF 提升了 4.19%;该方法对事故时间等 5 类实体识别 F1 值均可达到 91%以上,验证了该方法对施工安全事故实体识别的有效性,说明模型可用于实际施工知识管理中并指导建筑安全管理的安全培训。关键词:双向编码器表示(BERT);施工安全管理;命名实体识别;知识图谱;知识管理Named Entity Recognition Method of Construction Safety Acc
4、ident Text Based on BERTSUN Wenhan,WANG Junjie(School of Engineering,Ocean University of China,Qingdao 266400,China)Abstract:In order to solve the problem of low efficiency of accident report information analysis in traditional construction safety management,a BERT-based construction safety accident
5、 text named entity recognition method was proposed using Natural Language Processing(NLP)technology.A self-built corpus dataset of entity annotation in the field of construction safety accidents was used as the re-search object.Firstly,Bidirectional Encoder Representations from Transformers(BERT)pre
6、-training model was used to obtain dynamic word vectors,and then used Bidirectional Long Short Term Memory-Attention-Conditional Random Field(BiLSTM-Attention-CRF)to sequentially annotate and decode the semantic codes output from the previous layer to obtain the optimal text label sequences.The expe
7、rimental results showed that the F1 value score of the model on the self-built dataset was 92.58%,which was 4.19%higher than the benchmark model BiLSTM-CRF;the method achieved an F1 value of 91%or more for the recognition of five types of entities such as accident time,which verified the effectivene
8、ss of the method for the recognition of construction safety accident entities.It indicated that the model can be used in practical construction knowledge management and guide safety training for construction safety management.Keywords:Bidirectional Encoder Representations from Transformers(BERT);con
9、struction safety management;named entity recognition;knowledge graph;knowledge management 基金项目:山东省重点研发计划项目(2019GHY112081)。作者简介:孙文涵(1998),女,硕士,研究方向为建筑领域知识图谱、自然语言处理。E-mail:。0 引 言施工安全管理是维系建筑业稳定的重要工作。住房和城乡建设部统计资料显示,2021 年,全国共发生房屋市政工程生产安全事故 623 起、死亡 700人。建设过程中的非结构化事故报告文本数据通常 电视技术 第 47 卷第 1 期(总第 566 期)21P
10、ARTS&DESIGN器件与设计作为制定预防措施的依据。但在传统施工安全管理中,对事故信息的利用依赖于人工解释和处理,缺乏把事故信息转化为可复用知识的工具。施工安全事故的预防,可以通过整合多源异构的施工安全事故案例信息,构建施工安全领域知识图谱。该图谱可用于案例检索、危险源推测以及原因分析1等,这些都对施工安全管理水平提升起着重要作用。实体是知识图谱的基本单元。建立一个事故报告实体自动提取模型,识别施工安全事故中包含领域知识的实体要素,是构建施工安全领域知识图谱的基础工作。基于自然语言处理(Natural Language Processing,NLP)与机器学习的信息抽取方法作为知识提取的关
11、键技术2,目的是从文本文档中提取有效信息或领域知识填充预定义的信息模板3-4。命名实体识别(Named Entity Recognition,NER)是信息抽取的子任务,通常分为基于规则的方法5、基于统计机器学习的方法6和基于深度学习的方法7。深度学习方法已成为目前解决 NER 任务的主流方法。张鹏翔8和陈业明9利用多维字符特征表示对抽取铁路设备事故信息;FANG D 和 Chen H10基于自然语言数据增强的小样本训练方法自动抽取建筑事故新闻报道和法律法规中的信息。这些方法在加强知识管理方面发挥着有益的作用,但输入的字向量都是由 N-gram、Word2Vec 模型训练得到的静态字向量,不能
12、全面表征字向量在不同上下文中的特征,难以解决实体表述不一致以及一词多义的问题,影响实体识别效果。鉴于此,笔者拟收集 1 200 份施工安全事故报告,构建施工安全事故领域实体标注语料数据集;利 用 双 向 编 码 器 表 示(Bidirectional Encoder Representations from Transformers,BERT)预训练模型作为模型编码器获取动态字向量,以解决传统命名实体识别方法在静态字向量表示上的语义信息缺少问题;设计双向长短时记忆网络-注意力机制-条件随机场(Bidirectional Long Short Term Memory-Attention-Cond
13、itional Random Field,BiLSTM-Attention-CRF)模型作为解码器,解决施工安全事故报告文本中的上下文信息利用不充分问题,在此过程中得到的施工安全事故实体将促进施工安全领域知识图谱的构建,并更好地指导建筑安全管理的安全培训。1 概念定义及实体标注规范由于施工安全事故领域目前没有可以直接提供使用的数据集,首步工作需先自行构建实验所需数据集。施工安全事故报告主要包括事故时间、事故地点、施工项目、施工任务以及事故类型等事故知识元素,是有关施工安全事故的重要文本数据。本文所使用的施工安全数据集语料主要来自中华人民共和国住房和城乡建设部、各地方安全监管部门以及媒体报道,共
14、收集了 1 200 条左右的施工安全事故报告,并将事故文本序列以句号划分。结合建筑施工安全领域的实际应用,本文对事故文本中的实体要素进行分类,构建了包含事故类型、事故时间、事故地点、施工工程、施工任务、死亡人数、受伤人数、相关单位以及金额损失 9 类实体的安全事故数据集,并利用 YEEDA 软件完成标注,如图 1 所示。标注规范采取“BIO”方式。“B-”表示每个实体的首个字符位置,“I-”表示每个实体的中部以及结尾字符位置,“O”表示除实体外的其他无关字符。实体示例及标签如表 1 所示。表 1 实体示例及标签实体类别实体示例头标签中间及尾标签事故类型施工升降机轿厢坠落事故B-ACCO-ACC
15、事故时间2019 年 4 月 25 日B-TIMEO-TIME事故地点衡水市桃城区B-LOCO-LOC施工工程翡翠华庭项目B-PROO-PRO施工任务塔吊顶升过程B-JOBO-JOB死亡人数11 人死亡B-FATO-FAT受伤人数1 人重伤B-INJO-INJ相关单位*有限公司B-ORGO-ORG金额损失1800 万元B-MONO-MON其他O2 施工安全事故命名实体识别模型用于施工安全事故报告实体提取的 BERT-BiLSTM-Attention-CRF 模型框架如图 2 所示。该模型主要由四层组成:BERT 文本向量化层、BiLSTM特征提取层、注意力机制层及 CRF 推理层。首先,BER
16、T 预训练层通过无监督方式在大量未标注数据上做训练,实现文本到字符级向量的转换。其次,采用 BiLSTM 层对输入的字符向量进行双向编码,通过学习事故报告中的依赖关系,实现对施工安全22电视技术 第 47 卷第 1 期(总第 566 期)PARTS&DESIGN器件与设计事故报告文本的深度感知与理解,并将本层提取的特征向量传递给注意力机制层。注意力机制层协助模型重点关注显著性强的信息,对显著性弱的特征进行抑制,增强模型对事故报告的特征理解。最后,CRF 层对注意力机制层的输出解码,考虑标签间的约束关系,获取最优的事故报告实体的标注序列。2.1 BERT 文本向量化层施工事故报告包含事故时间、事
17、故地点及事故类型等语义信息。这些语义信息是模型理解施工事故报告的基础。传统的语义向量是以静态的方式处理文字,无法解决实体表述不一致及一词多义的问题。BERT 是多层的双向 Transformer 结构的预训练语言表征模型,能够自动提取出序列中丰富的语法结构特征、语义特征以及位置特征,使模型获取丰富的语义信息。BERT 的输入编码向量为每一个 token 对应的表征。该表征由对应的词嵌入、分割嵌入及位置嵌入三部分叠加组成。词嵌入是输入序列中每个字符的本身向量表示,分割嵌入用于区分两个句子,判断字符所属句子 A 或句子 B,位置嵌入是指从 0 开始将字符的位置信息编码成特征向量。每一个序列都存在
18、CLS 和 SEP 两种特殊的 token。CLS 用于每一个序列的开头位置,SEP插入到每个句子之后,用于断开语料文本中的不同句子,如图 3 所示。项目发生坍塌事故SEPCLSE项E目E发E生E坍E塌E事E故ESEPECLSEAEAEAEAEAEAEAEAEAEAE1E2E3E4E5E6E7E8E9E0词嵌入分割嵌入位置嵌入Input图 3 BERT 模型输入BERT 预训练层输出的动态向量作为事故报告的字符向量,输入到 BiLSTM 层提取和挖掘特征。2.2 BiLSTM 特征提取层BiLSTM 层作为特征提取器,提取事故报告中文本和句子间的顺序特征,构建更准确的语义表示。长短时记忆网络(
19、Long Short-Term Memory,LSTM)通过引入输入门(input gate)、遗忘门(forget gate)、输出门(output gate)以及记忆细胞来记录额外的信息。LSTM 单元结构如图 4 所示,更新过程如下。()()()()()11111tanh,ta,nh,tfftiitoocttctttttttttttttt=+=+=+=+=+=tfWbiWboWbhxhCWhxbCfCixhoxCCh?(1)图 1 数据标注界面 输入事塌坍生发故特征表示层(BERT)BiLSTM特征提取层LSTMLSTMLSTMLSTMLSTMLSTMC6C2C5C4C3C1AAAAAA
20、AttentionOOCRFB-AccI-AccI-AccI-AccCRFCRFCRFCRFCRFCRFTagLSTMLSTMLSTMLSTMLSTMLSTM图 2 BERT-BiLSTM-Attention-CRF 模型整体结构 电视技术 第 47 卷第 1 期(总第 566 期)23PARTS&DESIGN器件与设计式中:,tanh 表示激活函数,Wf,Wi,Wo,Wc表示权重矩阵,bf,bi,bo,bc表示偏置向量,Ct-1和Ct分别为t-1 时刻和t时刻细胞状态,Ct为输入门控制的候选细胞状态。遗忘门输入门tanh输出门tanh输出门Ct-1ht-1ftCtCthtitotCthtYt
21、xt图 4 LSTM 单元结构LSTM对输入的施工安全事故文本序列建模时,无法编码从后到前的信息。因此,将向量以前、后两个方向分别输入 LSTM 单元,捕获双向的语义信息。在t时刻,BiLSTM 的输出ht表示为,ttt=hh h?(2)2.3 Attention 特征加强层施工事故报告具有长文本的特点,存在冗杂信息的干扰。为了增强对显著信息的关注,利用注意力机制捕捉字与字之间的关联程度,根据关联程度的大小调整权重系数,以不同权重配比的方式,二次提取出对实体识别起到关键性作用的特征,弱化对实体识别无关的特征,使模型更聚焦于与事故实体有关的字符上,提升描述结果的准确性。关联程度大小计算如式(3)
22、所示:()T,kAttentionSoftmaxd=QKQ K VV(3)式中:Q,K,V分别表示 Query 向量、Key 向量和Value 向量,dk表示输入向量的维度。对于t时刻模型经过注意力机制加权后的输出为 1ntttt=a h(4)式中:at表示利用注意力机制加权后的特征向量,ht为 BiLSTM 层输出的特征向量,权重t由式(6)计算得出:et=tanh(ht)(5)()()1expexpttnttee=(6)2.4 CRF 推理层CRF 层能在数据集中学习到句子的约束条件,通过有效约束大量减少错误的预测序列。比如,“B-TIME”只能作为事故发生时间的首端,若出现在其他位置则存
23、在错误;“B-TIME”后的正确字符标签为“I-TIME”,若出现其他标签则是模型预测错误。对于一条输入的施工安全事故报告文本序列X=(X1,X2,Xn),经过 CRF 层提取特征后会得到输出矩阵P=P1,P2,Pn 和预测序列Y=(y1,y2,yn),预测标签序列其预测得分为()1,00,iiinny yi yiiS X YTP+=+(7)式中:T为标签yi转移到标签yi+1的得分,P为第i个字符被标记为标签yi的得分,最后使用维特比算法输出当前事故报告文本序列得分最高的最优标签序列。y*=arg max(S(X,Y)(8)3 实验分析3.1 实验参数配置与评价指标本实验采用 Tensorf
24、low 工具进行 NER 模型搭建,在台式计算机上完成训练。训练所使用的计算设备具体参数如表 2 所示。表 2 实验平台配置项目名称相关配置操作系统Ubuntu 16.04CPUIntel Core i5-9400F2.90 GHz6GPUNVIDIA GTX1660GPU 加速器CUDA 10.0,CUDNN 7.6PythonPython 3.6TensorflowTensorflow 1.13.1实验前,根据数据集中的句长统计,将事故报告数据语料最大句长设为 128。对于句子长度不足128 的文本序列,自动使用 标签进行填充;对于句子长度超过 128 的文本序列,进行切分后添至数据集中。
25、训练集、验证集和测试集的比例为811,优化器选择Adam,学习率设置为0.000 1,训练轮次为 50,Batch_size 设置为 8,Attention_size 为 64,Dropout 为 0.5。采取通用评价标准作为评价指标,以准确率(Precision,P)、召回率(Recall,R)和F1分数(F1-score,F1)对实体识别效果进行评价,计算公式如下。24电视技术 第 47 卷第 1 期(总第 566 期)PARTS&DESIGN器件与设计 12TPPTPFPTPRTPFNPRFPR=+=+=+(9)式中:TP是预测为正样本被正确识别的样本数,FP为负样本被识别为正样本的样本
26、数,FN表示正样本被识别为负样本的样本数。3.2 对比实验结果及分析为验证本文模型的性能,在同一实验环境下,与 BiLSTM、BiLSTM-CRF 和 IDCNN-CRF 三 个 命名实体识别模型在 P,R 及 F1 值三项指标上进行各识别实体指标对比,实验结果如表 3 所示,四种模型的 F1 值随迭代次数变化曲线如图 5 所示。由表 3 可知,本文模型的 P,R,F1 值均高于对比模型,分别达到 92.31%,92.86%和 92.58%。与 BiLSTM 相 比,BiLSTM-CRF 和 IDCNN-CRF 模型的识别效果有了较大的提升,总体 F1 值分别提升了 6.26%和 4.59%,
27、说明 CRF 模型在识别语义特征后,考虑到字符之间的约束关系,提升了总体的识别效果。BiLSTM-CRF 模型相较于 IDCNN-CRF模型的准确率和召回率均有一定的提升,是因为BiLSTM 相较于 IDCNN 具有更强的全局上下特征提取能力。与对比模型相较,本文模型在整体 F1 值上比表 3 各类实体识别指标对比(单位:%)实体类别评价指标BiLSTMBiLSTM-CRFIDCNN-CRF本文模型事故类型P79.8686.4487.2789.09R89.1892.7388.0789.31F184.2689.4787.6789.50事故时间P97.4197.4199.1299.13R97.41
28、97.4198.2699.13F197.4197.4198.6999.13事故地点P75.6588.7982.6992.23R82.4488.7981.9090.48F178.9088.7982.3091.35施工工程P62.8567.5065.8383.33R64.9571.6869.9184.07F163.8869.5367.8183.70施工任务P42.6861.0545.4565.38R45.5363.0243.4873.91F144.0662.0244.4469.39死亡人数P94.9698.2697.3999.11R99.1299.1299.1298.23F197.0098.699
29、8.2598.67受伤人数P80.6581.8281.8281.82R95.16100.00100.00100.00F187.3190.0090.0090.00相关单位P85.2691.4096.51100.00R94.1998.8496.51100.00F189.5094.9796.51100.00金额损失P95.35100.00100.00100.00R97.28100.00100.00100.00F196.31100.00100.00100.00总计P79.4186.6885.8492.31R85.0390.1887.6292.86F182.1388.3986.7292.58 电视技术
30、第 47 卷第 1 期(总第 566 期)25PARTS&DESIGN器件与设计其他 3 种模型分别提高了 10.45%,4.19%,5.86%,说明本文引入的 BERT 模型和注意力机制提升了安全事故文本的字向量表征能力,增强了对重点信息的关注,根据施工安全事故文本的上下文动态微调字向量,增强了字向量的语义表达,对于数据规模较少的特定领域实体,能有效提升识别性能。对于事故时间、事故地点、死亡人数、相关单位和金额损失等实体,识别 F1 值均可达到 91%以上,部分实体类别如事故时间、死亡人数、相关单位和金额损失等的识别准确率可以高达 95%以上,主要原因是这些实体类别的周围会有明显的边界特征,
31、如事故时间多以“日、秒、许”等字符结尾,死亡人数常以“死亡”开头或结尾,相关单位常常以“*公司”等字符结尾,可以使模型捕捉到明显的特征信息。而其他实体类别周围往往没有明显的边界特征且实体长度较长,导致识别效果变差。从图 5 可以看出,在刚开始的 110 次迭代时,四种模型的 F1 值均快速上升;在 1130 次迭代时,四种模型处于稳步上升阶段,并在较小的范围上下波动;在 30 次迭代后,四种模型的 F1 值趋于平稳,几乎没有波动。从图 5 还可以看出,本文模型的整体识别效果好于其他三种模型的识别效果,且在第28 次迭代时达到最优总体 F1 值 92.58%。图 6 是本文模型在训练过程中损失值
32、随迭代次数的变化曲线。模型在训练过程时,损失值随着迭代次数的递增而降低,最后达到稳定的状态。本文采用 Adam 优化器,在训练过程自动调节学习率,损失函数曲线有较为明显的阶段性特征。图 6 验证集与训练集的损失函数曲线3.3 消融实验结果及分析为研究 Attention 对模型性能的影响,本文设计了消融实验。在BERT-BiLSTM-CRF模型的基础上,增加 Attention 机制,实验结果如表 4 所示。表 4 消融实验结果对比(单位:%)模型PRF1BERT-BiLSTM-CRF90.8691.7991.32BERT-BiLSTM-Attention-CRF92.3192.8692.58
33、BERT-BiLSTM-CRF 模型融合 Attention 后,模型 F1 值提升了 1.25%,其原因是注意力机制可以增强模型对句子中关键字的利用,弱化与实体无关的图 5 四种模型的 F1 值随迭代次数变化曲线图26电视技术 第 47 卷第 1 期(总第 566 期)PARTS&DESIGN器件与设计语义特征,使得模型识别实体性能有效提高;能够有效捕获与当前输出关联度较高的信息,解决实体表述不一致以及一词多义的问题,提高施工安全事故实体识别的识别精度。4 结 语本文以自建的施工安全事故领域实体标注语料数据集为研究对象,定义了该领域 9 类实体类别,提出了一种基于 BERT 的施工安全事故命
34、名实体识别方法。本方法解决传统命名实体识别方法在静态字向量表示上的语义信息缺少问题,有效提高施工安全报告实体识别效率和准确率。文中实现的施工安全事故领域实体识别为后续相关领域知识图谱的构建打下基础,且不依赖于特定领域的人工特征,因此可以很容易地应用到其他领域。后续将进一步扩大数据集的规模,并开展施工安全领域的关系抽取工作,以满足建筑施工安全领域知识图谱的应用需求。参考文献:1 王莉.基于知识图谱的城市轨道交通建设安全管理智能知识支持研究 D.徐州:中国矿业大学,2019.2 黄梅根,刘佳乐,刘川.基于 BERT 的中文多关系抽取方法研究 J.计算机工程与应用,2021,57(21):234-2
35、40.3 ZHOU P,ELGOHARY N.Semantic information alignment of BIMs to computer-interpretable regulations using ontologies and deep learningJ.Advanced Engineering Informatics,2021,48:101239.4 ZHANG J,ELGOHARY N.Semantic NLP-based information extraction from construction regulatory documents for automated
36、compliance checkingJ.Journal of Computing in Civil Engineering,2016,30(2):04015014.5 XU N,MA L,WANG L,et al.Extracting domain knowledge elements of construction safety management:rule-based approach using Chinese natural language processingJ.Journal of Management in Engineering,2021,37(2):04021001.6
37、 KIM T,CHI S.Accident case retrieval and analyses:Using natural language processing in the construction industryJ.Journal of Construction Engineering and Management,2019,145(3):04019004.7 何玉洁,杜方,史英杰,等.基于深度学习的命名实体识别研究综述 J.计算机工程与应用,2021,57(11):21-36.8 张鹏翔.多维字符特征表示的铁路设备事故信息抽取方法 J.中国安全科学学报,2022,32(6):10
38、9-114.9 陈业明,戴齐,刘捷.融合字位置特征的铁路事故命名实体识别 J.计算机系统应用,2022,31(12):211-219.10 FENG D,CHEN H.A small samples training framework for deep Learning-based automatic information extraction:case study of construction accident news reports analysisJ.Advanced Engineering Informatics,2021,47:101256.编辑:张玉聪3 结 语高清新闻直播
39、系统的应用,极大地提升了新闻信息传播的高效性与时效性,同时也有助于提升新闻信息的编排及播放质量,适应现阶段融媒体技术的发展与应用需要。通过集成式系统设计方案可以显著提升系统整体的可靠性,有利于推动融媒体技术的推广与应用。参考文献:1 赵开宇,田兰梅.关于分布式存储应用于智慧广电建设的探讨 J.西部广播电视,2022(1):197-199.2 田晨达.浅谈集控一体化播出系统在新闻直播中的应用:以 SMG 融媒体中心 S2 演播室为例 J.中国有线电视,2021(3):301-304.3 林献民.基于 AI 及超高分辨率的智能跟踪系统在虚拟演播室中的应用:以 U-Studio 中的实现方式为例 J.西部广播电视,2021,42(6):207-209.4 王洁丽,龚宇.智能虚拟演播室建设心得:以河北广播电视台融媒体新闻中心自动化集控系统为例 J.现代电视技术,2021(8):75-78.5 周浩,崔衍.浅析全媒体演播室的布光与调试:以长沙广播电视集团全媒体演播室为例 J.演艺科技,2020(8):4-5.编辑:张玉聪(上接第 19 页)