基于Transformer...到端场景文本检测与识别算法_郑金志.pdf

资源描述

1、2023 年 5 月 Journal on Communications May 2023 第 44 卷第 5 期通信学报 Vol.44 No.5基于 Transformer 解码的端到端场景文本检测与识别算法郑金志1,2，汲如意1,2，张立波1,3，赵琛1,3（1.中国科学院软件研究所智能软件研究中心，北京 100190；2.中国科学院大学，北京 100190；3.中国科学院软件研究所计算机科学国家重点实验室，北京 100190）摘要：针对任意形状的场景文本检测与识别，提出一种新的端到端场景文本检测与识别算法。首先，引入了文本感知模块基于分割思想的检测分支从卷积网络提取的视觉特征

2、中完成场景文本的检测；然后，由基于Transformer 视觉模块和 Transformer 语言模块组成的识别分支对检测结果进行文本特征的编码；最后，由识别分支中的融合门融合编码的文本特征，输出场景文本。在 Total-Text、ICDAR2013 和 ICDAR2015 基准数据集上进行的实验结果表明，所提算法在召回率、准确率和 F 值上均表现出了优秀的性能，且时间效率具有一定的优势。关键词：文本检测；文本识别；端到端；Transformer 中图分类号：TP391 文献标志码：A DOI:10.11959/j.issn.1000436x.2023070 End-to-end scene

3、text detection and recognition algorithm based on Transformer decoders ZHENG Jinzhi1,2,JI Ruyi1,2,ZHANG Libo1,3,ZHAO Chen1,3 1.Intelligent Software Research Center,Institute of Software,Chinese Academy of Sciences,Beijing 100190,China 2.University of Chinese Academy of Sciences,Beijing 100190,China

4、3.State Key Laboratory of Computer Science,Institute of Software,Chinese Academy of Sciences,Beijing 100190,China Abstract:Aiming at the detection and recognition task of arbitrary shape text in scene,a novelty scene text detection and recognition algorithm which could be trained by end-to-end algor

5、ithm was proposed.Firstly,the detection branch of text aware module based on segmentation idea was introduced to detect scene text from visual features extracted by convolu-tional network.Then,a recognition branch based on Transformer vision module and Transformer language module en-coded the text f

6、eatures of the detection results.Finally,the text features encoded by the fusion gate in the recognition branch were fused to output the scene text.The experimental results on the three benchmark datasets of Total-Text,IC-DAR2013 and ICDAR2015 show that the proposed algorithm has excellent performan

7、ce in recall,precision,F-score,and has certain advantages in efficiency.Keywords:text detection,text recognition,end-to-end,Transformer 0 引言文字作为人类知识保存与传播的主要手段，是人类最具有影响力的创造之一，是人类文明的基石1。如何准确、高效地阅读与理解场景图像中的文本，成为计算机视觉领域一个重要的研究课题。采用手工设计文本视觉特征的传统算法在处理自然场景文本检测与识别时，视觉特征的提取依赖研究人员的经验。因此，这类算法具有较大的局限性，且缺乏鲁棒性2。

8、一方面，场景文本检测与识别作为图像视觉理解任务中的重要研究内容3，在视觉理解、盲人辅助、自动驾驶、图像检索、文本图像描述、文本视觉问答、视觉导航等领域都能得到广泛的应用；另一方面，随着计算收稿日期：20221029；修回日期：20230131 通信作者：汲如意，第 5 期郑金志等：基于 Transformer 解码的端到端场景文本检测与识别算法 65 机科学的发展，计算机的性能得到了较大提升，这使基于神经网络的深度学习成为可能4。而深度学习的迅速发展，为场景文本检测与识别任务性能提升提供了可观的前景。因此，研究基于深度学习的场景文本检测与识别算法具有一定的理论与现实意义。从场景图像中读取文

9、本作为图像视觉理解任务中的一项重要研究课题，其可以划分为 3 个子任务，即场景文本检测、场景文本识别以及端到端的场景文本检测与识别1-5。场景文本检测是定位出场景图像中的文本区域，提供给后续视觉任务6。场景文本识别是识别出文本图像区域或图像块中的文本内容7-11。在场景文本检测与识别过程中，可以先使用场景文本检测方法定位包含文本的区域，然后切割文本区域的图像块，将该图像块输入场景文本识别模型识别出文本。但是这种方式在文本检测与识别阶段都需要对场景图进行视觉提取，难以做到视觉特征的共享，存在重复计算的问题，而且需要对检测和识别模型进行分别训练，训练过程也较复杂。为了缓解这些问题，端到端的场景文本

10、检测与识别任务便引起了广泛关注12-14。通常，端到端的场景文本检测与识别模型是将场景文本检测与识别分支结合起来，通过端到端的方式完成整个模型的训练。端到端的场景文本检测与识别是在一个模型中完成自然场景中的文本检测与识别任务，在检测与识别过程中实现视觉特征共享，不必进行重复提取。端到端的场景文本检测与识别是本文研究的主要内容。端到端的场景文本检测与识别分为基于像素级别的分割与基于序列到序列的文本生成 2 种思路。基于像素分割的场景文本检测与识别方法需要对每个像素的文本类别进行预测，可以并行识别场景图像中的多个字符或文字6-7。但是，这种方法通常识别精度较低，效果较差。因此，有些研究人员将场景文

11、本检测与识别任务视为视觉特征到文本字符序列的生成任务，通过循环神经网络（RNN,recurrent neural network）对视觉特征进行解码的方式完成文本的识别12-15。基于循环神经网络的方法对场景文本依次解码，存在误差累积、识别速度受限等问题。尽管场景文本的检测与识别任务已经发展了很多年，取得了较大进步，但是仍然面临众多挑战，主要原因在于：自然场景中的文本本身存在字体大小不一、形状任意多变、位置随机、文本方向不定等情况；场景图像存在遮挡、畸变、弯曲、颜色失真、光照不均、分辨率低、背景复杂等问题16。为了缓解速度与精度之间的矛盾，本文提出一种能够进行并行解码的端到端的场景文本检测与识

12、别模型，该模型能够处理任意形状文本的检测与识别。本文的主要贡献概括如下。1)设计了包含文本感知模块的检测分支，该模块能够在文本视觉提取过程中增强文本前景特征、抑制背景噪声、提高文本视觉特征的表达能力。2)提出了由 Transformer 视觉模块（TVM,Transformer vision module）、Transformer 语言模块（TLM,Transformer language module）和融合门组成的识别分支，在充分提取视觉特征的基础上进一步挖掘了语义信息。视觉模块与语言模块通过位置编码进行并行识别，具有解码速度快的优点。3)设计了新的端到端的场景文本检测与识别模型，由基

13、于分割思想的检测分支和基于Transformer 与融合门的识别分支组成。基于分割思想的检测分支能够实现像素级别的文本检测精度，而基于 Transformer 的识别分支改变了 RNN 循环解码方式，提高了解码速度。4)实验结果表明，本文算法在任意形状文本数据集 Total-Text 上实现了具有竞争性的识别性能。在无字典约束和全字典约束情况下，文本识别的 F值分别达到了 70.9%和 78.1%。此外，该算法具有较高的时间效率。1 相关工作本节将从场景文本检测、场景文本识别以及端到端的场景文本检测与识别 3 个方面对当前的发展进行简要介绍。1.1 场景文本检测场

14、景文本检测的难点主要在于场景文本的尺寸多变、角度不定以及背景复杂等。文献17通过检索字符以及字符之间的依附关系有效地检测文本区域，取得了不错的效果，该方法能够检测具有一定弯曲程度的文本。文献18提出的深度关系推理图（DRRG,deep relational reasoning graph）网络将每个文本实例划分为一系列的矩形组件；然后通过定义文本组件对象的长、宽、角度等几何属性建立关系图，引入图神经网络进行关系推理，从而完66 通信学报第 44 卷成任意形状文本的检测。基于分割的方法能够精确到像素级别预测，因此其在任意形状的文本检测任务中得到了较广泛的关注。文献19提出了基于分割的框

15、架通过嵌入聚类对任意形状的文本进行分割预测。在分割预测过程中，首先对文本的前景区域进行掩码分割，然后在文本前景掩码范围内部预测文本的中心区域。每个文本中心区域代表一个文本实例，最后对每个文本区域进行全图分割，全图是对整个文本区域进行完整的预测。文献20采用了与文献19类似的方法，不同的是文献20用文本实例的边框预测替代了文献19中的文本全图预测。文献21针对任意形状场景文本的检测任务提出了基于分割的实时上下文感知（RSCA,real-time segmentation-based context-aware）模型。文献3提出了增强特征金字塔网络（EFPN,enhanced feature py

16、ramid net-work）模型，该模型设置了语义传递比率不变的特征增强模块和改善边界位置的重建空间分辨率模块。文献22设计了可微二值化模块，使模型在分割推荐过程中的二值化阈值具有更强的鲁棒性。1.2 场景文本识别场景文本识别从场景文本检测的文本图像块中提取视觉特征，然后通过解码识别出文本内容，这与机器翻译等自然语言处理任务比较类似。因此，可以将其看作一个特征序列到文本序列的编码解码生成任务8-9。最初，常见方法的主要思想是使用 RNN 从文本图像区域的视觉特征中解码出文本内容。例如，文献8中提出的模型由提取视觉特征的残差网络（ResNet,residual neural network）

17、编码器和基于 2D 注意力的长短时记忆（LSTM）解码器模型组成。在近阶段的进展中，Transformer 逐渐得到了广泛关注。例如，文献23使用卷积网络和Transformer 作为编码器对视觉特征进行编码，然后使用 Transformer 作为解码器对编码特征进行解码；文献24直接使用Transformer对卷积网络提取的视觉特征进行解码输出识别文本。有些研究人员认为场景文本中蕴含着文本语义知识，因此文本识别过程中既要考虑视觉信息，又要提取隐藏的文本语义信息。基于这一思想，文献9-11提出的文本识别模型将识别过程分为 2 个阶段：首先，基于视觉特征初步识别文本；然后，考虑文本上下文对初步识

18、别的文本进行二次修正，修正后的结果作为模型的最终识别结果。例如，文献9提出的语义推理网络（SRN,semantic reasoning network）设置了并行视觉注意力模块，基于视觉信息进行初始识别；然后，通过全局语义推理模块在视觉识别的文本之间挖掘语义信息进行推理。文献10提出的 RobustScanner 由卷积神经网络（CNN,convolutional neural network）编码器和解码器组成，其中解码器中设置了位置增强分支与混合分支进行两阶段的场景文本识别。文献11提出的自主双向迭代网络（ABINet,autonomous,bidirec-tional and itera

19、tive network）设置了视觉模块和语言模块，可以进行视觉和语言两阶段识别。1.3 端到端的场景文本检测与识别端到端的场景文本检测与识别算法主要分为基于像素分割预测和基于 RNN 序列生成两类。基于像素分割预测的算法通过对场景文本的前景分类预测完成文本的检测与识别。例如，文献25提出的 Text perceptron 首先基于分割的思想进行文本检测，然后通过设置的形状转化模型将不规则文本转化为规则文本，最后通过识别网络进行识别。文献26提出的点集网络（PGNet,point gathering network）设计了对文本中心线、文本边界偏移、文本方向偏移、文本字符分类的多目标任务，规

20、避了感兴趣区域（ROI,region of interest）和非极大值抑制（NMS,non-maximum suppression）操作。这类算法能够适应任意形状的文本，但是对文本字符关系的编码有限，识别精度较低。与基于像素分割预测的算法相比，基于 RNN的算法能够更好地编码文本字符之间的关系，从而提升文本的识别精度。例如，文献5提出的模型首次将CNN和RNN应用到端到端的场景文本检测与识别任务。文献27引入感兴趣区域旋转提取文本区域的特征，然后输入由 CNN 和 LSTM 组成的文本识别分支，识别场景文本。为了能够对自然场景图中的不规则文本进行端到端的检测与识别，有些工作通过引入具有尺度感

21、知能力的注意力机制，提取多尺度的图像视觉特征，然后使用 RoI 进行特征对齐，并使用 RNN 对对齐后的特征进行解码生成识别文本28-30。例如，文献28在 RNN 分支中设置了文本对齐层和具有字符注意力机制的LSTM循环模块。文献29通过分割掩码的方式完成文本检测，通过基于LSTM的识别器完成对文本的识别。文献30提出的掩码注意力引导一阶段（MANGO,mask attention guided one-stage）文本检测与识别框架设第 5 期郑金志等：基于 Transformer 解码的端到端场景文本检测与识别算法 67 计了位置感知掩码注意力（PMA,position-aware m

22、ask attention）模块，将图像中不同文本实例映射到不同的特征通道中，省去了 RoI 操作。此外，还存在另一类将分割与循环解码生成文本进行组合的方法13,15。例如，文献13在字符分割的基础上并行设置了空间注意力模块，使用基于空间注意力的门控循环单元（GRU,gated recurrent unit）进行文本解码能够在一定程度上挖掘文本字符之间的语义信息，提升场景文本的识别精度。在上述端到端的场景文本检测与识别算法中，基于像素分割预测的算法能够精确到像素级别检测，但是由于缺乏对文本语义信息的挖掘，识别精度具有一定的局限性；而基于 RNN 解码的序列生成算法在循环中对序列进行解码，时间效

23、率较低。为了能够在保持算法识别性能的同时提高识别效率，本文提出了一种基于 Transformer 编码的场景文本检测与识别算法。该算法使用并行Transformer 代替 RNN 挖掘文本语义信息，提升了识别精度。2 算法设计本文算法框架结构如图 1 所示，主要由主干网络、检测分支与识别分支三部分组成。主干网络提取视觉特征，检测分支从视觉特征中定位出文本区域，识别分支识别出文本区域包含的文本内容。图 1中虚线箭头只在训练过程中存在。检测分支包含分割推荐网络、检测监督器两部分。识别分支包含TVM、TLM 和融合门三部分。该模型的检测与识别过程概括为给定待识别的场景图

24、像，首先，由主干网络提取视觉特征；然后，由检测分支基于分割的思想生成文本区域的推荐；最后，根据检测分支的分割推荐模块和文本感知模块（TAM,text aware module）输出视觉特征，由基于 Transformer 解码器的识别分支完成文本的识别。2.1 主干网络和检测分支主干网络的主要功能是提取场景图像的视觉特征。检测分支中设置了分割推荐网络和检测监督器。分割推荐网络中基于视觉特征在 U-Net 各层进行融合操作后，设置了文本感知模块和分割推荐模块，目的是更好地提取文本视觉特征、完成文本检测任务；检测监督器的作用主要是训练过程中监督分割推荐网络的学习，而前向推理过程中监督器不参与计算

25、。2.1.1 主干网络本文使用 ResNet5031作为主干网络提取视觉特征。给定场景图像 I，可通过主干网络提取视觉特征 44()H WCvRR I(1)其中，H 和 W 是原始输入图像 I 的高和宽，C 是特征通道的维度，R 是 ResNet50。2.1.2 分割推荐网络 1)特征融合如图 1 所示，检测分支使用 U-Net 结构的卷积模块对主干网络提取的视觉特征进行融合。在不同尺度上进行特征图的融合，从而使融合后的特征具有较强的尺度鲁棒性。在融合特征的过程中，4 个不同尺度的特征分别由一个 33 的卷积层和一个上采样层进行尺度归一化，然后对归一化的特征进行拼接（concat），获得融

26、合特征。融合特征定义为图 1 本文算法框架结构 68 通信学报第 44 卷 44U-Net()H WCvFR(2)2)文本感知模块自然场景图像中的文本通常具有任意形状，包括具有一定的方向、弯曲、形变等情况。受到文献21的启发，为了在视觉特征提取过程中能更好地感知文本区域，提高文本视觉特征的提取质量，本文在视觉特征融合模块后设置了如图 2所示的文本感知模块。图 2 中，每个操作旁边标注的是对应操作后视觉特征的维度信息，为第一个卷积后特征图的缩小比例，本文在实验中设置=4。图 2 文本感知模块文本感知模块的处理过程可以分为三步：感知权重计算、文本空间感知和残差链接增强。感知权重计算过

27、程如下：对融合特征进行通道方向上的池化操作；在池化后的单通道特征图上进行卷积操作和 ReLU 激活，主要目的是提取特征空间之间的非线性关系；通过反卷积操作将特征图恢复到原始特征图的尺寸，提取每个空间位置上的文本注意力；将恢复后的特征图通过 sigmoid 激活函数提取感知权重。文本空间感知过程是将感知权重与融合特征进行广播乘操作，然后将乘积结果与融合特征进行残差链接，进行 ReLU 激活增强，输出文本感知特征。融合特征通过文本感知模块获得文本感知特征，可定义为 44tam()H WCFT F(3)3)分割推荐模块对于弯曲、形变等不规则文本，传统区域推荐网络（RPN,region propo

28、sal network）5-6生成的文本区域会存在重叠、相互干扰等情况，从而影响文本识别的精度。文献15中提出的基于分割的文本推荐网络能够更加精细地生成相邻的文本区域，缓解相邻文本之间的干扰，因此，在文本感知模块之后，本文使用了与文献15类似的结构。在文本感知特征的基础上，定义文本分割特征图为 1tam()H WSS F(4)其中，分割模块最后一层为 sigmoid 层，即S的取值范围为0,1。从文本感知特征tamF中获得分割特征图S的推荐结构如图 3 所示。图 3 分割特征图 S 的推荐结构对分割特征图S进行二值化，输出场景图二值化的分割结果为 ,1,0,i ji jStB其他(5)其中，

29、,i jB为分割图在(,)i j位置上二值化的结果，i jS,为分割图在(,)i j位置上的取值，t为二值化的阈值，本文在实验中设置t=0.5。B中的连通域为文本区域。场景图中相邻文本可能存在相互连通的情况32-33，不利于文本分割推荐的划分，因此在生成分割特征图S的过程中，需要对文本的训练标签进行压缩，从而使不同的文本处于相互隔离状态。基本思想是每个文本按一定比例向中心区域压缩，从而使不同的文本区域分离。本文采用了与文献15,33-34相同的策略，使用文献35中提出的Vatti裁剪算法，通过在文本区域周围裁剪数量为v的像素实现提取文本中心区域的目的。裁剪像素v由裁剪系数r、多边形的面积s和周

30、长p决定，即2(1)srvp，实第 5 期郑金志等：基于 Transformer 解码的端到端场景文本检测与识别算法 69 验中r设置为 0.4。分割特征图S的二值化B对应文本中心区域。因此，获得B后，需要再次使用 Vatti 裁剪算法对文本中心区域进行扩大处理，从而恢复出完整的文本区域。Vatti 裁剪算法扩大文本区域时的像素偏移量 rvsp。其中，spr、分别是B中文本连通域的面积、周长、膨胀系数，本文实验中膨胀系数设置为 3.0。如图 4 所示，分割推荐网络训练时文本区域真实标签的生成以及前向推理时的文本区域推荐过程可概括为：首先，通过 Vatti 裁剪算法缩小文本区域，获得分割推荐的

31、真实标签，如图 4(b)所示，对分割推荐网络进行训练；其次，对分割特征图S进行二值化得到B，如图 4(c)所示；最后，使用 Vatti裁剪算法膨胀文本中心区域，输出多边形文本区域推荐，如图 4(d)所示。这种基于分割的推荐方法更适合形状多变的不规则文本，尤其是场景中文本较为稠密的情况。获得文本多边形区域后，为了提取文本的视觉特征，同时抑制背景以及相邻文本的干扰，需要对文本的 ROI 特征进行掩码处理。掩码生成的过程如下：多边形的分割推荐最小水平外接矩形中，多边形内的像素视为文本前景设置为 1，多边形外的像素视为背景或噪声设置为 0，连通域输出为文本推荐掩码mR。2.1.3 检测监督器由卷积层

32、、池化层和全连接层组成的 Fast R-CNN36是一种较高效的视觉目标检测模型，其中全连接层以池化特征作为输入可以完成对应的分类和回归任务。如图 1 所示，受到文献15的启发，本文在模型训练过程中使用 Fast R-CNN 作为文本检测模块的检测监督器，对分割推荐网络进行检测监督。2.2 识别分支本文将端到端的场景文本检测与识别任务看成视觉特征到字符序列的文本生成任务。如图 1 所示，本文模型在完成文本检测之后，将文本分割推荐结果与文本感知模块的视觉特征输入文本识别分支，识别出场景文本。识别分支由基于Transformer 的视觉模块、语言模块和融合门三部分组成。

33、基于 Transformer的序列解码器能够不依赖历史解码信息进行并行训练，相比于 RNN 解码器具有解码速度快、并行能力强等优点。因此，本文在识别分支设置了 Transformer 进行解码。Transformer 视觉模块基于视觉特征对文本特征进行解码，完成文本初始识别；Transformer 语言模块从 Transformer视觉模块的文本初始识别中挖掘语义信息，使最终的识别能够在文本序列中感知上下文信息，提升文本的识别精度。融合门的主要作用是对视觉模块和语言模块提取的文本特征进行融合，从而在识别过程中能充分而全面地考虑视觉特征与语义特征。2.2.1 Transfor

34、mer 视觉模块文本由字符按一定顺序排列组成，文本中字符序列的位置信息对文本的识别具有重要作用，包含语义信息。因此，解码过程中使用字符序列的一维位置编码信息对提升识别精度具有重要意义。本文采用 cos 编码方式对位置信息进行编码10-11，位置编码可表示为 (pos,2)2dimposPEsin10 000ii(6)(pos 21)2dimposPEcos10 000ii，(7)图 4 真实标签与前向生成分割推荐的过程示意 70 通信学报第 44 卷其中，sin 表示正弦函数，cos 表示余弦函数，pos表示字符在文本中序列的位置索引，dim 表示位置向量的维度（本文设置为 512

35、），21i表示奇数维的索引，2i表示偶数维的索引。如图1所示，识别分支中的Transformer视觉模块由式(6)和式(7)的位置编码结果作为Transformer的查询Query，文本感知模块的文本视觉特征tamF通过2个U-Net网络作为键Key、值Value。Transformer视觉模块解码的文本字符特征可表示为 TsoftmaxvQKgVC(8)其中，Q、K和V分别为查询Query、键Key和值Value的缩写，TK是K的转置。这里的Transformer模块设置了一层Transformer单元，该层有8个注意力头。然后，将解码的字符特征通过线性变换与soft

36、max激活函数，输出Transformer视觉模块的文本识别结果 softmax()vvPT(9)其中，vP为视觉模块的识别结果，()vvvTW g，vW为可训练的超参数。Transformer视觉模块的主题思想是将位置编码信息作为查询，从视觉特征中解码文本内容。但是字符视觉特征较差，比如出现遮挡或者模糊等情况时，识别效果会受到限制。而文本通常包含一定的语义信息，当字符的视觉特征不足以正确识别出该字符时，可以根据字符的上下文挖掘语义信息对当前字符进行修正识别。为此，本文在视觉模块后面设置了语言模块。2.2.2 Transformer语言模块 Transformer语言模块的主要目的是从基于视觉

37、识别的结果中挖掘语义信息，进一步优化识别结果。受到文献11工作的启发，Transformer语言模块将语义信息的挖掘视为双向填空问题，使用自掩码Transformer11挖掘语义概念。与视觉模块类似，将位置编码作为查询Query，视觉模块的文本解码特征vg作为键Key、值Value。通过位置编码信息从视觉模块编码的文本特征vg中挖掘语义信息解码场景文本。如图1所示，在Transformer语言模块的自注意力编码中设置了掩码矩阵 M，该矩阵对角线上的元素为负无穷，非对角线上的元素为0。掩码矩阵的主要作用是模拟填空网络，在编码过程中屏蔽当前字符，而只考虑上下文信息。编码过程可以表示为 Tsoftm

38、axLQKgVCM(10)其中，Q是字符在序列中的位置编码，K、V是键Key、值Value。这里的Transformer模块本文设置了4层Transformer单元，每层8个注意力头。Transformer语言模块的识别可表示为 softmax()LLPF(11)其中，LP为语言模块的识别结果，()LlLFW g，lW为可训练的超参数。2.2.3 融合门为了充分融合视觉特征与语义特征进行识别，模型中设置了融合门9-11。如图1所示，将Transformer视觉模块和语言模块编码的文本特征输入融合门，将融合门的输出特征进行线性变换，然后由激活函数输出识别结果。特征融合过程可表示为 ()(1)f

39、vLggfvfLWgg WFW gWg,(12)其中，表示sigmoid 激活函数，vg 和Lg 分别由式(8)和式(10)可得，vLgg,表示特征vg和Lg的拼接，gW和fW分别表示可训练的超参数和融合权重。识别分支的识别结果可表示为 softmax()FfPF(13)其中，FP为识别分支的识别结果，()frgrFW FW，为可训练的超参数。2.3 多目标损失函数为了训练端到端的模型，本文设计了多目标损失函数 spndetrec LLLL(14)其中，spnL是基于分割的文本推荐损失函数，detL是检测监督器的损失函数，recL是文本识别分支的损失函数，、是平衡因子，取值分别为1、0.1、

40、1。对于基于分割推荐的任务，本文采用dice损失37，该损失定义为第 5 期郑金志等：基于 Transformer 解码的端到端场景文本检测与识别算法 71 spn2)1(SGLSG(15)其中，S为分割网络输出的分割特征图，G为分割目标图，()SG为分割图与目标图的交，SG为分割图与目标图的并。检测监督器是一个Fast R-CNN28，因此检测监督器的损失detL的定义同文献28。识别分支的损失主要由Transformer视觉模块、Transformer语言模块和融合门三部分的损失组成。识别分支的损失可表示为 rec vvLLFFLLLL(16)其中，vL、LL和F

41、L分别是vg、Lg和gF对应的交叉熵损失函数，v、L和F是平衡因子。3 实验为了验证本文算法的有效性，本节在几个基准数据集上进行了实验验证，并对实验结果进行了分析。此外，本节还对本文的实验设置进行了说明，并对实验结果进行了展示和分析。3.1 实验设置本节对实验用到的主要数据集、实验参数、训练策略以及评价指标等进行介绍。3.1.1 数据集 SynthText38数据集收集了约80万张场景图像，场景图像中的文本由渲染合成而来，并不是真实的场景文本。合成数据集在训练阶段应用。使用合成数据集进行训练的原因是真实场景中样本的注释较困难，工作量大，无法获得足够的真实场景样本进行训练，而通过渲染获得的合

42、成数据集可以降低人工标注的成本，一定程度上缓解训练样本不足的问题。ICDAR201339数据集包含299张图像的训练集和233张图像的测试集。数据集中包含英文文本，文本以水平方向为主，包含文本和字符2种级别的标注。为了验证本文算法在多方向文本上的性能，实验中对ICDAR2013数据集进行了不同角度的旋转。Total-Text40数据集中训练集含有图像1 255张，测试集含有图像300张。该数据集的场景图像包含水平文本、多方向文本和弯曲文本。ICDAR201541数据集中训练集含有图像1 000张，测试集含有图像500张。该数据集的样本收集于谷歌眼镜，图像中的文本存在畸变、模糊、分辨率低、文本较

43、小等情况，场景更具偶发性。SCUT（scut-eng-char）数据集42仅用于模型训练，主要是为了增加训练样本的多样性和数量，包含自然场景下室内文本图像。为了尽可能地保证公平比较，实验中使用Mask TextSpotter v213官网提供的SCUT数据集，该数据集包含1 162张场景文本图像。3.1.2 实验参数与训练策略为了进行公平比较，本文采用了与文献15相同的实验设置和训练策略。端到端的检测与识别模型将检测与识别作为一个整体进行训练。对不同数据集进行验证时不需要在各个数据集上进行单独训练。训练分为预训练和微调2个阶段。在SynthText数据集上进行预训练，然后进行微调。微调训练时

44、mini-batch大小设置为8，每个batch中的样本按照2:2:2:1:1的比例从SynthText、ICDAR2013、ICDAR2015、Total-Text和SCUT（scut-eng-char）42这5个数据集中随机抽取。此外，微调阶段采用了数据增强和多尺度训练策略。为了增强数据的多样性，提升训练模型的泛化能力，同时也为了尽可能公平地与之前的算法进行对比，本文实验采用了深度学习中常用的数据预处理操作15。例如，数据增强过程中对输入图像在90o,90o范围内随机旋转，还使用了诸如随机调整饱和度、亮度、对比度等数据增强策略。多尺度训练策略中输入图像的短边被随机调整为5个大小，分别是60

45、0、800、1 000、1 200、1 400。本文实验中将文本序列最大长度设置为32，识别字符类别设置为37，包括10个数字、26个字母和一个标记位，识别解码器中Transformer设置为一层。实验由Pytorch深度学习框架实现，在两块NVIDIA TITAN RTX上进行训练，每块显存为24 GB。预训练阶段设置默认参数优化器为SGD，初始学习率为0.02，权重衰减为0.001，动量衰减为0.9，训练迭代30万次，当迭代到第10万次和第20万次时学习率衰减十分之一。微调阶段，初始学习率为0.001，共迭代30万次，当迭代到第10次和第20万次时学习率衰减十分之一。在没有明确说明的情况下

46、，旋转ICDAR2013和Total-Text数据集上输入图像的短边重置为1 000，ICDAR2015数据集上输入图像的短边重置为1 440。3.1.3 评价指标为了验证算法的有效性，本文采用的评价指标72 通信学报第 44 卷主要包括准确率（Precision）、F值（F-score）和召回率（Recall），计算式分别为 TPPrecision=TP+FP(17)2TPF-score2TP+FP+FN(18)TPRecall=TP+FN(19)其中，TP表示真样本中被正确预测的文本实例数目，FP表示假样本中被错误预测为真样本的文本实例数目，FN表示真样本中没有被正确预测的实例

47、数目。在检测任务中，当文本预测区域与真实标签的区域重叠度（IoU,intersection over union）大于给定的阈值时，该文本视为被准确检测到，实验中IoU阈值设置为0.5。3.2 水平场景文本及其旋转文本的对比实验为了验证本文算法对水平场景文本及其旋转情况下的识别性能，本节在ICDAR2013及其旋转数据集（Rotation_ICDAR2013数据集）上进行了实验。在Rotation_ICDAR2013数据集上进行实验，分析平衡因子v、L和F的不同取值对算法性能的影响。不同平衡因子下获得的F值如表1所示。从表1中可以看出，当v、L和F都设置为1时，算法性能达到最优；更高或者更低

48、比例的平衡因子设置并没有带来明显的性能提升。这说明训练过程中3个模块的目标优化具有相当或相近的重要性。在之后的实验中，默认平衡因子v、L和F都设置为1。表 1 不同平衡因子下获得的 F 值平衡因子旋转角度 v L F 45 60 2 2 1 73.0%72.3%1 1 1 74.4%74.2%2 1 1 72.3%73.3%1 2 1 73.6%74.5%1 1 2 73.7%73.9%2种算法在ICDAR2013数据集上的可视化如图5所示。从图5可以看出，相对于CharNet算法随着旋转角度的增加检测与识别性能逐渐下降，本文算法对水平方向的文本以及旋转45和60的文本都能进行相对准确的检

49、测和识别，这证明了本文算法在识别水平与旋转场景文本时的优越性。表2列出了本文算法与其他算法7,13在旋转ICDAR2013数据集上的端到端识别性能。从表2中可以看出，当水平文本旋转45时，本文算法端到端的识别精度在召回率、准确率以及F值上分别达到了63.7%、89.4%和74.4%；当水平文本旋转60时，识别精度在召回率、准确率以及F值上分别达到了63.7%、88.9%和74.2%。3.3 方向文本的对比实验为了验证本文算法在方向不确定的场景文本上的性能，本节在ICDAR2015数据集上进行了实验，可视化结果如图6所示，其中，多边形为算法检测出的文本区域，多边形旁的白色字体为算法识别出的文本

50、内容。由图6可知，与CharNet算法相比，本文算法能够更加精确地检测和识别出场景文本。本文算法与其他算法5,7,12,25-26,30,43-48在ICDAR2015数据集上的F值如表3所示。其中，G、W、S分别表示3种字典约束类型，G表示一般字典，也被称为全字典，包含的文本内容较多，约9万个词；S表示强字典，包含的词最少；W表示弱字典，词的量介于G和S之间。当使用字典约束时，只有字典范围内的文本才会考虑进行识别。本文算法在G、W、S这3种字典约束类型下的端到端的场景文本检测与识别分别达到了73.7%、76.8%和80.5%。与SPTS v2相比，在S约束下降低了1.2%，但

展开阅读全文