基于牛耳标OCR的牛身份识别研究.pdf

资源描述

1、Computer Era No.10 20230 引言在大规模化牛场中，要实现对牛个体自动化、信息化的日常精细化管理，实现对每头牛的健康状况追踪及奶源和肉制品追溯，须对牛的身份进行识别1-4。本文采用PP-OCR框架对牛耳标进行识别，从而确定牛只身份。由于牛耳标区域在牛头部图像中占比较小，且多有耳标采用人为手写的方式，存在书写不规范等问题，对牛耳标区域的文本定位和识别造成了一定困难5-7。1 PP-OCR网络结构1.1 牛耳标整体识别框架光学字符识别 OCR 的概念于 1929 年被首次提出，但由于当时软硬件技术的限制，这项技术并没有被实现。随着计算机设备的出现与应用，OCR技术才得以实现。O

2、CR领域分为文本检测和文本识别两个主要研究方向。近年随着深度学习技术的出现，OCR技术在实践中取得了越来越多的成果。其中，PP-OCR是一套较为成熟的中英文OCR方案，其重点在于解决不同语言的OCR问题，PP-OCR包含了很多的文本检测算法和文本识别算法，具体包括：不同的 backbone网络，自定义的预测头网络，各种常见超参的选择，模型轻量化等。这些策略使得整体模型变得更加轻量高效，同时还提升了上线部署的效率。PP-OCR主要由三个流程组成，分别是DB文本检测、检测框校正、CRNN文本识别。其中，绿色框中表示的是一些常用的轻量化方案，这使得PP-OCR最终的模型大小可DOI:10.16644

3、/33-1094/tp.2023.10.003基于牛耳标OCR的牛身份识别研究*童慧琳，李琦(内蒙古科技大学信息工程学院，内蒙古包头 014010)摘要：快速精准确定牛个体身份，对疾病防控、品种遗传改良、奶制品和肉制品质量溯源以及改善农业假保险索赔等方面具有重要意义。阐释基于牛耳标PP-OCR（超轻量级OCR系统）的牛只身份识别研究。对牛耳标图像实现预处理，以及实验参数的优化设置。从实验结果看，本文方法能稳定定位牛耳标区域，号码识别率达92.30%。关键词：身份识别；PP-COR；图像预处理；文本识别中图分类号：TP182文献标识码：A文章编号：1006-8228(2023)10-12-05

4、Research on cattle identification based on cattle ear tag OCRTong Huilin,Li Qi（School of Information Engineering,Inner Mongolia University of Science&Technology,Baotou,Inner Mongolia 014017,China）Abstract：Rapid and accurate identification of individual cattle is important for disease prevention and

5、control,breed geneticimprovement,quality traceability of dairy and meat products,and improvement of agricultural fake insurance claims.In this paper,a research on cattle identification based on cattle ear tag PP-OCR(an ultra-lightweight OCR system)is presented.Cattle ear tagimages are preprocessed,a

6、nd the experimental parameters are optimized.The results show that the proposed method can stablylocate the cattle ear tag area,and the number recognition rate reaches 92.30%.Key words：identification;PP-OCR;image preprocessing;text recognition收稿日期：2023-05-12*基金项目：科技兴蒙行动重点专项（XM2021BT12）作者简介：童慧琳（1995-

7、），女，内蒙古包头人，硕士研究生，主要研究方向：计算机视觉与智能图像处理。通讯作者：李琦（1973-），男，陕西米脂人，硕士学历，教授，主要研究方向：计算机视觉与智能图像处理。12计算机时代 2023年第10期以达到MB级别。在本文中，将采用PP-OCR的整体技术流程来完成基于牛耳标的个体身份识别。1.2 牛耳标文本检测器如图1所示，文本检测器包括两部分：一个骨干网络和一个检测头网络。其中，骨干网络的大小决定了文本检测器的的网络模型大小，考虑到模型轻量化和模型精度之间的兼容，PP-OCR 采用 MobileNetV3作为文本检测器的骨干网络。另外，PaddleClas还提供了多达24种的图像

8、分类网络结构，其中包含了如ResNet、SEResNeXt、Res2Netvd、DenseNet、EfficientNet、Xception、HRNet 等预训练模型以及训练配置方案。类似于FPN的网络结构，检测头网络采用11卷积，将不同分辨率上的特征图的通道数变为相同的数量，获得在各个图像感受野下的多尺度的特征图，再将各个感受野下的特征图进行加权合并，从而获得一个融合的特征图。图1牛耳标文本检测器网络结构1.3 牛耳标文本方向检测器由于文本方向检测器的训练比较容易，因此PP-OCR 使用 MobileNetV3 作为文本方向分类器的骨干网络。在大部分文本识别算法中，归一化图像的高和宽一般设置

9、为32和100，因为文本方向检测器的骨干网络非常轻量，所以，适当地提高输入图像的分辨率，并不会引起计算时间的显著增长，而且，随着输入图像的分辨率的提高，文本方向检测器的精度也会相应地得到提升。1.4 牛耳标文本识别器文本识别器使用了CRNN(Convolutional RecurrentNeural Network)，如图2所示它是一种比较常用的文本识别网络，能够识别较长的文本序列，主要包括卷积层、循环层和转录层。实际上，转录层相当于模型的损失函数，而卷积层与循环层可以看作由 CNN 和RNN组成的网络。在 CRNN模型中，卷据层是通过多组卷积、池化层和批量归一化层来构建的。与其他CNN模型类

10、似，该方法将图像转换成含有图像深度特征的特征图，然后将特征图输入到后面的循环层。首先将输入图像以计算出的比例进行缩放，以确保图像输入一致。由于卷积神经网络包含了卷积层和最大池化层，因此网络对于输入图像具有平移不变性的特征。卷积神经网络中的感受野的定义是，经过卷积层输出的特征图的各个像素对应着输入图像多少个像素，它和特征图上的像素自左向右，自上而下是的各个像素是一一对应的。尽管卷积神经网络因其具有的优点而被广泛应用到了视计算机领域中，但因为它经常需要将输入图像缩放成相同的大小，所以对于一些尺寸变化较大的数据，例如文本信息，就不能发挥出很好的作用。为了更好的对时序信息进行处理，在卷积层之后加入了一

11、个通过RNN组成的循环层。在PP-OCR中，卷积层使用MobileNetV3作为网络backbone。图2文本识别器网络结构13Computer Era No.10 2023选择循环层的主要原因有三个。卷积神经网络对于数据的上下文信息提取能力较差，而循环神经网络正好可以弥补这一不足；在反向传播时，循环层得出的关于误差的梯度可以反馈到卷积层，所以循环层和卷积层的网络参数能够一起调整；最关键的是，循环神经网络能够处理不同长度的数据，卷积神经网络则无法处理这种数据。普通的循环神经网络存在着相同的缺点，即如果输入数据的序列过长，在反向传播的时候就会出现梯度消失的问题，这很容易使得循环神经网络所能学习的

12、上下文信息的长度有限，并且训练也更加困难。因此，使用长短时记忆网络LSTM来取代一般的循环神经网络，利用门机制将长期和短期的记忆融合到一起，从而解决普通循环神经网络的问题。在一个序列中，由于某个变量不仅与之前的信息相关，还与其之后的信息相关，因此，采用双向的LSTM可以更好地发挥上下文信息的作用。此外，经过实验验证，通过增加双向LSTM的层数，可以有效地提高识别的精度。我们采用了两层的双向LSTM，在实际应用过程中，我们可以根据实际情况来做相应的调整。利用卷积层得到的特征序列经过循环层两个双向LSTM的处理后，可以对图像中的文本信息做出更精准的识别。由于卷积层的输出特征的维度与LSTM的输入特

13、征的维度不同，为了实现维度的变换，还需构建一个线性层，将其作为卷积层到循环层的过渡，从而满足循环层的输入需求。转录层的作用是将由循环神经网络预测的序列转换成标记序列，从而得到最后的识别结果。该层的原理是在标记序列中的各个分量中，选择概率最大的索引，作为识别结果，并将其组成为最后的识别序列。本文引入CTC算法中定义的条件概率应用于序列的转换问题中。2 训练2.1 牛耳标数据集准备与标注牛耳标数据集利用三千万像素照相机，对在养殖状态下的个体牛进行拍摄从而获得牛耳标图像，构建了一个牛耳标图像数据集，如图3所示。本数据集来自内蒙古锡林郭勒盟苏尼特左旗的一个牧区，共包含133头受试牛，每头牛的牛照片为5

14、-100张图像。图像中的耳标截面倾斜角度应控制在-45度到45度之间，剔除角度过大的图像，避免因角度过大造成字符畸变而影响识别结果；同时一头牛的耳标图片不适宜挑选太多张，因为耳标的字典较少，如果相同受试牛的照片挑选过多，会造成数据集的数据泛化性过低。经过筛检后，耳标图像总计3457张图像。将牛耳标数据集命名为eartagDATA。图3牛耳标数据集eartagDATA本文将采集筛检后的 3457 张牛耳标数据集eartagDATA 使用 PPOCRLabel 标注工具对其进行标注。PPOCRLabel是一款功能强大的半自动化OCR标注工具，它支持中英文与数字识别，以及法文、德文、韩文、日文多种语

15、言的检测。PPOCRLabel默认使用PaddleOCR中的轻量化PPOCR模型，同时也支持用户使用自定义模型。针对标注过程中的误识别、漏检测等问题,PPOCRLabel提供自动标注、手动标注、重新识别、手动更改识别内容、批处理、撤销等功能PPOCRLabel能够导出直接用于PPOCR检测和识别模型训练的数据格式，主要包括Label.txt，fileState.txt，Cache.cach，rec_gt.txt，crop_img 识别数据等。其中，Label.txt是检测标签，行数据包含图片对应的路径、检测到的多个文本框坐标及其对应的文字或数字；fileState.txt是图片状态的标记文件，

16、保存当前文件夹下已经被用户手动确认过的图片名称；Cache.cach是缓存文件，保存模型自动识别的结果；crop_img是按照检测框切割后的图像；rec_gt.txt是识别标签。2.2 牛耳标图像预处理图4牛耳标图像统一分辨率结果示意图由于牛耳标照片的拍摄距离不同，所以耳标图像的分辨率也不同，会对耳标识别的准确率造成影响。使用三次双线性插值将耳标图像的分辨率进行统一。14计算机时代 2023年第10期经过三次双线性插值耳标图像分辨率统一后，分辨率大小均为1024*1024dpi，如图4所示。在数学中，双线性插值是对两个变量的插值函数进行线性插值扩展。首先，在x方向做线性插值，可得到式和式：f

17、(R1)x2-xx2-x1f(Q11)+x-x1x2-x1f(Q21)whereR1=(x,y1)f(R2)x2-xx2-x1f(Q12)+x-x1x2-x1f(Q22)whereR2=(x,y2)接下来在y方向上进行线性插值，得到式：f(P)y2-yy2-y1f(R1)+y-y1y2-y1f(R2)结果f(x,y)如式：f()x,y f()Q11()x2-x1()y2-y1()x2-x()y2-y+f()Q21()x2-x1()y2-y1()x-x1()y2-y+f()Q12()x2-x1()y2-y1()x2-x()y-y1+f()Q22()x2-x1()y2-y1()x-x1()y-y1

18、接下来对统一分辨率后的牛耳标图像进行腐蚀膨胀处理，腐蚀类似“领域被蚕食”，是将图像中高亮区域或白色部分进行缩减细化。而膨胀类似于“领域扩张”，将图像的高亮区域或白色部分进行扩张，运行结果图比原图像高亮区域更大。腐蚀和膨胀都是对图像的高亮区域或白色部分而言。腐蚀是X用S腐蚀的结果是所有使S平移x后仍在X中的x的集合。换句话说，用S来腐蚀X得到的集合是S完全包括在X中时S的原点位置的集合，其公式表达如下：XS=xS+x X 而膨胀可以看做是腐蚀的对偶运算，其定义是：把结构元素B平移a后得到Ba，若Ba击中X，我们记下这个a点。所有满足上述条件的a点组成的集合称做X被B膨胀的结果。其公式表示如下：X

19、S=xS+x x 耳标图像经过腐蚀和膨胀处理后能够有效消除噪声、分割出独立的图像元素和寻找到图像中的明显的极大值区域或者极小值区域。对图像先腐蚀、后膨胀，叫开运算，用式表示。其作用是：分离物体，消除小区域。XS=(XS)S图5是经过图像腐蚀膨胀处理的部分实现源码和处理后的图像示意图。我们可以明显看出经腐蚀膨胀后的耳标更加清晰，下文的实验分析中会通过具体的实验数据来验证。图5牛耳标图像腐蚀膨胀处理示意图3 实验3.1 实验参数设置牛耳标文本检测实验利用MobileNetV3作为骨干网络，网络的输入是牛耳标图像，输出是牛耳标文本检测结果，具体的实验参数如表1所示。表1牛耳标文本检测参数设置参数名称

20、det_db_unclip_ratiodet_limit_side_lenmax_test_lengthdet_algorithm设置值2.512161DB参数意义检测框文本的扩张系数，越大检测框越大网络输入图像的长边的最大尺寸最大可识别字符长度选择的检测算法类型牛耳标文本识别实验利用CRNN作为骨干网络，网络的输入是牛耳标文本图像，输出是牛耳标文本识别结果，具体的实验参数如表2所示。表2牛耳标文本识别参数设置参数名称rec_char_typemax_test_lengthmax_test_lengthcharacter_dict_pathuse_space_charbatch_size_pe

21、r_cardrec_algorithmdrop_score设置值Ch1225ppocr/utils/ic15_dict.txtFALSE256CRNN0.6参数意义识别字符类型最大可识别字符长度最大可识别字符长度包含36个字符的字典是否识别空格每轮迭代的图像数量选择的识别算法类型按分数过滤输出，低于此分数的将不返回15Computer Era No.10 20233.2 实验结果本实验运行在 ubuntu16.04 系统上，使用的编程语言是 Python，深度学习的环境使用 PaddlePaddle，CUDA版本为9.0。训练程序时使用的显卡为NVIDIAGTX2080Ti2，显存为32G，测

22、试程序时在保证CPU和内存基本为空的情况下测试（为了准确测试时间）。本文的牛耳标文本检测采用DB算法，通过扫描输入的耳标图像，设置阈值来判断每一个像素是否属于文字区域，进而完成文本定位。图6展示了牛耳标图像文本检测的效果。绿框部分表示DB算法检测出的文本，并把文本从耳标图像中分割出来，形成右边对应的文本行图片。算法对像素的扫描顺序为从左至右，从上至下。图6牛耳标文本检测结果检测框校正是对文本检测后分割出的文本行部分进行角度校正的操作。在现实场景下，有较大可能性会出现文字颠倒的情况，使用检测框校正可以有效地提高文本识别的准确率。检测框校正采用一个方向分类器将文本行部分进行 0和180度的角度分类

23、，其中，180度的文字行图片会被旋转操作实现转正。输入牛耳标图像，在经过检测网络后，将其输入到识别网络，可以得到牛耳标识别结果，从图 7可以看到，在识别结果中，标出了牛耳标数字的具体坐标以及每个坐标的ID识别结果、识别置信度和识别所用时间。图7牛耳标识别结果分别对原始牛耳标图像和腐蚀膨胀后的耳标图像进行耳标识别测试，测试结果如表3。表3牛耳标图像文本识别结果原图统一分辨率、腐蚀膨胀处理准确率（%）83.7892.14平均识别时间（s）1.31.94 结束语本文介绍了使用牛耳标进行牛个体识别的整体思路，文本检测器、文本方向检测器和文本识别器的网络结构。接下来介绍了对牛耳标图像预处理及其原理，使用

24、腐蚀膨胀处理提高图像的可识别性。在针对耳标场景设置好实验的超参数后对耳标原图像和腐蚀膨胀后的图像分别进行了测试，最后展示了测试结果，证明了本课题使用的预处理方法可以提高牛耳标图像的识别准确率。参考文献(References):1 Epshtein B,Ofek E,Wexler Y.Detecting text in naturalscenes with stroke width transformA.in:2010 IEEEcomputer society conference on computer vision andpattern recognitionC,2010:2963-2970

25、.2 LIAO M H,WAN Z Y,Yao C,et al.Real-Time SceneTextDetectionwithDifferentiableBinarizationJ.Pro-ceedings of the AAAI Conference on Artificial Intelli-gence,2020,34(7):11474-11481.3 YU D L,Li X,ZHANG C Q,et al.Towards Accurate SceneText Recognition With Semantic Reasoning NetworksC/2020 IEEE/CVF Conf

26、erence on Computer Visionand PatternRecognition(CVPR).Seattle:IEEE,2020.4 LI W,CAO L B,ZHAO D Z,et al.CRNN:IntegratingclassificationrulesintoneuralnetworkC/The2013InternationalJointConferenceonNeuralNetworks(IJCNN).Dallas:IEEE,2013.5 Lee C Y,Osindero S.Recursive recurrent nets withattentionmodelingf

27、orocrinthewildA.in:ProceedingsoftheIEEEconferenceoncomputervision and pattern recognitionC,2016:2231-2239.6 Shi B,Wang X,Lyu P,et al.Robust Scene TextRecognition with Automatic RectificationJ.2016 IEEEConferenceonComputerVisionandPatternRecognition(CVPR),2016.7 Shi J,Malik J M.Normalized Cuts and Image Segmenta-tionJ.IEEE Transactions on Pattern Analysis andMachine Intelligence,2000.CE16

展开阅读全文