邮政详情单项目中图像生成算法探究_朱浩.pdf

资源描述

1、第 39 卷第 1 期2023 年 1 月 20 Vol.39 No.1Jan2023数据作为人工智能三大支柱之一，在算法模型研发过程中扮演着重要角色，利用有限的业务数据，如何批量生成大规模且有效的相似数据集，以满足算法模型研发、迭代需求，一直是人工智能相关领域的研究重点。本文以邮政详情单数据为例，目前的业务流程是采用手工方式，将详情单地址、电话、姓名等相关字段信息录入到系统中，为后期匹配投递机构以及数据留存做准备。为提升整体录入效率，助力数字邮政建设，现采用人工智能相关技术，通过模型研发，实现详情单字段信息的自动化录入。在模型研发过程中（见图 1），正常方案整体处理流程是通过对业务数据收集

2、、业务数据筛选、业务数据标注和标注数据审核四个步骤，实现对业务图像数据的预处理，整个预处理过程周期较长。本文方案通过设计的图像自动生成算法，替换正常的预处理操作，生成 100 万张图像数据，仅需要 1 个工作日。通过图像自动生成算法，可以缩短数据标注周期，提升数据预处理效率，有效降低对实际业务数据的依赖，并满足后期识别算法研发对数据的需求，图像生成算法具体的设计过程是根据实际业务需要，分析详情单各字段数据的分布特征，利用自监督方式实现对抗网络图像生成算法结构的设计、训练，为了充分挖掘、学习各字段数据的潜在特点，设计了级联式的网络结构构建生成器；为了避免模型训练过程发生漂移，自主构建了自监督网络

3、结构；为了避免文字信息发生突变，设计了动态超参数灵活调整生成网络、自监督网络输出特征图的融合权重。1基本理论1.1卷积神经网络发展卷积神经网络（CNN）是深度学习（deep learning）的代表算法之一，它的研究始于 20 世纪80 至 90 年代，时间延迟网络和 LeNet-5 是最早出现的卷积神经网络，具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类。进入 21世纪后，随着深度学习理论的提出和数值计算设备的改进，卷积神经网络得到了快速发展，并被应用于计算机视觉、自然语言处理等领域。邮政详情单项目中图像生成算法探究朱浩，李丽*中邮信息科技（北京）有限公司，北

4、京100096摘要：为助力数字邮政建设，提升模型研发效率，文章根据邮政详情单项目研发需求，设计了一种自监督式对抗网络图像生成算法，可以自动化的生成业务图像数据，为后期模型的迭代优化提供了多样式数据支撑。其他业务场景也可采用本文设计的图像自动生成算法，利用少量的业务图像数据，结合实际的数据标准，实现图像数据的规模化生成。关键词：自监督；特征融合；对抗生成网络；动态权重中图分类号：F61文献标识码：ADOI：10.13955/j.yzyj.2023.01.04.06作者简介：朱浩（1991），男，山东滕州人，硕士，主要从事目标检测、OCR 识别等视觉算法研究；李丽（1987），女，湖南醴陵人，通讯

5、作者，硕士，主要从事人工智能研究。收稿日期：20221024本刊网址：第 1 期第 39 卷 21 本文主要利用了生成对抗网络，它主要由生成网络和判别网络两个部分组成。生成网络，通过学习训练集数据的特征，在判别网络的指导下，利用随机噪声分布拟合训练数据的真实分布，生成具有训练集特征的相似数据。判别网络，区分输入数据是真实数据还是网络生成的假数据，并反馈给生成网络。其输出结果值越小，表示该图像为真实图像的可能性越低。生成对抗网络整体训练、对抗过程一是通过不断调整生成网络参数，使生成网络模拟生成的假数据，在输入判别网络之后，输出的概率值不断提高；二是通过不断调整判别网络参数，使判别网络更准确地判

6、别出真实数据和假数据，通过这种对抗学习方式，两个网络交替训练，实现同步提升，直到生成网络生成的数据能够以假乱真，并与判别网络的能力达到一定均衡。1.2卷积神经网络特征卷积神经网络每一层有多个特征图，每个特征图有多个神经元，每个神经元的输入和前一层的局部感受野相连，是一种多层的监督学习神经网络。低隐层是由卷积层和最大池采样层交替组成，高层是全连接层，对应传统多层感知器的隐含层和逻辑回归分类器，隐含层的卷积层和采样层是实现卷积神经网络特征提取功能的核心模块，网络模型通过采用梯度下降法，最小化损失函数，实现网络权重参数逐层反向调节，通过频繁的迭代训练提高网络的精度。1.3网络结构基本组成卷积神经网络

7、结构包含卷积层、降采样层、全连接层，它的核心思想是局部感受野、权值共享和池化层，有效实现简化网络参数，并使网络具有一定程度的位移、尺度、缩放、非线性形变稳定性。卷积运算可以提取图像的特征，对原始信号关键特征进行增强，并降低噪声，操作过程是利用一个可训练的滤波器 F 与输入图像进行卷积运算，通过增加一个偏置 b，得到卷积运算结果 C（），即C（）=F（）+b。下采样层对图像执行下采样操作，保留原始信号有用的特征，同时混淆目标特征的具体位置，通过有效特征和相对位置的关联，可以缓解因形变或者扭曲对相同目标特征造成不同影响。全连接层一般采用全连接函数实现目标特征和检测结果的关联，计算出的概率值可以表征

8、图像特征，网络结构能够适应图像结构样式，进行目标特征的提取和分类，使得特征提取有助于特征分类。图像的空间特征联系是局部的，局部感受野使每个神经元可以提取目标的局部特征，在深层通过融合局部神经元提取的特征可以获取目标的全局特征，能有效减少神经元连接数量。权值共享可以减少求解参数量，降低网络训练参数，能较好地适应图像的小范围平移性，使得神经网络结构变得简单，适应性更强。2研究内容训练数据作为模型研发中重要的数据资源，不同的业务场景算法研发需要与之相适配的数据集，为了降低两者适配的关联度，提升整体研发效率。通过研发图像自动生成算法，利用自动化的数图 1模型研发流程图业务数据收集业务数据筛选业务数据标

9、注标注数据审核识别模型构建识别模型训练识别服务上线UAT环境测试图像自动生成正常方案1本文方案2朱浩等：邮政详情单项目中图像生成算法探究第 1 期第 39 卷 22 据生成方式替换业务数据收集、筛选、标注和审核四个图像预处理过程，达到降本增效目标，根据实际业务场景对训练数据的需求，采用一种自监督、对抗训练的方式，实现图像生成算法结构的构建、训练、生成相对应的数据集。通过这种方式，有效降低了对业务数据的依赖，采用本技术可以为部分生产环节向自动化、智能化转型，提供一种有效的探索方法，为其深入研究提供支撑。.1算法目标函数损失函数的作用是估计模型的预测值与真实值不一致程度（即误差），利用误差值，通

10、过反向传播的方式对模型的训练参数进行调整，并指导模型的优化方向。生成网络损失函数，如（1）所示：（1）其中，表示生成网络，表示判别网络，表示交叉熵函数，表示输入的初始图像数据。（）结果值表示判别网络把生成图像判别为真实图像的概率，1 表示真实图像，0 表示生成图像，（，（）表示判别的概率结果值与 1 的距离。判别网路损失函数，如（2）所示：（2）其中，是真实数据，H（1，D（）表示判别网络判别真实图像概率值与 1 的距离，即判别为真实数据的概率，H（0，D（G（）表示判别网络判别生成图像概率值与 0 的距离，即判别为假数据的概率。本文利用生成网络和判别网络两种损失函数，异步调整两个网络结构参数

11、，并完成同步训练，整体的目标函数公式，如（3）所示：其中，表示判别网络输出的结果值，表示生成网络输出的结果值，（，）表示的生成样本和真实样本的差异度，（，）表示在生成网络参数固定的情况下，通过最大化交叉熵损失值（，）来更新判别网络的参数，ax（，）表示生成网络要在判别网络最大化真、假图像交叉熵损失（，）的情况下，最小化交叉熵损失，（）表示一个概率分布，将分类为真实的概率；（）表示把假样本分成正样本的概率，1（）表示为把假样本分类成假样本的概率，表示对数函数。2.2编码器和解码器在计算机视觉领域，编码器主要功能是对局域像素值进行计算分析，对目标图像进行抽象操作，将高阶图像信息对应到一个简化的空间

12、中，其一般包含卷积、池化、归一化等基础操作，卷积层的作用是获取图像的局部特征，池化层对特征图像进行下采样以及稳定特征的传递，归一化层主要实现特征图的分布归一化操作，加快模型的收敛速度，最终获取目标图像的高级语义信息。解码器与编码器相反，其作用是对具有高级语义信息的图像进行上采样操作，通过处理具有高阶语义信息的特征图，对每个像素值赋予特定的目标参数值，解码器的操作主要包含反卷积运算，通过反卷积操作，恢复特征图中已损失的目标细节特征。本文设计的编码器、解码器，具体的编码、解码操作过程（见图）中，卷积层包含了卷积运算、激活运算和归一化运算；残差块层包含了多个卷积层操作和短连接操作，通过使用短连接的方

13、式实现数据特征提取、传递，该方法有效解决了数据在传递过程中特征信息丢失问题；反卷积层和卷积层重要的差别在于使用了反卷积运算，可以有效扩增特征图的尺度，显著提升目标的细节特征，而卷积运算功能则相反。2.3数据分析通过对详情单业务数据研究分析，得出整体的数据质量较差：图像边缘存在阴影、文字笔画存在缺失、模糊、文字字段信息存在重叠等问题，图像的物理特征具有较强的显著性域分布的特点，本文以实际的业务数据分布特征为标准，通过设计适应的模型结构，学习详情单潜在的域特征，以满足大规模数据的生成需求。2.4网络结构设计文字图像和其他类图像存在明显差异，文字图像具有潜在语义信息，如果生成的图像文字信息发生突变，

14、造成其包含的语义信息发生变化，就会出现文字标签信息和文字图像信息不匹配等问题，导致生成的数据无效。为了解决这一问题，通过调控数据生成的整个过程，以达到图像语义信息留存第 1 期第 39 卷 23 朱浩等：邮政详情单项目中图像生成算法探究的目标。本文设计了自监督网络结构，可实现生成网络参数自适应的调整。在整体设计过程中，通过图像融合方式，生成了一批 323203 的子图，其中，32 表示图像的高度，320 表示图像的宽度，3 表示图像的通道数，将融合之后的图像导入对抗网络中，网络结构有两个分支：生成式网络结构和自监督网络结构，设置动态的超参数调节网络融合的权重值，通过判别式网络，对生成的图像和

15、实际的图像进行判别，计算输出特征图与实际图的概率值，通过概率参数，反向调节网络参数，达到训练目的，在实际训练过程中，判别式网络和生成式网络异步训练。网络结构设计见图 3，三个编码器、解码器通过级联的方式进行连接，构建成为生成网络，在模型训练过程中，每组编码器、解码器（、）输出的特征通过判别器进行分析处理，指导对抗训练全过程，同时，每组编码器和解码器输出的特征依次传入下一个编码器和解码器，利用这种设计方式，有效增加模型结构的深度和复杂度，可以进一步提升模型的泛化能力。模型训练过程中，利用自监督方式，将生成模型输出的特征和编码器-解码器输出的特征按动态权值进行融合，指导模型学习业务数据相关特征，达

16、到模拟生成实际业务数据的目标。2.5超参数调整模型的设计包含级联的生成网络和自监督网络，这种网络结构的设计，有效避免了训练过程中模型出现漂移等情况，生成网络和监督网络两个分支输出的特征图存在对立特点，为了保证两个分支在训练过程中，可以灵活地调整参数融合的比例，本文设计了动态超参数，根据不同的迭代轮次，进行动态的权重值调整，在整体训练过程中，能够使模型快速收敛，满足模型训练要求，参数调整公式如（4）所示。（4）其中，表示两个分支融合之后，输出的结果特征图，表示生成网络输出的特征图，表示自监督网络输出的特征图，和表示两个超参数，1 且 10 。在模型训练过程中，通过设计超参数，动态调整控制生成网

17、络和监督网络两者的权重，根据设置的权重，形成了融合之后的特征图，利用公式（5）计算损失参数，对两个网络分支进行调整。（5）其中，I 表示输入图像的特征图，O 表示两个分支融合之后的特征图（公式（4）结果图），通过监督训练以及损失调整，完成最终模型的训练。2.6模型推理模型推理过程中，首先初始化输入图像的格式、像素大小以及语义信息，加载初始化图像并导入训练好的模型中，根据设定，输出详情单字段图像数据集。在实际推理过程中，主要分为三个步骤图 2编码器和解码器示例图|IO|featurefeatureloss=featurefeature 第 1 期第 39 卷 24 图 3自监督式对抗网络结构设计

18、图（见图 4），步骤 1：将待生成的文本信息写入背景为白色的底图中，初始化为文字图像，该图像的特点是背景为白色；文字轮廓、图像背景、文字完整度以及清晰度等特征比较明显，图像质量比较高；步骤 2：将初始化的图像数据加载到级联的编码器、解码器组成的生成网络中，由于推理过程中只需加载生成模型，自监督的网络结构不再起推理作用；步骤 3：利用模型参数拟合文本图像，最终输出模拟的详情单数据集，由于生成的图像特征模拟了真实的详情单数据特征，可以有效地满足后期模型训练要求。在图像文本数据生成过程中，利用收集、整理的地址数据约 100 万条，将这批文本数据初始化为图像并导入训练好的模型中，高效率模拟生成了100

19、万条详情单字段图像数据，有效解决了详情单文字识别模型研发过程中文字分布不平衡、地址信息缺失等问题。3研究结果分析3.1数据生成结果本文利用公开的文本地址数据集进行测试，该数据集包含区级及以下行政级别，有效覆盖了不同地区的地址信息，通过清洗之后，数据集约有 100万条。根据图像自动生成的处理逻辑，通过初始化操作，将本批文本数据初始化为背景为白色的图像数据，并导入训练好的生成模型中，花费一天时间，图 4推理过程网络结构图第 1 期第 39 卷 25 朱浩等：邮政详情单项目中图像生成算法探究即可高效生成 100 万条详情单图像数据。利用表 1 中的文本数据，生成的详情单字段图像特征和实际的详情单

20、字段图像具有相似的特征信息：文字信息模糊部分笔画缺失、文字周边存在噪点等情况，能够满足模型训练要求。3.2降本增效表现本文以邮政详情单业务需求场景为例，通过对业务图像数据特征统计分析，采用人工标注、图像自动生成两种不同的方式，对训练数据集进行标注处理，根据不同处理方式，从标注方式、标注时间、模型训练周期、识别准确率等多个维度进行对比分析，对比结果见表 2。一位标注人员标注 30 万张数据，需要花费约 150 个工作日，模型训练 14 天，通过测试 7 万张真实图像数据，模型识别准确率约为 84.5%；利用图像自动生成方式，生成 100 万条业务数据，仅需花费 1 个工作日，相编号第一列第二列1

21、闵行区浦江镇苏民村十四组 51 号元宝区江景之都小区 9 号楼（发 EMS）2平乐县沙子镇保和村委坝头村清河县珠江街 61 号3滨湖区稻香新村 7 号 301定海区宋都蓝郡 A 座 10084桥东区红旗楼寿县小甸镇徽府茶行5江津区重庆市江津区朱杨镇桥坪村 4 组谯城区毫州市谯城区颜集镇中康庄6兰新小区 55 号楼下河津市紫金逸园 G 号楼 20627临川区环城南路均天小区快友 5631集宁区曙光路金雕广场旁乌兰察布公园8龙文区/国贸润园 41 栋 1004赣县区里塘9天元区天台金谷 3 栋 4 楼临河区金秋华城 D 区 19 号楼 4 单元表 1文本数据展示表表 2人工标注和自动标注效果对比方

22、案训练数据/张标注方式标注时间/人天训练周期/天识别准确率A30 万人工标注150 1484.50%B100 万自动生成1 1487.53%同模型架构，训练 14 天，采用同样的训练方式，模型识别准确率可达 87.53%.自动化标注数据可以有效减少数据标注时间，利用本文研究成果，可以快速生成百万条模拟数据，生成的数据与文本标签匹配准确率达 100%，有效改善了业务数据缺失问题，同时，可以有效补充生僻字出现的频次，使地址区域覆盖更加全面，对提升识别准确率有积极作用。除此之外，本文提出的图像生成算法，在图像数据生成领域，具有较好的通用性，根据实际业务需要，采用本算法，通过微调模型的输入、输出参数

23、，可以快速完成模型的训练、测试，实现业务数据集的扩增，以满足业务模型的增量训练。参考文献1Simonyan K，Zisserman AVery Deep Convolutional Networks for Large-Scale Image RecognitionJComputer Science，2014 2Jrgen SchmidhuberDeep learning in neural networks：An overviewJ Neural Networks，20153邓力，俞栋深度学习：方法及应用M北京：机械工业出版社，20164王坤峰，苟超，段艳杰，等生成式对抗网络GAN 的研究进展与展望J自动化学报，2017（3）

展开阅读全文