基于生成对抗网络的手写汉字字库生成的设计和实现.pdf

资源描述

1、科学技术创新 2023.25基于生成对抗网络的手写汉字字库生成的设计和实现石裕林（长江大学，湖北荆州）1基于生成对抗网络的手写汉字图片生成模型的原理1.1生成对抗网络（GANs）基本原理GANs 的基本原理是通过生成器G 和判别器 D 的训练，使两部分相互对抗的过程1。GANs 的任务是训练一个尽可能完美的生成器 G，从而实现随机的噪声 z 到生成的数据 x 的映射：G(z)-x。同时训练一个尽可能完美的判别器 D，用来判断其输入的数据是来自真实样本数据集还是生成的数据。图 1GAN 网络的基础框架生成器 G 和判别器 D 模型之间进行着极大值和极小值的博弈中分别是对方的竞争对手，它用下列公

2、式表示。（1）式（1）中的 x 表示为真实图片，输入生成器 G 的z，G(z)代表其为生成器 G 输出结果，D(x)为判别器 D判断输入的真实图片是否属于为真实数据，D(G(z)为判别器 D 的输出结果，其表示输入的图片来自真实样本数据的可能性。训练过程如图 2 所示。图 2 中曲线的起伏表示其各自的数据分布，曲线Pdata(x)代表的是真实数据，曲线 D 为判别的概率，曲线 Pg(x)代表生成器生成样本的分布状况。图片下部分z 表示随机噪声，z 到 x 表示噪声输入生成器之后的分布情况。（a）状态是训练刚开始的时候，多次训练之后达到（b）状态，当训练达到（c）状态，此时生成样本已经比较接近真

3、实样本了。反复对以上训练过程进行迭代最终达到理想状态（d）。1.2基于生成对抗网络的 CycleGAN 实现汉字字体生成的原理CycleGAN 由两个相互对应的 GAN 网络所组成，这样就形成了一个环状的网络结构。这两个 GAN 网络使用两个生成器，并且自身拥有专属自己的判别器也就是说其一共有 2 个生成器和 2 个判别器2。其网络模型如图 3 所示。如图 3 所示，X 代表 X 样本空间的数据，Y 代表属于 Y 样本空间的数据。生成 G 通过输入 X 产生 Y样本空间的数据，生成的 Y 样本空间再由生成器 F 重构为 X 样本空间的原图像；与之对应的生成器 F 输入为 Y 生成的为 X，再由

4、生成器 G 重构为 Y 样本空间作者简介院石裕林（1998-），男，硕士在读，研究方向：图像压缩、机器学习。摘要：本文通过生成对抗网络（GAN）来对手写汉字字库生成进行研究，使用一一配对的数据集对目标网络进行训练。使网络能自动学习不同风格字体，来生成与用户手写汉字风格相似的汉字图片。关键词：手写汉字生成；汉字切割；生成对抗网络中图分类号院TP183文献标识码院A文章编号院2096-4390渊2023冤25-0100-04图 2生成器判别器与样本示意黑体，黑色手写，黑色手写，黑色100-2023.25 科学技术创新图像。DX 和 DY 分别是两个判别器用来判断各自的生成数据是否满足对应的样本空间

5、，从而使两种不同域的图片进行很好的转换。因此，实际上 CycleGAN 模型的目标就是学习 X样本空间到 Y 样本空间的映射。我们将这种映射关系称为 G，也就是模型中的生成器 G，G 可以将输入的样本数据 X 转换为 Y 域的样本数据即：G(X)-Y。同样的,Y 样本空间到 X 样本空间的映射可以表示为：F(Y)-X。对于映射 G(X)-Y，我们还需要一个判别器 DY对输入的生成数据判断其是否来自真实数据。由现在生成器 G 以及判别器 DY，则 GAN 损失如公式（2）所示：（2）实际上该损失其实与原始的 GAN 损失如出一辙，如果仅仅使用这一个损失进行训练明显是不行的。这是因为映射 G 完全

6、可以将 X 域的图像全都映射为 Y域中的同一张图片，这样损失就失去了它的作用。所以，作者又提出了叫做循环一致性损失。同样的对于映射 F(Y)-X，我们定义器判别器为 DX器，根据 F(G(X)近似于 X 和 G(F(Y)近似于 Y，循环一致性损失就为如公式（3）：（3）对另一个GAN 的损失进行定义为 LGAN(F，DX，X，Y)。最终的损失就由三个部分所组成如公式（4）所示：（4）那么 CycleGAN 的原理可以简单理解为：对两种不同风格的图片进行相互转换。1.3基于生成对抗网络的 Pix2pix 实现汉字字体生成的原理Pix2pix 是基于 CGAN 的网络模型，CGAN 与传统的 GA

7、N 不同，传统的GAN 生成器输入的数据只是一个随机的噪声，通过随机噪声来生成一张图片。从随机噪声z 来学习到目标图片 y：G:z寅y；而 CGAN 的生成器输入的数据不再只是单单一个随机的噪声，而是传入某一张图片 x 和某一个控制条件 z 来生成一张假图片，那么 CGAN 能通过输入的 x 和 z 来生成目标图像y：G:(x,z)寅y。那么 CGAN 的生成器 G 的目标就不仅仅是为了欺骗判别器 D 而且还需要让生成的图片满足控制条件 z。而 CGAN 中的判别器的输入数据为一个真（假）的样本图片和控制条件 y 用来判断是否满足控制条件 y。在以前的研究中我们发现，对于 CGAN 来说，如果

8、增加一个另外的损失，例如 L2 距离（生成图片与样本图片），会有更好的效果。这样判别器的损失不发生变化，而生成器的损失发生了变化。但是，在P.Isola,J.Zhu 等人文献中使用了 L1 距离（公式（5），这是因为与 L2 距离相比较，L1 距离所生成的图像会更清晰，能减少模糊的产生。（5）Pix2pix 的生成器使用了 U-Net 网络结构，U-Net加入了残差连接，将对应的 feature maps 和解码之后的与之具有相同大小的 feature maps 按照各自的通道拼接在一起，这样就可以将样本卷积之后的不同分辨率的细节保存下来。对于汉字字体图片生成来说，采用 Pix2pix 网络模

9、型需要相互匹配的数据集。两种风格字体图片的样本域中的图片需要进行配对处理。2相关数据集的处理2.1手写汉字图片的单字切割本文所使用的数据有人工手写的近 600 多个手写汉字图片作为目标生成字体和用于参考字体图片的方正楷体、方正黑体，每个共 3 755 个印刷字体图片。首先对手写汉字图片进行单字切割工作。其次利用垂直投影算法对手写汉字图片进行处理，达到单字分割的目的3。分割完成后将每张图片的背景处理为白色，得到 599 张白底黑字的手写汉字图片。最后选图 3CycleGAN 模型101-科学技术创新 2023.25择方正黑体和方正楷体作为参考字体，使用 python 生成字体库中常用汉字 3 7

10、55 个汉字图片，同样调整生成图片的大小与手写汉字图片相一致4。2.2配对数据集的生成Pix2pix 网络模型的训练需要相互匹配的数据。利用华为 OCR 对单个手写汉字图片进行识别，对处理好的 599 个手写汉字图片进行识别建立其汉字索引，用于与参考字体图片进行匹配。进行识别之后，我们就得到了即将进行训练的手写汉字索引，将参考字体图片与手写字体图片进行配对。即新建两个文件夹 A 和 B，文件夹 A 用来放参考字体图片，文件夹 B 用来放手写汉字图片，对于文件夹 A 中的每一个参考字体图片在文件夹 B 中都能找到与之同名的手写汉字图片5。将两个相互配对的字体图片进行拼接，我们能更清晰的看到参考字

11、体与目标字体的对应关系。以上工作全部完成后，我们基本已经完成了对Pix2pix 模型数据集的处理。3手写汉字图片生成模型的设计与实现3.1基于 CycleGAN 的手写汉字生成方法的设计与实现将参考字体图片作为 X 样本空间，手写汉字图片作为 X 迁移的对象 Y 样本空间，使用两个对称的GAN 网络进行训练6。模型如图 4 所示。我们希望将汉字图片样本记为 A 转换为手写汉字图样本记为 B，于是构建了两个生成器 GAB 和 GBA。代表将 A 域的图片转换为 B 域的图片、将 B 域的图片转换为 A 域的图片。使用预先处理好的数据集，共有 1 198 张汉字图片，包括 599 张方正黑体汉字图

12、片与 599 张手写汉字图片，作为样本空间 A 和 B。将 A，B 样本空间中的图片各取出 500 张为训练集，剩下的为测试集。数据集准备完毕后，进行网络的搭建，定义两个生成器和两个判别器。将判别器的 loss 定义为生成图片与真实图片的差异，假图判定的概率趋向于 0，真图判定的概率趋向于 1。使用 Adam 优化算法，初始学习率定义为 0.0002。经过 150 轮训练之后结果如图 5 所示。图 5生成过程图片展示图 5 中其左边两列为的 inputA 表示生成器 GAB的输入，FakeB 则为生成的样本空间 B 的假图片。右列的 inputB 表示生成器 GBA 的输入，FakeA 则为生

13、成的样本空间 A 的假图片。3.2基于 Pix2pix 的手写汉字生成方法的设计与实现Pix2pix 网络模型是基于 CGAN，需要一一配对的数据集，在本次实验中，我们选择方正黑体作为参考字体，手写汉字作为迁移目标图片。在进行对 Pix2pix 训练数据进行处理时，要保证每个相对的汉字图片在轮廓、位置上大致相同。所以需要对数据集进行优化、检查。对网络的基本模型确定之后，我们开始对基于Pix2pix 的手写汉字方法进行实现。定义一个生成器 GTrainer 用与训练风格 A 向风格 B 的转换和一个判别器 DTrainer 用于在输入条件为参考字体的情况下，判断输入的图片是否为真实图片。其 lo

14、ss 定义为判别输入的图片是否为手写汉字的二分器，使用 Adam 优化算法将 loss 尽量降低。初试学习率设定为 0.0001，batch_num 设置为 1，每 200 个批次的训练固化一次模型7。在进行 200 轮的训练之后，使用固化的模型进行预测，其结果如图 6 所示。如图 6 所示，经过 200 轮训练后其生成的汉字图图 4CycleGAN 网络模型结构 inputA FakeB 理想结果 inputB FakeA 102-2023.25 科学技术创新The Design and Implementation ofHandwritten Chinese Character Libra

15、ryBased on Generative Adversarial NetworksShi Yulin（Yangtze University,Jingzhou,China）Abstract:This paper will conduct research on the above topics by generating the counter network(GAN).In this paper,one-to-one paired data sets will be used to train the target network.So that the network canautomat

16、ically learn the differences between different styles of fonts,to generate Chinese characters similar tothe users handwritten Chinese characters.Key words:handwriting font generation;Chinese characters cut;generating antagonistic network片与目标汉字各方面都比 CycleGAN 模型的效果要好。综上所述，本文使用 Pix2pix 网络模型，在手写汉字的生成方面具

17、有巨大的优势。对于一些笔画少，简单的汉字生成效果与目标汉字的相似度较大，而对于一些笔画复杂的汉字生成效果有待改进。结束语本文提出了一种比较有效的使用 CycleGAN 和Pix2pix 网络模型的手写汉字生成方法。分别使用配对的和不配对的数据集对手写汉字的生成进行了尝试。分别测试了 CycleGAN 和 Pix2pix 网络模型，并在使用配对数据集的 Pix2pix 网络模型上取得了预期的结果。参考文献1张树业.深度模型及其在视觉文字分析中的应用D.广州：华南理工大学，2016.2谢玉芯.手写体汉字识别方法研究D.天津：天津大学，2010.3李国强，周贺，马锴，等.特征分组提取融合深度网络手写汉字识别 J.计算机工程与应用，2020，56（12）：163-168.4宋春晓，黄峰，靳松清，等.基于汉字笔画与结构的特征字库构造及优化J.计算机工程与科学，2019，41(5):173-181.5冯万仁，金连文.基于部件复用的分级汉字字库的构想与实现J.计算机应用，2006(3):714-716.6北京大学.一种基于深度神经网络的手写体中文字库自动生成方法:CN201710908121.XP.2018-01-30.7高灿.基于卷积神经网络的脱机手写汉字识别系统研究D.淮南:安徽理工大学，2017.图 6Pix2pix 汉字生成图片参考字体生成字体目标字体 103-

展开阅读全文