基于改进条件生成对抗网络的书法字骨架提取.pdf

资源描述

1、第 49卷第 10期2023年 10月Computer Engineering 计算机工程基于改进条件生成对抗网络的书法字骨架提取张子珺1，陈劲松2，钱夕元1（1.华东理工大学数学学院，上海 200237；2.上海宏弈源软件科技有限公司，上海 200233）摘要：书法字骨架保留书法字的结构、形态以及笔画细节，对于评价书法字笔画结构极为重要。为解决现有的骨架提取算法无法获取离线书法图像的动态信息，提出改进条件生成对抗网络的书法字骨架提取算法。为获取长距离上下文信息，将残差结构与分层空洞卷积模块引入条件生成对抗网络，并融合交叉注意力模块，以保证生成骨架的平滑性。使用谱归一化和 Leaky Re

2、LU 激活函数稳定模型训练，提升书法字骨架提取的完整性，并基于在线手写字数据集，构建伪书法字图像数据集。实验结果表明，该算法在测试数据集中的 F1值、联合交并比(IoU)和最小平均距离(AMD)分别为 0.678 2、0.515 8和 1.450 0，相较于现有骨架提取算法的最优结果，F1值、IoU 分别提高了 8.2%和 8.8%,AMD 降低了约 0.42，可有效捕获到书法离线图像的动态信息，使骨架特征更具有代表性，在书法字帖图片上表现出较优的泛化能力。同时，消融实验结果验证了分层空洞卷积模块和交叉注意力模块的有效性，可以获得更完整、光滑的字符骨架。关键词：pix2pix算法；骨架提取；分

3、层空洞卷积；交叉注意力；离线书法图像开放科学（资源服务）标志码（OSID）：源代码链接：https：/ J.计算机工程，2023，49（10）：272-279.英文引用格式：ZHANG Z J，CHEN J S，QIAN X Y.Calligraphy character skeleton extraction based on improved conditional generative adversarial network J.Computer Engineering，2023，49（10）：272-279.Calligraphy Character Skeleton Extracti

4、on Based on Improved Conditional Generative Adversarial NetworkZHANG Zijun1，CHEN Jinsong2，QIAN Xiyuan1（1.School of Mathematics，East China University of Science and Technology，Shanghai 200237，China；2.Shanghai Hongyiyuan Software Technology Co.，Ltd.，Shanghai 200233，China）【Abstract】The skeleton of call

5、igraphy characters retains the structure，shape，and stroke details of calligraphy characters，which is crucial for evaluating the structure of calligraphy characters.A skeleton extraction algorithm of calligraphy characters with improved conditional Generative Adversarial Network（cGAN）is proposed to s

6、olve the problem in which the existing skeleton extraction algorithms cannot obtain the dynamic information of offline calligraphy images.The residual structure and the hierarchical atrous convolution module are introduced into the conditional generative adversarial network to obtain long-distance c

7、ontext information.The criss-cross attention module is integrated to ensure the smoothness of the generated skeleton.By using spectral normalization and the Leaky ReLU activation function to stabilize the model training，the integrity of calligraphy character skeleton extraction is improved.The pseud

8、o calligraphy image dataset is constructed based on the online Chinese handwriting databases.The comparison experimental results show that the F1 score of the proposed method is 0.678 2，the Intersection over Union（IoU）is 0.515 8，and the Average Minimum Distance（AMD）is 1.45.Compared with the optimal

9、results of existing algorithms，the evaluation indicators F1 and IoU increase by 8.2%and 8.8%，respectively，and AMD decreases by approximately 0.42.The proposed method can capture the dynamic information of offline calligraphy images and make the skeleton features more representative.Besides，the model

10、 exhibits improved generalization ability in real calligraphy pictures.Moreover，the ablation experiment verified the effectiveness of the hierarchical atrous convolution module and the criss-cross attention module，which can obtain more complete and smooth character skeletons.基金项目：上海市促进文化创意产业发展财政资金支持

11、项目（2020011278_V0）。作者简介：张子珺（1997），女，硕士研究生，主研方向为统计计算及应用；陈劲松，助理研究员；钱夕元（通信作者），教授、博士、博士生导师。收稿日期：2022-09-19 修回日期：2022-12-11 Email：开发研究与工程应用文章编号：1000-3428（2023）10-0272-08 文献标志码：A 中图分类号：TP391.1【Key words】pix2pix algorithm；skeleton extraction；hierarchical atrous convolution；criss-cross attention；offline call

12、igraphy imageDOI：10.19678/j.issn.1000-3428.006603020概述书法以汉字为载体，承载着中华民族文化，见证了中华上下五千年的文明，是中国传统文化的重要组成部分。近年来，国家投入大量资源发展书法教育，书法逐渐走入课堂。书法学习是一个模仿、对比、改进的过程，老师在课堂中扮演的角色是对书法字进行合理评价，指导学生如何改进。一般而言，课堂上的书法字评价是老师通过书写经验主观地评判学生的书写结果，并观察学生书写过程中的姿势和运笔等给出改进建议。这一教学方式受制于教学地点的局限以及师资力量的短缺。随着互联网的飞速发展，许多教育培训机构尝试将人工智能技术应用到书

13、法教育领域，促使书法教育进一步的发展。书法字主要通过运笔改变笔画的粗细和走势以获得美感，这些特征是评价书法字体的重要依据。书法字骨架提取技术使用极少的像素信息却能保留完整的拓扑结构，传达了形状识别的关键信息，对于评价书法字符笔画结构极为重要。常见的骨架提取算法主要有基于像素点邻域的书法骨架提取算法，以 ZHANG-SUEN（Z-S）细化算法1和 AHMED-WARD（A-W）细化算法2为主，基于目标像素点在邻域上的连通性进行删除和保留操作，以此不断剥离二值图像的边界像素，直到保留物体的中轴线。基于邻域的细化算法应用到笔画骨架提取时，会产生大量毛刺、骨架非单像素宽度以及交叉区域扭曲等问题。文献

14、3-5 改进上述细化算法，消除了骨架毛刺并提取出单像素宽度的骨架。文献 5 通过模板将骨架进一步细化，引进门限机制的判定方法去除了骨架毛刺；文献 6 提出一种基于笔画连续性检测的改进算法，对骨架笔画进行了校正处理；文献 7 基于手写汉字骨架，利用局部关联度来提取笔画，定位并删除模糊区域，根据方向信息和平滑信息将属于同一笔画的笔画段连接起来以修正模糊区域的骨架畸形，但无法修正模糊区域笔画严重扭曲的情况，对一些字体的泛化能力不高。另外一类骨架提取是基于距离的算法，变体的方法主要是因为距离函数有所不同：如欧氏距离8、街市距离9或约束德劳内三角剖分距离10等。通过计

15、算目标像素点到边界的距离，找到图像中的所有局部极大值点，根据物体的拓扑结构将极大值点关联起来，生成定位准确的骨架，这类方法的困难性主要在于不能保证骨架的连通性。上述基于像素点计算的骨架提取方法通常对噪声不鲁棒，并具有较低的精度，在复杂场景下不能得到令人满意的结果。由于无法提取到图像的深度特征，提取的汉字骨架极易在交叉区域扭曲，且在骨架化的过程中无法保留笔画的原始走势，这给笔画提取以及结构分析带来了困难。近年来发展起来的深度学习算法使得提取图像的深层特征成为可能。文献 11 提出了融合与尺度相关的深度侧输出（Fusing Scale-associated Deep Side，FSD

16、S）来提取自然图像的骨架，以解决复杂场景和对象多样性带来的困难，但全卷积网络无法保证相似像素之间的平滑度，另外由于比例预测不准确，FSDS 经常产生更粗的骨架；文献 12 提出基于全卷积网络的手写汉字骨架提取方法，通过继承预训练的 HCCR-CNN9Layer13的权重并进行微调，优化数据集使得网络可以学习到手写汉字的丰富特征，但网络输出只能得到相对粗略的结果，需要通过K 均值（K-Means）聚类来消除笔画断裂问题；文献 14 使用 pix2pix cGAN 来实现 ESPI 条纹图像骨架的批量提取，相较于 Cycle GAN 和 U-Net方法，可以更快地获得准确、完

17、整、光滑的骨架，且具有一定的鲁棒性；文献 15 评估了 pix2pix cGAN 方法在几何形状理解上的效果，但近年来很少有学者在骨架提取上对 pix2pix cGAN进行改进以优化效果。本文提出一个基于改进的条件生成对抗网络的书法字骨架提取算法，可以学习到书法字图像的深层信息，端到端的生成器使得模型可以直接提取书法字骨架。使用在线伪书法字作为训练集，以获取运笔信息，使骨架特征更具有代表性。该算法通过改善现有方法在提取书法字骨架时出现断裂以及毛刺的问题，使得提取出的骨架图像能够展现书法字的形态。1pix2pix骨架提取算法条件生成对抗网络（conditional Generat

18、ive Adversarial Network，cGAN）16将监督学习的思想加入到生成模型中，每个输入的图像数据都对应一个标签。经过大量训练后可以根据网络输入的标签生成对应的输出，有效地解决了 GAN 自由生成的结果不可控的缺点，使网络朝着期望的方向生成样本。由于 cGAN 强大的图像生成能力和端到端的结构，在语义分割17、图像去雾18、图像着色19等众多领域得到了广泛应用。近年来，研究人员尝试将 cGAN应用于书法图像处理，如书法字符生成20-21、笔画分割任务22-23等，取得了较好的效果。pix2pix24属于条件生成对抗网络，通过训练配对数据，学习从输入图像到输

19、出图像的映射等。pix2pix 由生成器和鉴别器两部分组成，其条件为图片，生成器为 U-Net，可以实现图像到图像的转换。条件生成对抗网络的目的是完成输入图像 x 和随机矢量 z 到图像 y 的映射，其目标函数可表示如下：LcGan(GD)=ExylogaD(xy)+Exzloga(1-D(xG(xz)（1）pix2pix网络在条件生成对抗网络的损失函数基第 49卷第 10期张子珺，陈劲松，钱夕元：基于改进条件生成对抗网络的书法字骨架提取【Key words】pix2pix algorithm；skeleton extraction；hierarchi

20、cal atrous convolution；criss-cross attention；offline calligraphy imageDOI：10.19678/j.issn.1000-3428.006603020概述书法以汉字为载体，承载着中华民族文化，见证了中华上下五千年的文明，是中国传统文化的重要组成部分。近年来，国家投入大量资源发展书法教育，书法逐渐走入课堂。书法学习是一个模仿、对比、改进的过程，老师在课堂中扮演的角色是对书法字进行合理评价，指导学生如何改进。一般而言，课堂上的书法字评价是老师通过书写经验主观地评判学生的书写结果，并观察学生书写过程中的姿势和运笔等给出改进建议。这

21、一教学方式受制于教学地点的局限以及师资力量的短缺。随着互联网的飞速发展，许多教育培训机构尝试将人工智能技术应用到书法教育领域，促使书法教育进一步的发展。书法字主要通过运笔改变笔画的粗细和走势以获得美感，这些特征是评价书法字体的重要依据。书法字骨架提取技术使用极少的像素信息却能保留完整的拓扑结构，传达了形状识别的关键信息，对于评价书法字符笔画结构极为重要。常见的骨架提取算法主要有基于像素点邻域的书法骨架提取算法，以 ZHANG-SUEN（Z-S）细化算法1和 AHMED-WARD（A-W）细化算法2为主，基于目标像素点在邻域上的连通性进行删除和保留操作，以此不断剥离二值图像的边界像素，直到保留物

22、体的中轴线。基于邻域的细化算法应用到笔画骨架提取时，会产生大量毛刺、骨架非单像素宽度以及交叉区域扭曲等问题。文献 3-5 改进上述细化算法，消除了骨架毛刺并提取出单像素宽度的骨架。文献 5 通过模板将骨架进一步细化，引进门限机制的判定方法去除了骨架毛刺；文献 6 提出一种基于笔画连续性检测的改进算法，对骨架笔画进行了校正处理；文献 7 基于手写汉字骨架，利用局部关联度来提取笔画，定位并删除模糊区域，根据方向信息和平滑信息将属于同一笔画的笔画段连接起来以修正模糊区域的骨架畸形，但无法修正模糊区域笔画严重扭曲的情况，对一些字体的泛化能力不高。另外一类骨架提取是基

23、于距离的算法，变体的方法主要是因为距离函数有所不同：如欧氏距离8、街市距离9或约束德劳内三角剖分距离10等。通过计算目标像素点到边界的距离，找到图像中的所有局部极大值点，根据物体的拓扑结构将极大值点关联起来，生成定位准确的骨架，这类方法的困难性主要在于不能保证骨架的连通性。上述基于像素点计算的骨架提取方法通常对噪声不鲁棒，并具有较低的精度，在复杂场景下不能得到令人满意的结果。由于无法提取到图像的深度特征，提取的汉字骨架极易在交叉区域扭曲，且在骨架化的过程中无法保留笔画的原始走势，这给笔画提取以及结构分析带来了困难。近年来发展起来的深度学习算法使得提取图像的深层特征成为可能。文献 11 提出了融

24、合与尺度相关的深度侧输出（Fusing Scale-associated Deep Side，FSDS）来提取自然图像的骨架，以解决复杂场景和对象多样性带来的困难，但全卷积网络无法保证相似像素之间的平滑度，另外由于比例预测不准确，FSDS 经常产生更粗的骨架；文献 12 提出基于全卷积网络的手写汉字骨架提取方法，通过继承预训练的 HCCR-CNN9Layer13的权重并进行微调，优化数据集使得网络可以学习到手写汉字的丰富特征，但网络输出只能得到相对粗略的结果，需要通过K 均值（K-Means）聚类来消除笔画断裂问题；文献 14 使用 pix2pix cGAN

25、来实现 ESPI 条纹图像骨架的批量提取，相较于 Cycle GAN 和 U-Net方法，可以更快地获得准确、完整、光滑的骨架，且具有一定的鲁棒性；文献 15 评估了 pix2pix cGAN 方法在几何形状理解上的效果，但近年来很少有学者在骨架提取上对 pix2pix cGAN进行改进以优化效果。本文提出一个基于改进的条件生成对抗网络的书法字骨架提取算法，可以学习到书法字图像的深层信息，端到端的生成器使得模型可以直接提取书法字骨架。使用在线伪书法字作为训练集，以获取运笔信息，使骨架特征更具有代表性。该算法通过改善现有方法在提取书法字骨架时出现断裂以及毛刺的问题，使得提取出的骨架图像能够展现

26、书法字的形态。1pix2pix骨架提取算法条件生成对抗网络（conditional Generative Adversarial Network，cGAN）16将监督学习的思想加入到生成模型中，每个输入的图像数据都对应一个标签。经过大量训练后可以根据网络输入的标签生成对应的输出，有效地解决了 GAN 自由生成的结果不可控的缺点，使网络朝着期望的方向生成样本。由于 cGAN 强大的图像生成能力和端到端的结构，在语义分割17、图像去雾18、图像着色19等众多领域得到了广泛应用。近年来，研究人员尝试将 cGAN应用于书法图像处理，如书法字符生成20-21、笔画分割任务22-23等，取

27、得了较好的效果。pix2pix24属于条件生成对抗网络，通过训练配对数据，学习从输入图像到输出图像的映射等。pix2pix 由生成器和鉴别器两部分组成，其条件为图片，生成器为 U-Net，可以实现图像到图像的转换。条件生成对抗网络的目的是完成输入图像 x 和随机矢量 z 到图像 y 的映射，其目标函数可表示如下：LcGan(GD)=ExylogaD(xy)+Exzloga(1-D(xG(xz)（1）pix2pix网络在条件生成对抗网络的损失函数基2732023年 10月 15日Computer Engineering 计算机工程础上

28、增加L1距离函数来恢复图像的低频部分，生成更加清晰的图像，提高生成器的性能。与 cGAN 不同，不需要输入随机噪声z。新的目标函数表示如下：G*=argminGmaxDLcGAN(GD)+LL1(G)（2）其中：LL1(G)=Exyy-G(x)1；为超参数用于平衡两个目标函数。生成器的目标是通过使其输出与目标图像具有相同的分布来欺骗鉴别器。因此，在训练生成器时，损失函数需要最大化 D（x，G（x）。鉴别器的目标是不要将生成的图像识别为真实图像，因此它的损失函数需要最大化 D（x，y），同时最小化 D（x，G（x）。通过大量的训练，生成器产生的输出，令鉴别器无法将其与“真实”图像区分开来，而鉴别

29、器能够尽可能地检测出生成器的输出为“假”。图 1 所示为 pix2pix 模型进行骨架提取的示意图。从图 1（a）和图 1（c）可以看出，pix2pix模型可以很好地提取出骨架图。从图 1（b）和图 1（c）可以发现，骨架的整体定位在视觉上基本一致，但是骨架端点、拐点和交叉点会有一定程度上的偏移，笔画的平滑度不高。2基于改进的条件生成对抗网络骨架算法目前的骨架提取算法都是对二值图进行骨架提取，需要进行一定的预处理工作，文献 12 基于3通道图像进行骨架提取，但需要后处理来消除笔画的大量断裂。本文提出一个改进 pix2pix的书法字骨架提取算法，通过CASIA在线手写汉字数据集生成一一对应的伪

30、书法图像和骨架图像进行模型训练。将真实的书法图像输入网络，得到二值化的骨架图像来测试网络的泛化性。本文方法的总体结构如图2所示。2.1生成器架构本文使用文献 23 中没有搭载注意力机制的基于 pix2pix 的改进框架作为基线网络（Baseline），该框架将 pix2pix 生成器的 8 次下采样缩减为 6 次，在编码器阶段用 11 卷积使得特征图在传递到下一层之前实现降维，通过实验发现 U-Net 结构更适合生成笔画，残差结构可以提高每个生成笔画交叉区域的准确性。生成器架构如图 3所示。图 1基于 pix2pix模型的书法字符骨架提取效果图Fig.1Calligraphy characte

31、r skeleton extraction renderings based on pix2pix model图 2网络总体结构Fig.2Overall structure of the network图 3生成器架构Fig.3Architecture of the generator274第 49卷第 10期张子珺，陈劲松，钱夕元：基于改进条件生成对抗网络的书法字骨架提取与书法风格迁移任务不同，骨架提取不需要多样性的结果，因此可以不用执行减少参数数量的处理。生成器的 ResU-Net 结构虽然使用了跳跃连接来融合深层和浅层的语义信息，但在下采样和上采样的过程中仍会丢失大量信息。骨架提取任务

32、可以近似于语义分割任务，而骨架所占图像比例极低，需要模型学习到更为精确的像素级预测。因此，在生成器的每一层都添加了分层空洞卷积模块使模型可以学习到不同尺度下的长距离上下文信息，下采样层的激活函数使用 Leaky ReLU 函数。在模型底部搭载微调的 CCA 模块，以连续的方式学习注意力系数和偏移来获取近似全局自我注意力。通过实验发现，该模块能有效地提高笔画的连通性和平滑度，很大程度地提升了模型的泛化能力。由于希望生成一个单通道的字符骨架，因此调整生成器输出图像的通道数为 1，以此来获得二值化的字符骨架图像的近似输出。2.1.1分层空洞卷积模块空洞卷积已经被证明在很多分类和分割任务上有优异的表现

33、，书法字符的骨架提取可以看作是图像分割任务，文献25提出密集扩张卷积合并（Dense Dilated Convolutions Merging，DDCM）模块来进行图像分割，通过不断增大膨胀速率与之前不同膨胀速率的特征层并合并在一起，有效地扩大核的接受场，获得融合的局部和全局上下文信息，以促进周围的判别能力。为了让生成器在下采样和上采样的过程中捕获到更加完整的上下文信息，受上述模块启发提出分层空洞卷积合并（Hierarchical Atrous Convolutions Merging，HACM）模块，在本文任务上得到了较 DDCM 模块

34、更优的结果，如图 4 所示。首先将输入的特征图通过一个 11 的卷积，将其分别与通过不同膨胀因子空洞卷积的输出堆叠在一起馈送到下一层，然后将不同膨胀率输出的特征图堆叠在一起通过一个 33 的卷积，得到的输出与模块的初始输入堆叠在一起通过一个 11 的卷积。线性增加的扩张因子使得网络的感受野增大，减轻了上下文信息丢失。在每个卷积层中使用 PReLU激活函数，避免随着网络层数增加而梯度消失的情况。2.1.2交叉注意力模块文献 26 提出交叉注意力（Criss Cross Attention，CCA）模块以改进引入注意力机制需要消耗大量计算资源的问题。交叉注意力模块通过使用几个连续的稀疏特征图来代替

35、普通的单密度连通图，高效地获取全图的上下文信息。文献 27 通过修改交叉注意力模块并集成在 U-Net架构中来标记相对较小的数据。在基线网络上添加了 HACM 模块后，发现网络提取的骨架在指标上较大提升，但生成的骨架线条并不光滑，存在较为明显的锯齿形线条。本文将 CCA模块集成在 pix2pix生成器 U-Net架构的底部对网络进行改进。如图 5所示，区别于交叉注意力模块，在pix2pix生成器编码过程中，下采样 4次后，特征层数不再增加，因而在特征送入模块后进行 33卷积时，不进行特征层数减少的操作。2.2鉴别器架构鉴别器网络是一个 7070 像素的 PatchGan，广泛用于图像到图像转换

36、的网络架构。PatchGan输出为 3030的矩阵，矩阵中的每个值代表每个 7070的patch为真样本的概率，使得模型更能关注图像的细节信息。GAN 通常被认为难以训练，通过实验发现，对于本文的任务，到后期损失函数仍会大幅震荡，训练过程极为不稳定。Lipschitz 条件可以限制函数变化的剧烈程度，即函数的最大梯度。假设鉴别器 D：IR，其中 I 是图像空间。如果鉴别器是 K-Lipchitz连续的，即函数的最大梯度为 K，那么对图像空间中的任意 x 和y，有：D(x)-D(y)x-y（3）其中：为 L2-norm，如果 K 取到最小值，那么 K被称为 Lips

37、chitz常数。谱归一化28使得鉴别器 D 满足 1-Lipschitz 条件，已经被证明可以限制函数变化的剧烈程度来稳定模型训练。因此，将鉴别器每个卷积层后的归一化层用谱归一化替代，使用 Leaky ReLU 函数作为激活函数，如图 6 所示。通过约束鉴别器的 Lipschitz常数得到稳定的训练结果，该替代不需要额外超参数调整，计算成本相对较小。图 5交叉注意力模块Fig.5Cross attention module图 4分层空洞卷积合并模块Fig.4Hierarchical atrous convolution merging module2752023年 10月 15日Compute

38、r Engineering 计算机工程3实验与结果分析 3.1网络训练3.1.1数据集准备对于监督模型，需要准备大量的书法字及对应的真实骨架，采用人工标注骨架或细化算法提取骨架难以保留书法字的书写原始路径且丢失大量的用笔信息等。在线手写样本29通过（x，y）坐标序列记录书写过程，保留了用笔书写的过程信息，可以视为骨架，如图 7（a）所示。在此基础上，通过扩大笔画宽度，在交叉区域和端点进行膨胀腐蚀操作并控制边缘平滑度和前景灰度生成如图 7（b）所示的合成图，构成配对的伪书法字图像和骨架的学习样本。3.1.2训练细节所有实验均使用相同的设备完成，操作系统为CentOS Linux release

39、8.5.2111、显卡为 Tesla T4、处理器为 Intel Xeon Platinum 8163 CPU 2.50 GHz，在Python3.8，PyTorch1.7-cuda11.0的环境下运行。生成器和鉴别器的初始学习率设置为 0.000 2，在训练到 50 个 epoch 后学习率调整为 0.000 1，使训练结果逐步收敛，采用 Adam 优化器加速训练过程，其参数设置保持默认值，设置为 10，批训练量的大小设置为 16，在训练过程中随机改变输入图片的亮度、对比度和饱和度以提高模型的泛化性。3.2评价指标骨架提取图像为二值图，图像中像素点的灰度值均为 0或者 255，本文的任务实

40、际上是一个二分类任务。为了评价本文方法在骨架提取上的性能，采用5个常用于骨架提取评价指标进行定量评价：即准确度（ACC）、召回率（Recall）、精度（Precision）、F1 值（F1）以及联合交并比（Intersection over Union，IoU），这 5项的评价指标的定义如下：AACC=TTP+TTNTTP+TTN+FFP+FFN（4）RRecall=TTPTTP+FFN（5）PPrecision=TTPTTP+FFP（6）F1=2 PPrescision RRecallPPrecision+RRecall（7）IIoU=TTPFFP+TTP+FFN（8）其中：TTP是网络输出

41、为正确的骨架像素的数量；TTN是网络输出为正确的非骨架像素的数量；FFN是网络输出为不正确的骨架像素的数量；FFP是网络输出为正确的非骨架像素的数量。在二值化骨架图中，骨架点和非骨架点类别极度不均衡。F1值考虑了真实骨架图和生成的图像中的骨架和背景像素的数量，可以衡量骨架像素点和非骨架像素点之间类别不平衡的影响程度，值越大，影响程度越低。ACC 和 F1值越大，网络生成的骨架图像的整体结构越好，召回率和精度分数越高，生成骨架的网络性能越好，IoU 则显示了骨架定位的准确性。为了更加直观地描述不同模型的性能，文献 12 提出了最小平均距离（AMD）来度量不同模型生成

42、骨架的效果：AAMD=average(H(D)（9）其中：D 为生成骨架点和目标骨架点两两之间的欧氏距离；H 为匈牙利算法，通过求解对应骨架点集之间的最大匹配问题来计算骨架相似度。AMD 值越低，生成骨架与原始骨架的相似性越高。3.3消融实验为了验证所添加的模块的有效性，对添加模块后的网络结构进行定量分析，如表 1所示。从表 1可以看出，在基线网络上添加了 HACM 模块和 CCA 模块后，指标都有明显提升，ACC、Recall 和 Precision 指标分别为 0.983 5、0.825 4和 0.845 5，IoU 指标的提升显示出本文算法在骨架定位上的优势，AMD 指标显示出生成骨架与

43、目标骨架相似程度较高。图 7在线手写字与离线书法字Fig.7Online handwritten character and offline calligraphy character图 6鉴别器架构Fig.6Architecture of the discriminator276第 49卷第 10期张子珺，陈劲松，钱夕元：基于改进条件生成对抗网络的书法字骨架提取图 8 所示为在改进的 pix2pix 模型上，鉴别器的卷积层分别使用 Batch Normalization 和 Spectral Normalization进行模型训练过程中生成器和鉴别器损失函数的变化。其中，G_B

44、CE 和 G_L1 为生成器的二元交叉熵损失和 L1损失，D_real和 D_fake分别为真实骨架图和生成骨架图的判别损失。从损失函数的振荡情况来看，使用谱归一化的鉴别器可以得到更加稳定的训练过程。表 2 所示为不同激活函数实验结果的定量比较，可以看出修改激活函数为 Leaky ReLU 的模型相较于仅使用 ReLU 作为激活函数的模型在各项指标上都显示出更优的表现。3.4对比实验在生成器的损失函数中，L1 Loss用于生成图像的低频部分，超参数用于平衡 Gan损失和 L1损失。如图 9 所示，在=5 的情况下，L1 Loss 波动较为剧烈，而在 10、15、20 以及 25 的情况下几乎没

45、有明显区别，因此认为在本文任务中，取值不敏感，采用默认取值 10。将本文算法与 Z-S细化算法、常庆贺等5提出的改进 Z-S 细化算法、FSDS 算法、pix2pix cGAN 算法以及应用于书法图像笔画分割的改进 pix2pix 算法SSGAN 等现有的骨架提取算法进行比较分析，对比结果如表 3所示。从表 3 可以看出，本文算法与其他算法相比在性能指标上有明显提升。IoU 的显著提高表明本文算法可以获得更准确的字符骨架定位。FSDS 算法生成笔画较粗，显示出更高的精确度和较优的AMD 值，但 IoU 和 F1 值较低，表明其生成骨架在整体结构上的劣势。图 1

46、0 所示为书法字测试集在不同算法下的骨架提取效果，其中，从左到右依次为合成书法字、真实骨架、Z-S 细化算法、FSDS 算法、pix2pix cGAN、SSGAN、本文的算法。从图 10可以看出：Z-S细化算法在交叉区域扭曲严重，丢失大量信息；基于全卷积网络的 FSDS 生成的字符骨架优化了传统算法在交叉区域的扭曲，但生成笔画较粗，且有大量断点；pix2pix cGAN 算法极易产生笔画断裂的情况，难以图 9不同取值下 L1 loss的对比Fig.9Comparison of L1 loss with different values图 8骨架提取算法的局部对比图Fig.8Local cont

47、rast map of skeleton extraction algorithms表 1不同网络结构的定量比较 Table 1Quantitative comparison of different network structures模块BaselineHACMCCAACC0.979 50.982 60.983 5Recall0.786 80.819 10.825 4Precision0.791 10.822 90.845 5F1值0.587 50.650 40.678 2IoU0.419 80.485 20.515 8AMD2.181.821.45表 2不同激活函数的定量比较 Table

48、 2Quantitative comparison of different activation functions激活函数ReLULeaky ReLUACC0.981 70.983 5Recall0.810 80.825 4Precision0.807 40.845 5F1值0.626 90.678 2IoU0.459 90.515 8AMD2.031.45表 3不同算法在合成的书法字数据集上性能的定量比较 Table 3Quantitative comparison of the performance of different algorithms on synthetic calli

49、graphy character dataset算法Z-S改进 Z-SFSDSpix2pix cGANSSGAN本文算法ACC0.971 90.972 30.972 80.970 30.979 90.983 5Recall0.670 80.674 00.727 20.694 40.790 30.825 4Precision0.582 50.577 20.829 80.699 30.796 20.845 5F1值0.232 30.222 90.549 40.406 60.596 00.678 2IoU0.132 80.126 70.382 40.257 50.427 80.515 8AMD6.7

50、85.881.875.152.391.452772023年 10月 15日Computer Engineering 计算机工程获得相对平滑的骨架；SSGAN 算法十分接近原始骨架，但无法准确地分隔开粘连部分的骨架，更易产生脏背景的情况；采用本文算法的骨架提取结果最接近真实骨架，笔画连贯清晰，形态自然。为了评价网络的泛化性，随机拍摄了字帖上的书法字进行骨架提取，并将其与其他骨架提取算法的提取结果进行了比较。图 11 所示为本文算法与传统基于邻域的骨架提取算法的局部对比。从图 11中笔画的局部可以看出，改进 Z-S 算法可以在保证骨架连通性的前提下去除冗余像素，但骨架交叉区域的扭曲情况无法改善。值

展开阅读全文