基于字符扰动变形和字库替换的鲁棒中文文本水印.pdf

资源描述

1、密码学报ISSN 2095-7025 CN 10-1195/TNJournal of Cryptologic Research,2023,10(4):769785密码学报编辑部版权所有.E-mail:http:/Tel/Fax:+86-10-82789618基于字符扰动变形和字库替换的鲁棒中文文本水印*姚晔1,刘书辉1,王慧1,李琛璞1,李黎21.杭州电子科技大学网络空间安全学院,杭州 3100182.杭州电子科技大学计算机学院,杭州 310018通信作者:王慧,E-mail:摘要:为了解决当前中文文本数字水印鲁棒性低、无法适用于非格式化文件等问题,提出了一种基于汉字字符扰动变形和字

2、库替换的鲁棒中文文本水印方法.通过修改汉字的笔画结构特征来生成扰动变形汉字字库,将同一汉字字符的不同扰动变形进行编号实现水印信息嵌入.根据汉字的使用频率及字符之间的相关性,设计了一种扰动变形字符分组算法,以提升水印嵌入和提取的效率和性能.通过仿真实验确定了最佳的分组长度以及适宜的变形字符数量,并通过消融实验和对比实验来证明本文方法的有效性.在手动设计的变形字库中使用本文方法可以将水印的提取准确率提升 12.96 个百分点,在通过网络模型自动生成的变形字库中本文方法也能将水印提取准确率提高 13.30 个百分点,表明了本文方法的可用性和普适性.对于常见的数字噪声干扰,本文方法在实验中也表现出了更

3、强的鲁棒性.此外,还测试了针对载体不完整情况下的水印提取效果,展现了本文方法的高容错性和通用性.关键词:中文文本水印;汉字字符特征;打印扫描攻击中图分类号:TP309.7文献标识码:ADOI:10.13868/ki.jcr.000627中文引用格式:姚晔,刘书辉,王慧,李琛璞,李黎.基于字符扰动变形和字库替换的鲁棒中文文本水印J.密码学报,2023,10(4):769785.DOI:10.13868/ki.jcr.000627英文引用格式:YAO Y,LIU S H,WANG H,LI C P,LI L.Robust Chinese text watermarking method based

4、on Chinese character glyph perturbation and font replacingJ.Journal of Cryptologic Research,2023,10(4):769785.DOI:10.13868/ki.jcr.000627Robust Chinese Text Watermarking Method Based on ChineseCharacter Glyph Perturbation and Font ReplacingYAO Ye1,LIU Shu-Hui1,WANG Hui1,LI Chen-Pu1,LI Li21.School of

5、Cyberspace,Hangzhou Dianzi University,Hangzhou 310018,China2.Computer&Software School,Hangzhou Dianzi University,Hangzhou 310018,ChinaCorresponding author:WANG Hui,E-mail:Abstract:In order to solve the problems of low robustness of current Chinese text digital water-marks,unsuitable for unformatted

6、files,a robust Chinese text watermarking method based on Chinesecharacter perturbation deformation and font library replacement is proposed.This method generatesa perturbed and deformed Chinese character library by modifying the stroke structure characteristicsof Chinese characters.Different perturb

7、ed deformations of the same Chinese character are numbered*基金项目:国家自然科学基金(62172132)Foundation:National Natural Science Foundation of China(62172132)收稿日期:2022-06-26定稿日期:2022-11-06770Journal of Cryptologic Research 密码学报 Vol.10,No.4,Aug.2023to embed the watermark information.According to the use frequen

8、cy of Chinese characters and thecorrelation between characters,a perturbed and deformed character grouping algorithm is designed toimprove the efficiency and performance of watermark embedding and extraction.The optimal group-ing length and the appropriate number of modified Chinese characters are d

9、etermined by simulationexperiments,and the effectiveness of the method in this paper is proved by ablation experiments andcomparative experiments.Using this method in the manually designed deformed font can improve thewatermark extraction accuracy by 12.96 percentage points,and in the deformed font

10、automaticallygenerated by the network model,the proposed method can also improve the watermark extraction ac-curacy by 13.30 percentage points,which shows the usability and universality of the proposed method.For common digital noise interference,the method in this paper also shows strong robustness

11、 in ex-periments.In addition,this paper also tests the watermark extraction effect for incomplete carriers,demonstrating the high fault tolerance and versatility of this method.Key words:document watermarking;Chinese character features;printing and scan attack1引言在信息数字化背景下,多媒体信息在人们的工作生活中得到广泛应用,虽然极大地提

12、升了信息处理和传播的效率,却也带来了信息泄露和非法传播等安全问题.如何有效解决多媒体信息等安全传播问题一直备受研究人员关注.而数字水印技术1为解决这一问题提供了一种有效途径.目前针对图像、视频、音频的数字水印技术已经相对成熟,因为这类数字信息中都有大量的冗余信息来嵌入水印信息.但是,文本的冗余信息则相对较少,因此如何有效地在文本信息中添加数字水印是相对较困难的2.在日常生活中,许多重要文本还时常通过打印、扫描的方式,以纸质载体的形式进行传输3.在一些敏感部门,机密文本很可能通过打印和扫描的方式泄露.而在智能手机广泛普及的今天,泄密者甚至只需要使用手机对纸质文档进行拍照或是对显示文本的屏幕进行拍

13、摄,便可以轻易避开监控系统日志的追踪,从而将文本信息泄露出去.屏幕拍摄可以说是一种新型的攻击方式,在拍摄的过程中会引入更多的失真和干扰,因此相对于打印和扫描过程来说更加复杂.屏幕拍摄过程的复杂性和屏幕显示内容的不确定性使得文本文档的泄密溯源和内容认证工作极其困难.当前中文文本数字水印技术发展迅速,但却仍然存在着水印容量偏小、鲁棒性低等问题,而抵抗新型拍摄攻击的能力也非常有限.此外,现有方法往往仅适用于具有固定格式的数字文本文件(如 PDF、OFD 文件等),而对于纯文本(非格式化)电子文件则难以实现水印的嵌入4.因此,当下亟需一种新的数字文本水印方法来有效解决前述这些问题.近期,一种基于字符几

14、何特征的文本水印方法58再次受到研究人员的关注.这类方法是直接通过修改字符的不同流形、笔画、形状、大小以及亮度等特征来映射不同的水印信息.相较于传统的文本水印方法,修改字符特征的方法更为直观,并且在水印容量、鲁棒性和视觉质量上都有不错的表现.但在现有的这类方法中仍然存在着以下问题:(1)字符的设计和生成依然存在设计复杂且难度大的问题.由于中文汉字数量众多且书写样式复杂不一,仅常用汉字便有三千五百多个.因此,为了确保方法的水印容量和适用范围,生成一款中文字库往往需要设计至少三千多字.同时,字符的手动设计和修改操作以及深度学习模型的推理和调优,都需要大量的专业知识,这显然将耗费大量的人力物力.若能

15、够在不影响方法水印容量和适用范围的前提下,减少字符所需设计和修改的数量,那么这类方法的工作难度将大大减轻.(2)方法实际应用时的鲁棒性较低.在基于字库生成和替换的文本水印方法中,提取水印的常用做法是对含水印的文本图像进行字符分割,然后对分割得到的字符与模板字符进行图像匹配来得到水印信息.在前述 Qi 等人7的方法中,对于打印和扫描虽然具有不错的鲁棒性,但其中的水印嵌入流程是根据文本字符依次顺序替换不同字形来嵌入水印信息,提取时也是顺序依次提取.然而在实际应用时,往往需要嵌入信息量较大的水印序列,在水印提取过程中,一旦因为噪声干扰而导致其中少数字符提取失败,那么就会影响到整个水印序列的准确提取.

16、尤其是在纸质文档拍照和屏幕拍摄的过程中会引入更多的失真和干扰,从而影响完整水印序列的正确提取.而孙杉等人的姚晔等:基于字符扰动变形和字库替换的鲁棒中文文本水印771方法9则完全不适用于打印拍照和屏幕拍摄的场景.因此,需要一种改进方法来提升水印的鲁棒性,并使其能够适用于拍照泄密溯源的场景.为此,本文提出了一种基于汉字字符扰动变形和字库替换的鲁棒中文文本水印方法,用来解决前述方法中存在的问题.其中,本文方法的性能并不受生成水印字库的方式所约束,不论是通过手动修改笔画特征或是网络模型扰动来生成变形字库,方法在水印提取率和稳健性都具有不错的表现.本文方法的主要贡献如下:(1)本文基于汉字的统计频率特

17、征及汉字之间的相关性,设计了一种字符分组算法来对扰动变形后的常用高频字符进行分组.依赖于该分组算法,在保证水印容量和适用范围的前提下,仅需修改一千个左右的常用高频汉字来生成扰动变形字库,就能够较为准确地提取出嵌入的水印序列.本文方法不仅提升了水印嵌入和提取的效率和性能,还减轻了变形字库设计和生成的工作难度.(2)本文方法是一种无序的水印嵌入和提取方法.在水印嵌入时,将生成的扰动变形字库替换安装到计算机终端,一方面能够实现将水印实时并且随机地嵌入到文本内容之中,另一方面则能够适用于非格式化文件的水印嵌入.而在提取时则是利用分组算法所生成字符分组将无序提取的不同水印进行归并排列,同时采取投票算法来

18、剔除错误识别的水印位,从而提取出正确完整的水印序列.因此,在实际的泄密溯源应用场景中本文方法具有更强的鲁棒性.(3)本文通过仿真实验确定了最佳的字符分组长度以及适宜的修改汉字数量,并通过消融实验和对比实验来证明方法的有效性.在手动设计的变形字库中使用本文方法可以将水印的提取率提升12.96 个百分点,而在通过网络模型自动生成的变形字库中本文方法也能够将水印的提取率提高13.30 个百分点,这表明了本文方法的有效性和普适性.此外,本文还对常见的数字噪声干扰场景、以及文本载体不完整的场景进行了水印的嵌入和提取实验,在实验中本文方法表现出了更强的健壮性和容错性.本文剩余内容分为以下几个部分:第2节简

19、要概述了文本水印方法研究的相关工作和进展;第3节详细介绍了本文所提出的方法;第4节为实验结果与分析;第5节为结束语.2相关工作传统数字文本水印通常通过调整间距1014、同义词或句法替换1528来编码水印信息,或采用图像水印的方法进行黑白像素翻转来嵌入水印信息2936.此外,还有一些方法3641则针对 PDF38,39、OFD41这类固定的文件格式,通过解析文件格式的特殊对象来嵌入水印.事实上,数字文本水印方法所需要解决的基础问题是如何设计一种合适的水印嵌入算法,因此部分研究者们将研究重心放在了文本中的字符对象本身,提出了一类基于字符特征修改的文本水印方法.基于字符特征的文本水印方法58,414

20、8又可以分为手工设计字符特征的方法57,4147和基于深度学习生成水印字符的方法8,9.2.1基于手工设计字符特征的方法研究早期,刘东等人5提出了一种基于人类心理认知特征的文本数字水印技术,通过改变字符字形的拓扑结构,设计出语义上相同的字符的多种字形,并对这些字形的拓扑结构进行恰当的编码,利用字符(或者字符串)的拓扑结构来携带数字水印信息.这种方法实际上就是通过修改字符笔画的长短来改变字符笔画之间的连断关系,从而改变字符字形中独立连通区域或独立封闭区域的个数,利用字形的独立连通区域个数或是独立的封闭区域个数,对水印信息进行编码,使得汉字字符具有了携带数字水印信息的能力.同时,该技术还设计将改变

21、字体拓扑结构后的字体映射为图,利用图论的相关原理达到嵌入水印的目的.但这项技术存在视觉效果差、字体修改工作量大和水印提取识别率较低的问题.针对以上问题,李晓妮等人48提供了一种基于图像特征匹配的水印方法,该方法通过提取并修改字符图像中的稳定特征点来嵌入水印信息,然后通过对水印字符图像中的结构特征点进行匹配来提取并识别所嵌入的水印信息.方法中所述的特征点为字符图像中一个笔画与另一个笔画在非端点处连接所形成的结构,例如交叉点、拐点等.这种方法的具体操作是通过移动特征点的位置、修改特征点的类型以及改变笔画线特征向量象限分布等方式来嵌入水印信息.772Journal of Cryptologic Re

22、search 密码学报 Vol.10,No.4,Aug.2023类似地,亓文法等人6通过延长或是缩短字符笔画来修改字符对象特征点中的连通分支数目,建立修改后的字符集合并获得新字库文件.在将电子文档打印输出时,对文本内容中的字符对象进行字库动态替换,根据水印信息来决定使用的是原始字库或是修改后的字库,实现水印信息的嵌入.此外,Qi 等人7提出了一种抗打印扫描的中文文档水印方法.它是通过修改字符对象中笔画的相对位置来嵌入水印信息,例如笔画左移代表嵌入水印比特信息“0”,右移则表示嵌入比特“1”,设计生成特殊的矢量字库.根据不同的字形承载不同的水印信息位生成修改后的字符模板和水印码表,通过动态替换字

23、符来嵌入水印信息.在文档传输后,对文档内容进行字符分割和文字识别,利用快速归一化互相关方法对字符和修改后的字符进行模板匹配,从而得到水印信息.Liu 等人41基于类似的思想提出了一种基于 OFD 格式的电子票据生成和安全认证方法,将水印信息嵌入在电子票据内容中,并使用动态规划的思想改进了字符图像匹配的速度和准确率,实现了电子票据内容的完整性、真实性和安全性.2.2基于深度学习生成水印字符的方法随着深度学习的快速发展,目前也出现了一些使用深度学习方法来生成扰动变形字库的水印方案.Xiao 等人8根据水印信息对英文字符的特征进行一些轻微的扰动来生成水印文档,设计了一种称为FontCode 的英文文

24、档水印方法.在 FontCode 中作者首先是利用多种字体库来生成模型的低维流形,并为字体构造一个扰动符号的水印信息码表.在水印嵌入时,根据水印信息来选择码表中的扰动类型,在原始的文本文档中将字符替换为扰动后的字符来实现水印嵌入.而在提取水印阶段,通过光学字符识别(OCR)技术识别含水印文档中的每一个字符,并进行字符切分.最后将每一个字符图像输入到一个由卷积神经网络构造的简单分类器中,得到图像的预测标签实际上就是字符所承载的水印标签,组合所有的水印标签即可获得完整的水印序列.虽然这个方法具有很好的视觉质量和鲁棒性,但是却只适用于字母或数字这类简单的字符.而由于中文汉字往往具有更为复杂的拓扑结构

25、,因此 FontCode 很难生成高质量的中文汉字字体流形.为了解决 FontCode 无法生成中文字符的问题,孙杉等人9提出一种基于变形字库自动生成的中文文档水印方案,其中使用了时下流行的 GAN 网络思想来生成中文字库.该方法中包含三个阶段,分别为水印字库生成与解码器训练阶段、水印嵌入阶段和水印提取阶段.在第一阶段中提出了一种基于深度神经网络的变形字体生成网络,能够在自动生成中文变形字的同时保证字符特征在打印扫描场景下的鲁棒性.利用编码-解码器网络生成字符图像,并通过专业工具将其转换为字库文件,从而实现变形字库的生成.在水印嵌入阶段,通过切分原始文档来获得单个字符,并根据水印来选择字库中的

26、文字,由此生成水印文档.含水印文档在经过截屏或打印扫描传输后,通过字符分割来得到单个字符图片,并将其送入到第一阶段中训练好的解码器进行水印信息的提取.一旦文档在泄露后被捕获,就能由此提取出水印信息从而实现泄密来源的追踪.类似地,Wang 等人10提出了一种汉字字形扰动的字体迁移方法 Glyph-Font,其中基于并行自编码器所设计的生成器网络更加关注于变体字形中笔画的位置,并通过计算汉字的真实图像与生成图像之间的差异来优化网络,定义了扰动损失和块像素损失来修正生成错误的像素并由此区分生成的汉字中笔画的位置变化.此外,Glyph-Font 还能够由一到多地通过字体迁移来生成多个变形汉字,生成的变

27、形汉字美观且具有良好的视觉不易察觉特性,在信息隐藏场景中具有较高的实际应用价值.基于深度学习生成水印字符的方法解决了传统手工设计特征方法中存在的特征设计复杂、工作量大以及视觉质量相对较低的缺陷,并且能够以端到端的形式实现水印提取和嵌入的完整流程.但这类方法也存在缺点,例如需要手动进行大量的字体流形或水印标签的标注、生成模型的训练需要较大的计算资源等.此外,现有的方法往往是针对格式固定的版式类文件进行动态的字符替换或是嵌入水印信息,无法实现非格式化文本的水印嵌入.在实际的应用过程中,顺序替换字符以嵌入水印的方法在鲁棒性方面也不能令人满意.因此,本文提出了一种基于汉字字符扰动变形和字库替换的鲁棒中

28、文文本水印方法,相较于现有方法,本文方法具有更高的提取率和更强的稳健性.姚晔等:基于字符扰动变形和字库替换的鲁棒中文文本水印7733本文方法3.1方法概述本文提出了一种基于汉字字符扰动变形和字库替换的鲁棒中文文本水印方法,它包含了水印嵌入和水印提取两个主要部分.在第一部分中,首先统计数据集中的汉字和二字词语以及它们的出现频率,对于出现频率较高的高频常用汉字,利用字体修改工具将其笔画结构特征适当修改来产生四种不同的变形汉字,其中每一种变形汉字都映射着 2 位水印比特信息.根据统计的汉字及词语的频率特征,本文设计了一种基于汉字频率及汉字之间相关性的字符分组算法,并根据算法对变形汉字进行划分来生成

29、变形字集合.而待嵌入的水印信息将会被转换成二进制序列,以每 2 位划分为一组.依据每一组水印信息来选择对应字符分组中的一种变形汉字,并将它们与未变形字融合生成字库文件.最后将字库文件安装到计算机终端中替换原有字库文件来完成水印的实时嵌入.在第二部分中,本文方法将获取到经过跨媒介传输后的含水印文本图像,首先对其进行图像预处理操作,将数字图像转换为二值化图像;然后,将经过处理后的图像以字符为单位进行切分,获得单个字符图像集合,采用基于分块的字符图像匹配算法,将切分图像集合与标准变形字库中的扰动变形字符图像进行匹配,识别出切分字符图像属于哪一种变形,从而提取出其承载的水印信息;最后利用嵌入时生成的汉

30、字分组,将匹配识别的字符和水印信息归并到汉字分组中,通过投票策略进行纠错后,提取出完整正确的水印信息.下面将对本文方法进行详细描述,为了方便后续的阅读和理解,表1首先给出了符号约定.表 1 符号约定Table 1Symbol stipulations符号定义n常用高频汉字的个数;m常用高频词语的个数;p(x)汉字 x 的统计出现频率;p(y)汉字 y 的统计出现频率;p(x,y)汉字 x 和汉字 y 组成词语的统计出现频率;PMI(x,y)汉字 x 和汉字 y 之间的点间互信息值,其中,PMI(x,y)=log2p(x,y)p(x)p(y);K汉字分组的长度;C常用高频汉字集合,其中 C=c1

31、,c2,cn,ci为第 i 个汉字;W常用高频词语集合,其中 W=w1,w2,wm,wj为第 j 个汉字;G汉字分组,其中 G=g1,g2,gk,gk为第 k 个汉字;pci汉字 ci的统计出现频率;pwj词语 wj的统计出现频率;pgk第 k 个分组 gk中汉字的累计频率,其中 pgk=pc1+pc2+pcz,z 是分组 gk中汉字的个数;ThPMI 的最大阈值;S切分字符图片集合,其中S=s1,s2,sl,sl为切分得到的第 l 个字符图片;S含水印字符图像,其中 S=s1,s2,st,st为含水印的第 t 个字符图像;T标准变形字库,其中 T=T001,T011,T101,T111,T0

32、02,T012,T102,T112,T00n,T01n,T10n,T11n,Ti为第 i 个含水印信息的变形字;V图像的特征向量.774Journal of Cryptologic Research 密码学报 Vol.10,No.4,Aug.20233.2水印信息嵌入3.2.1字符扰动变形本文采用基于手动修改字符笔画结构特征的方法7来生成变形汉字,这主要是因为网络模型自动生成的方式不够稳定,其生成的扰动变形字符在水印提取过程中识别效果稍弱于手动生成的变形字符.但需要注意的是,本文方法具有良好的普适性,因此扰动变形字符设计和生成的方式并不会对本文方法的性能产生显著影响,不论是采用手动设计的方式

33、或是网络模型自动生成的方式,本文方法的提取率和鲁棒性均能保持稳定,这些将在4.3节的实验环节中进行验证.具体地,本文通过适当修改汉字字符中笔画的水平位移或垂直位移来产生变形字符.首先统计文本数据集中汉字和二字词语以及它们出现的频率,并获取其中的前 n 个高频汉字和前 m 个高频词语.依次对每一个高频汉字中的笔画进行四种不同的修改操作,产生该汉字对应的四种互不相同的扰动变形字符.对于每一种变形字符,使用两位二进制数对其进行编号,即四种变形可以分别表示“00”,“01”,“10”,“11”四种不同的 2 位水印信息.变形字符的设计方法如图1所示,其中汉字字符“学”中的笔画横和两点分别在水平或垂直方

34、向修改其位移,从而产生四种互不相同的变形字符,且分别代表不同的水印信息.手动将笔画进行微小的扰动或位移既能够保证变形字符的美观,也能确保水印能够较为准确地识别和提取.图 1 变形字符设计Figure 1 Design of character perturbation deformation3.2.2字符分组算法本文设计了一种字符分组算法如算法1所示,在水印嵌入时将会根据水印信息来选择不同分组中的不同变形汉字.其中分组算法将分为两次划分,第一次是根据汉字的使用频率进行简单划分,然后再对该简单分组进行二次精确划分.精确划分的依据则是各分组中汉字之间的点互信息(pointwise mutualin

35、formation,PMI)值.点互信息通常用于度量事物之间的相关性,而在自然语言处理的文本分析领域中,可用其计算词语间的语义相似度.PMI 的基本思想是统计两个词语在文本中同时出现的概率,如果概率越大,其相关性就越大,关联度就越高.受此启发,本文将其用于计算各分组中汉字之间的相关性.如果汉字x 和 y 无法组词,则 p(x,y)=0.而汉字 x 与 y 的相关性越大,PMI(x,y)的值就越大,反之则 PMI(x,y)值就越小,如果两者不相关,则 PMI(x,y)就等于 0.字符分组算法中,第一次简单分组的具体做法是:将 n 个高频常用汉字按照统计的频率,由大到小进行排序,对于前 K 个汉字

36、依次划分到 K 个汉字分组中,并记录每个分组中汉字的累计频率.其余的 nK个汉字,则依次将每一个汉字添加到累计频率最小的分组中.这样的做法是为了使得 K 个汉字分组中每一组的字符累计频率能够尽可能平均.姚晔等:基于字符扰动变形和字库替换的鲁棒中文文本水印775算法 1 基于汉字频率及相关性的分组算法输入:分组数 k,阈值 Th,常用高频汉字集合 C,高频词语集合 W.输出:汉字分组 G.1初始化汉字分组 G=g1,g2,gk 为空,每一组的累计频率 pgi=0;2将 C 按照频率 pci由大到小排序,将 W 按照频率 pwi=0 由大到小排序;3for ciin C do4计算分组累计频率

37、pgi最小的分组 gi,将汉字 ci添加到 gi中;5end6for giin G do7for cx,cyin gido8计算分组 gi中汉字 cx和 cy之间的 PMI 值 PMI(cx,cy);9if PMI(cx,cy)Th then10选择 cx和 cy中频率较小的从分组 gi中取出,并将其添加到其余分组中累计频率最小的那一组;11else12continue;13end14end15end16return G=g1,g2,gk.在汉字简单分组之后,对 K 个汉字分组进行精确划分.具体做法是:利用统计的高频二字词语及其出现频率,对于 K 个汉字分组,依次计算每一个分组中任意两个汉字

38、x 和 y 之间的 PMI 值,如果 PMI 不等于 0,则将使用频率较小的汉字 x 或 y 从原分组中取出,然后将该汉字添加到其余分组中累计频率最小的那一分组.由此循环迭代多次,直到 K 个汉字分组中每一个分组内的汉字两两之间都不相关,即 PMI等于 0,则完成汉字的精确分组.然而,由于汉语组词的多样性,当选取的高频常用汉字较多时,可能无法实现每一分组中的汉字都不相关,从而导致算法进入无限循环.因此,可以设置一个阈值,当 PMI 值小于该阈值,就说明两个汉字之间相关性较小,则可以将其视为不相关,并将它们划分在同一分组内.为了更好地理解分组算法,我们将进一步举例说明.假设选择前 1000 个高

39、频汉字组成高频汉字集合C 来生成扰动变形,且假定需要嵌入的水印信息长度为 32 比特.因此需要将 32 比特信息划分为 16 组并编号为 116,然后利用本文所提出的分组算法将 1000 个高频汉字划分到 16 个分组当中,每一组中的单个字符则承载 2 比特信息.第一步是进行简单分组.具体地,首先将 1000 个高频汉字按照字符频率大小由高到低进行排序,其中将第 116 个汉字依次归并添加到编号 116 的分组当中,并对每一个分组记录当前分组中的累计字符频率;对于剩余的第 171000 个汉字则是每次都添加到累计字符频率最小的分组中,其中每次添加完一个字符分组的累计字符频率都要更新;在简单分组

40、完成后,16 个分组的字符累计频率会趋于均衡.第二步则是进行二次精确分组.具体地,首先选择统计的前 1000 个高频二字词语组成高频词语集合W;然后在已完成第一步的每一个分组中,依次计算分组内两两汉字之间的 PMI 值,如果 PMI 值大于所设定的最大阈值,则将单字符频率较小的字符从原分组中取出,并将其添加到其他分组中累计字符频率最小的那一组.例如,假设单字符“我”和“们”经过简单分组后都被划分在编号为 1 的组中,且字符频率分别为 0.3969 和 0.3041,而它们能够组成词语“我们”,并且存在于高频词语集合中,其词频为 0.1901,因此计算“我”和“们”字之间的 PMI 值为 0.6

41、554,大于设定的阈值,因此将单字符频率较小的“们”字从编号为 1 的分组中取出,添加到编号 216 的其他分组中累计字符频率最小的一组,同时更新分组的累计字符频率.再次假设分组 1 中存在“我”和“个”字,由于其不管是组词为“我个”抑或是“个我”都不存在于高频词语集合 W 中,因此将不做处理.对于其他分组及分组内其他字符则以此类推.3.2.3水印嵌入在完成汉字分组后,建立分组、汉字、水印信息和变形字符的索引表.将待嵌入的水印信息转换为 01比特序列,并将水印序列按照每 2 位一组切分为与汉字分组同样长度的 K 组.根据每一组水印位串,选择汉字分组中每一组汉字对于水印位串所对应的变形字,并生成

42、变形字集合.例如第一组的水印位串为“01”,则选择第一组高频常用汉字中每一个汉字编号为 01 的变形字,以此类推.将变形字集合与其他未变形的776Journal of Cryptologic Research 密码学报 Vol.10,No.4,Aug.2023非常用汉字进行融合,通过字体工具生成为字库格式的文件类型(例如 ttf、ttc 文件等).将生成的字库文件安装到计算机终端,替换终端中的原字体文件,即可实现水印的实时嵌入.当终端在显示或是输出文本文档时,所使用的便是生成的含水印字库.水印信息嵌入过程如图2所示,假设水印信息分组长度和汉字分组长度为 16,当待嵌入的第 1 组水印信息为“0

43、0”时,则在变形字分组中选择每一组内编号为“00”所对应的扰动变形字“的”、“会”等生成变形字集合.图 2 水印嵌入过程Figure 2 Process of watermark embedding3.3水印信息提取水印信息提取的过程主要包含图像预处理、字符匹配和水印提取三个部分.由于文本图像通常由含水印的电子文档通过打印扫描、纸质文档拍照、屏幕捕获和拍照等方式获得,过程中将不可避免地引入噪声和失真,因此图像预处理算法的优劣将直接影响到后续的字符匹配以及水印信息提取的准确率.在字符匹配过程中,将预处理后的文本图像,以字符为单位切分为独立的字符图片.利用基于块的图像匹配算法,将切分的字符图片与标

44、准变形字库进行匹配,从而得到每个字符所承载的比特信息.最后,利用与嵌入时相同方式获得的汉字分组,将分割得到的字符和比特信息归并到分组中,经过投票纠错策略后,得到完整的水印信息序列.3.3.1图像预处理对文本图像进行预处理操作,获得二值化图像.文本图像经过跨媒介传输后会存在一定的噪声和失真,因此需要对其进行图像预处理以方便后续的水印提取.首先采用 OTSU 算法49对文本图像进行二值化处理.然而当文本图像是由拍摄而来时会存在图像光照不均的情况,此时 OTSU 的处理会在图像区域产生错误边缘现象,因此,本文在处理时采用图像分块的方法,将文本图像进行分块后,对多个图像分块分别取OTSU 阈值,从而使

45、光照不均匀的图像也能得到较好的文字与背景分离效果.由于文本图像中字符笔画之间可能存在粘连、断裂或是偏移的现象,因此在二值化处理之后,利用均值滤波以及膨胀、腐蚀等图像形态学操作使字符更加清晰.此外,若是通过纸质文档拍照或是屏幕拍照来获取文本图像,则还需要在预处理过程中应用仿射变换以及霍夫变换法对文本图像进行矫正,并通过锐化来进一步降低光照强度对图像的影响.3.3.2字符匹配字符匹配算法是水印提取过程中的关键算法,其中,该算法的输入是经过预处理的含水印文本图像和标准变形字符图像,输出则是图像中所有字符承载比特信息.字符匹配算法的主要流程如下:姚晔等:基于字符扰动变形和字库替换的鲁棒中文文本水印7

46、77(1)将经过前处理的二值化图像,按照字符为单位,分割为独立的字符图片,得到切分字符图片集合,记为S.(2)对集合S 中的每个中文字符,依次判断该字符是否属于常用高频汉字集合 C 中的字符.若是,说明该字符在标准变形字库中存在对应的变形字符,承载了水印信息,则将该字符加入到含水印字符图像集合 S 中;若不是,则忽略该字符,继续判断该集合中的下一个中文字符.(3)从集合 S 中依次取出扰动变形字符图片 Si,从标准变形字库 T 中提取字符 Si对应的四个扰动变形字符图像,记为 T00i,T01i,T10i,T11i;将这 5 张字符图片缩放到相同的尺寸 M N.其中,M和 N 为 16 的倍数

47、,本文中均取值为 256.(4)将字符图片 Si和标准扰动变形字符图 T00i,T01i,T10i,T11i,分别划分为若干个 1616 像素大小的小方块,并统计每个小方块中字符像素点的个数.将每个字符图像计算得到的像素点个数序列表示为特征向量,则得到字符图片 Si的特征向量 Vi,标准扰动变形字符图像 T00i,T01i,T10i,T11i的特征向量 V00i,V01i,V10i,V11i.(5)将特征向量 Vi和特征向量 V00i,V01i,V10i,V11i分别做归一化处理.(6)分别求特征向量 Vi和四个特征向量 V00i,V01i,V10i,V11i的欧氏距离,记为相似度.(7)取相

48、似度最匹配的特征向量,作为字符匹配的结果,得到提取的 2 bit 秘密信息.例如,若 Vi和特征向量 V10i的欧氏距离最小,则认为字符图片 Vi携带了水印信息比特 10.(8)重复步骤(3)(7),完成剩余字符图片的匹配和水印信息的提取.3.3.3水印提取根据分组算法所生成的汉字分组,依次将所有提取的 2 位水印信息归类到对应的变形字分组中.由于每一分组中可能存在因匹配失误而导致的错误水印,分组内将会存在多个不同的 2 位水印位串,因此采取投票策略来进行纠错,即将出现次数最多的作为提取正确的 2 位水印.将 K 组水印依次排列提取,即可获得完整的水印序列,完成水印信息的提取.水印信息提取过程

49、如图3所示.可以看到,在分组提取时,例如,分组 5 中的“将”字所提取出的水印位串为“00”,“括”字提取的水印位串为“01”,而其他三个汉字提取的水印都是“10”,因此,判定分组 5 所提取的正确水印为“10”.出现这样的错误往往是因为在字符图像匹配时,字符图像受噪声干扰导致的,因此本文设计了投票策略来回避这样的错误,提升方法的容错性,并且后续实验将证明这样的设计的确有效.4实验结果和分析4.1仿真实验本实验对本文方法的可行性进行了分析和评估.实验中使用了由清华大学自然语言处理实验室孙茂松等整理的 THUCNews 中文文本数据集50.THUCNews 是根据新浪新闻 RSS 订阅频道 20

50、052011 年间的历史数据筛选过滤生成,包含 74 万篇新闻文档(2.19 GB).在原始新浪新闻分类体系的基础上,孙茂松等人50重新整合并划分出 14 个新闻类别,即财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐.本实验统计了该数据集所有文本中汉字的出现频率以及二字词语的出现频率,并且在数据集的 14 个新闻类别中各随机抽取了 1000 篇字数在 6001000 的文档,生成总共 14000篇文档的测试数据集,用于分析本文水印方法的性能.需要注意的是,仿真实验是在假定的理想状态下进行的,即完全不考虑提取时变形字符匹配出错的情况.因此在实验中将成功提取完整

展开阅读全文