1、中 北 大 学毕业设计开题报告学 生 姓 名:张晓春学 号:0806054219学 院、系:电子与计算机科学技术学院计算机科学与技术系专 业:软件工程设 计 题 目:打印文稿识别技术研究与设计指导教师:陈够喜 2012年2月24日1绪论11研究背景和意义目前,打印文档的使用越来越广泛,而与此同时与伪造文档相关的案件也越来越多,例如伪造合同、伪造文档证据、非法传单。在法庭的审判中,需要验证这些作为证据的文档的真实性;在刑事侦查过程中,需要追踪文档的来源。因此,司法和公安部门迫切需要打印文档的取证技术,检验文档是否经过伪造,以及判断文档来自于哪一台打印机。目前我国司法部门进行文件检验时主要采用人工
2、借助仪器的手段,针对喷墨打印机主要从墨水驱动方式、墨水种类、打印字符质量、打印介质、用纸、油墨的理化性质l-3等进行种类鉴别;针对激光打印机主要利用拉曼光谱4分析打印文件字迹确定墨粉种类,从而推断打印机品牌和大致型号。这些方法存在分析仪器价格高,操作专业性强,人工操作凭经验,分析成本高,有一定的主观性等特点。实际的检验过程中,还很难做到判断文档来自于哪一台打印机。如何确定文档的打印机品牌,以及来自于哪台具体的打印机,一直是文件检验中的一个亟待解决的问题5。随着计算机科学的发展,人们逐步尝试使用图像处理和模式识别技术来解决文档检验问题。这种技术通过扫描仪将文档扫描成文档图像,然后利用图像处理技术
3、从文档图像中提取一些能够代表打印机固有特征的特征,最后使用模式识别技术判断文档的打印机来源。近年来,这种基于图像的无损被动打印取证技术16-27逐步发展起来,学者们提出了很多种方法。但是实际中情况非常复杂,对提取特征的影响因素主要包括:纸张类型的变换、打印机的老化、硒鼓中墨量变化和更换、扫描仪的不同。目前所提出的各种方法中的特征针对上述情况还并不是很稳定,检验准确率还有待进一步提高。12本文贡献在上述基于图像的无损被动打印机取证技术中,学者们提出的方法主要集中在如何从含有墨迹的连通区域中提取打印机固有特征。本文从整体页面上提取页面几何失真特征,实验表明,该特征可用于打印机来源认证。本文分别用投
4、影变换模型和弹性变换模型来对页面几何失真进行建模,提取模型的参数作为打印机固有特征。本文的主要贡献如下:(1)综述打印文件取证技术本文总结归纳了2002年以来的打印取证技术,介绍各种取证技术主要思路。目前在打印机取证技术领域,主要包含两大类技术:主动取证技术和被动取证技术。本文所研究的内容属于被动取证技术。(2)提出了利用矩和矩阵函数进行判别本文最大的贡献就是利用矩阵相关知识来取证研究。文中具体介绍通过行斜率变化规律实验发现页面几何失真现象的过程。文中分别采用了投影变换模型和弹性变换模型来模拟页面几何失真现象,并实验了两个模型在文档来源认证中的具体性能,比较了两种模型在各方面的相似和不同之处,
5、并比较了它们各自的优缺点。13论文结构本论文各章的结构组织如下:第一章为绪论,主要介绍了研究背景和意义,同时介绍了本文主要贡献。第二章为打印文档取证技术概述,主要从主动和被动两个方面进行介绍。第三章介绍如何通过矩阵知识进行相关取证研究。第四章在对全文进行总结归纳的基础上,展望了本文工作的可能发展。2打印机取证技术综述本章将打印取证技术分为主动打印取证技术和被动打印取证技术两类。主动取证技术通过嵌入外部特征实现取证;被动取证技术则利用了文档打印过程引入的固有特征。21主动打印取证技术主动取证技术向打印文档中嵌入水印信息,使文档具有视觉不可见又可供算法识别的外部特征(extrinsic siema
6、ture),从而实现打印文档的主动取证。目前主要包括以下典型技术:打印机厂商在部分品牌彩色激光打印机的打印品中嵌入视觉不可见的黄色斑点阵列信息:有很多学者研究了在打印机半色调算法中嵌入视觉不可见的水印信息;而Purdue大学的Edward J Dclp团队通过改变打印机机械级参数10-15控制墨点大小和位置来嵌入视觉不可见的外部特征。以上方法和思想分述如下:(1)彩色激光打印机的黄色斑点信息激光打印机的制造商很早就考虑到其高性能的办公设备可能会给伪造文件者提供方便。于是在打印机输出文件中嵌入了可供追查文件来源的水印信息。在电子先锋(EFF,EIeclI_omc Frontier Foundat
7、ion)的网站6上,报道了施乐彩色撇光打印机在输出文档中嵌入规则的黄色斑点阵列,如图21所示,以此记录文档的打印机型、打印时问等信息。在文献中针对彩色激光打印机的黄点嵌入机制给予了一些实验性研究工作的报道7-9。在图2. 1中,左图为实际扫描的黄色斑点图,其尺寸要大于实际;右图为人工绘制的蓝底黄点图,用以说明斑点阵列的编码格式。 图 2.1 施乐彩色激光打印机的黄色斑点阵列及其编码格式EFF统计了18个厂商的209种型号的彩色打印机,具体如表21所示。其中141种型号含有可追踪来源的黄色斑点,57种型号不含有,剩余的11种型号未知。从中可以看出,有67的彩色激光打印机嵌入了黄色斑点阵列信息,其
8、它没有嵌入黄色斑点阵列的打印机可能采用了其它未知的技术嵌入了水印。对于含有黄色斑点的彩色打印文档,可以通过提取黄点阵列信息准确的找到其来源打印机。但是,占据市场上份额非常大的黑白激光和喷墨打印机是不可能嵌入“黄色的墨点水印的。所以这种可靠且简易的方法存在很大的局限性。 表2.1各品牌彩色激光打印机是否嵌入黄色斑点型号统计表 (2)半色调算法级水印嵌入半色调算法级水印嵌入通过调整基N)异(Screening)、差错分散(Error Diffusion)和搜索(Searching)等算法的半色调处理过程实现水印嵌入。它们的计算复杂度很高,不适合于实时打印应用10。该类方法的讨论超出了本论文的研究内
9、容,不详细介绍。(3)打印机机械结构级水印嵌入该类方法通过调整打印机机械结构的处理参数来实现水印嵌入。在研究了打印文档中可用于判断打印机来源的条带特征11的基础上,可以事先通过调整激光强度产生这种条带信号12,但是它的数据嵌入容量非常有限。为了增大数据嵌入容量,Edward JDelp团队又提出了基于边缘粗糙程度131和激光曝光调制14的改进方法,它们本质上仍然是调节激光强度嵌入条带特征。最新的研究成果是通过调节半色调图像中墨点的位置来嵌入信息10,15,它具有更好的鲁棒性和嵌入容量。22被动打印取证技术被动打印取证技术从文档中提取了能够代表打印机个体的固有特征,使用模式识别的分类技术进行训练
10、和分类,实现追踪文档的打印机来源。221现有被动打印取证技术框架为了能够深入理解打印机的固有特征,了解激光打印机的工作过程是非常必要的。激光打印过程如图22所示,共有6步:(1)感光鼓均匀充电;(2)激光扫描感光鼓,对特殊区域放电;(3)放电区域吸附墨粉;(4)感光鼓上的墨粉转印到纸张上;(5)墨粉与纸张相融合;(6)清洁感光鼓。打印机结构中的电子机械设备的不理想会导致打印输出中存在缺陷11。由于这些“缺陷”直接和打印机结构有关,所以认为是打印机的固有特征。图2.2激光打印过程框图:(A)充电(B)曝光(C)附墨(D)转印(E)融合(F)清墨为了便于大家理解,我们将通过和摄影过程做对比来解释这
11、个六个步骤的作用。步骤作用对比摄影过程充电将感光鼓表面充满电荷制造胶片感光通过激光束的扫描,在感光鼓上形成静电潜像拍照显影将带电墨粉颗粒吸附到静电潜像区,形成可见的墨粉图像冲洗底片转印将感光鼓上的墨粉图像转移到纸张上在相纸上放像定影通过加热加压将墨粉融化固定在纸张上冲洗相纸消影清除感光鼓表面的残余墨粉和电荷制造胶片的片基 表2.2打印过程和摄影过程的对比激光打印机工作原理:(1) 激光打印机的核心技术就是所谓的电子成像技术,这种技术融合了影像学与电子学的原理和技术以生成图像,核心部件是一个可以感光的感光鼓。(2) 打印机接收到计算机传来的打印内容后,将其转换为激光驱动信号,激光头发出的激光束通
12、过一个转动的棱镜反射到充满电荷的感光鼓上,随着棱镜的转动,激光束从感光鼓的一端扫描到另一端,感光鼓被扫描到的部分电荷消失,形成静电潜像,将带电的墨粉颗粒吸附到感光区域(静电潜像区域),形成可见的墨粉图像,再将墨粉转印到打印介质上,最后通过加热装置将墨粉熔化固定到打印介质上。对目前所掌握的文献进行总结归纳,对文档进行取证的过程框架如图2.3所示: 图2.3目前打印机被动取证技术的实现过程框架针对扫描得到的待取证的文档图像,主要经过预处理、对字符图像提取特征、分类/分割三个步骤实现文档的取证工作。预处理过程用于完成前期处理工作,包括图像二值化,斑点墨迹噪声的消除,字符图像分割和字符识别工作.在文献
13、26中还使用了直方图匹配和空间校正的预处理步骤来分别统一字符的灰度直方图变化范围和尺寸。对字符图像提取特征主要分为9类,如表2.2所示: 表2.3被动取证技术提取特征的分类分类/分割则针对上述提取的特征,使用SVM分类器进行分类实现文档的来源取证,或者使用区域分割的技术判断文档是否经过伪造篡改。同样可以采用其它的分类和分割方法实现类似的功能。222现有被动打印取证技术详述下面分别将这9类方法简单描述如下:(1)打印质量分析02年John Oliver16等借助于ImageXpert专业打印质量分析软硬件,将提取的打印质量特征用于打印机来源取证,具体包括:线宽度、粗糙度、拖墨度、点圆满度、周长、
14、周围散落墨点数等特征。ImageXpert公司是专门为Hp等打印机公司提供打印质量分析工具的公司,它们可以帮助打印机厂商更好的完成新型打印机的质量性能检测评价。该方法需要借助专业软硬件,扫描分辨率要求较高。(2)共生矩阵特征之前有很多学者在研究如何改进打印机的控制程序以更好的消除打印文档中包含条带现象,而05年Edward JDelp团队则利用了这种条带特征进行打印机取证。由于文本文档由较小的字符连通区域组成,提取条带存在困难,他们在05年从打印的“e”字符图像中提取了描述纹理的共生矩阵特征17。该方法实验中要求的扫描分辨率为1200dpi。Edward JDelp团队在该领域的研究最活跃,0
15、3年至今发表文献有22篇左右,其中5篇综述,7篇关于提取固有特征的被动取证技术,10篇关于嵌入外部特征的主动取证技术。最近几年,该团队在嵌入外部特征的主动取证技术方面做的工作更多一些,他们与机械电子专业的团队进行合作,完成打印机内部的硬件改造。(3)灰度级特征04年Jack Tchanl8提出的特征包括:边缘锐利程度、表面粗糙度、图像对比度,要求的扫描分辨率较低,但仅实验圆点和方块图像内容的文档,并没有实验文本字符。06和08年,Thomas Breuel等提出了一些基于普通纹理和边缘描述的灰度级特征19-20,这些特征与04年Jack Tchan提出的特征有些类似,所以将其统称为“灰度级特征
16、”。文中给出了特征具体计算公式,便于实现,而且实验结果很详细。该方法所需的扫描分辨率较低,适合应用在银行的高吞吐量文档管理系统中。(4)不变矩特征06年Cyril Murie等提出不变矩特征21用于打印机来源取证。不变矩最早由MHu于1962年提出,针对图像的旋转、缩放、平移操作,这些不变矩特征值基本不发生变化。目前已有其它的矩提出,例如Legendre矩或Complex Zemike矩。作者仅观察了实验样本的Hu矩特征分布,发现它们在不同打印机之间存在可分性,而没有具体分类准确率。(5)字符图像质量评价07年孔祥维等和08年HaeYe01M1 Lee等均提出了字符图像质量评价特型22-23。
17、从文档图像中分割得到字符图像,然后获得其高斯滤波图像以及噪声图像,并在这三幅图像中或相互之间提取了字符图像质量评价特征。使用SVM分类器对每个字符图像提取的特征进行分类,然后每页文档的所有字符图像进行投票得到该页文档的分类结果。(6)字笔画周长面积等07年韩国强等在汉字识另J(OCR)-I-具包的基础上,提取识别后的字符笔画周长面积等特征24,并将其应用于打印机的来源取证。文中采用模糊分类器进行分类,并给出了10台打印机的实验结果。(7)字符间距离变换08年陈庆虎等对训练和测试文档图像进行预处理,以获得归一化的打印字符图像,并使用OCR算法对其进行识别。对训练和测试文档图像中的字符图像应用距离
18、变换1251,计算测试文档字符图像与每类训练文档字符图像的距离,与其距离最小的类将确定为该文档的打印机来源。(8)打印机失真模型08年Hany Farid等利用主成分分析算法(PCA,Principal Component Analysis)构建近似打印机失真模型26,并根据字符图像与各打印机失真模型的匹配程度来判断打印机来源。针对从文档中分割出的含相同字符的字符图像,.进行图23中预处理阶段虚线框中的直方图匹配、空间校正步骤,使得每个字符图像大小相同,然后对此字符图像集合应用PCA方法,提取字符图像均值和最大特征值对应的特征向量构成打印机失真模型。实际的打印机失真模型非常复杂,文中只是以PC
19、A方法进行了近似。另外,文章针对一页文档是否经过伪造(如二次打印)提出了一种解决思路。作者利用了图像分割中成熟的Normalized Cut分割思想,以任意两个字符的打印机模型匹配度和空间距离作为依据,将图像分割成两部分。如果分割的代价较小,则认为分割正确,分割得到的两部分分别由不同的打印机打印得到;如果分割代价较大,则认为该文档中所提取的这些字符均由同一台打印机打印得到。(9)尖齿轮痕迹特征02年Yoko Seki等发现了喷墨打印机中传动纸张的尖齿轮会在纸张上留下痕迹,称为尖齿轮痕迹27(spurmarks)。通过对尖齿轮痕迹特征的提取,来区分不同的喷墨打印机。使用红外光倾斜一定角度照射打印
20、纸张,可以从红外照相图像中提取出尖齿轮痕迹,使用Radon变换和傅立叶变换估计尖齿轮间距等参数,判断文档的喷墨打印机来源。特征提取过程中使用的红外照,相设备并不常用,实验表明,从普通的文档扫描仪扫描的文档中观察不到尖齿轮痕迹。2.2.3现有被动打印取证技术分析上述方法均从文档图像含有墨迹的连通区域或字符区域中提取特征,所以这些特征不同程度的受到打印文档墨迹浓淡变化的影响,这将降低文档来源的判决准确性。Farid实验了墨迹浓淡对判决结果的影响,实验表明,其方法的判决结果更多地取决于墨迹浓淡程度而不是打印机个体。本文首先通过预处理获得特征点对集合,然后利用形态学的相关知识从中提取字符的相关特征。而
21、这些特征点是经过图像处理过的,所以与上述方法相比较,本文方法对墨迹浓淡变化具有更好的稳定性。23小结综上所述,基于机械结构级的主动打印取证技术需要机械方面的专业技术来控制打印过程,并且该方法要得到打印机生产厂商的支持;被动打印取证技术虽然取得了一定的成果,但所提取的特征对墨迹浓淡变化还不够稳定,需要进一步提出新的特征以及对打印过程进行更完善的建模。4结论和展望41本文研究内容和贡献本文将打印扫描过程理解为图像退化过程,即由理想图像退化为文档图像的过程。本文主要挖掘了几何失真退化部分,具体地本文所研究的内容和贡献如下:(1)综述打印文件取证技术本文总结归纳了2002年以来的打印取证技术,详细介绍
22、各种取证技术的细节。在目前的打印机取证技术领域,主要包含两大类技术:主动取证技术和被动取证技术。本文所研究的内容属于被动取证技术,但是两者在打印机取证中相互补充。所以,本文也简要叙述了主动取证技术。(2)发现了文档页面几何失真特征本文最大的贡献就是发现了页面几何失真特征。文中具体介绍了页面几何失真的发现过程,并分别采用了投影变换模型和弹性变换模型来模拟页面几何失真现象,并实验了两个模型在文档来源认证中的具体性能。比较了两种模型在各方面的相似和不同之处,并比较了它们各自的优缺点。6.2后续工作展望打印文档取证工作中的难点是如何提取出能够代表打印机个体的固有特征。学者们从不同角度提出了很多特征,但
23、是它们的有效性都并不是很理想。打印和扫描的过程中所包含的因素太多,导致在系统的建模和理解过程中,因为太过复杂而无法准确的建模。有学者对打印过程和打印扫描过程进行建模,但他们的模型都相对比较简单。本文对未来工作的展望主要体现在以下几个方面:(1)针对本文所提出的几何失真特征,其产生的原因还只是一种推测,如果要找到真正的原因,需要与机械电子专业的相关人员进行合作,通过调整打印机的内部结构验证其对页面中的几何失真现象的影响。对打印设备内部硬件的工作过程,尤其是机械传动设备的工作过程的深入理解有助于我们理解和发现打印机的固有特征。(2)特征的稳定性是一个需要长期实验解决的问题。由于打印机的寿命通常比较
24、长,正常一台打印机的生命周期在几年左右,在一台打印机从新到旧的过程中,学者们所提取的特征是否发生明显的变化?有哪些特征是不随改变的?改变的趋势或者周期具体如何?以及在不可避免的更换硒鼓的过程中,这些特征是否受到影响?这些都是需要通,过长期的实验才能够解决的问题。 参考文献1支钺谈理化分析方法在文件检验中的应用辽宁警专学报,2004,(2):51-52.2王迪,黄敏静.喷墨打印文件检验研究.广东公安科技,2006,(1):23-25.3刘宁.喷墨打印机种鉴别方法及流程.江苏警官学院学报,2005,20(6):147-1514陈宁,张晓霞,张建华等拉曼光谱技术及其在物证鉴定中的应用中国人民公安大学
25、学报(自然科学版),2009,(2):1-45周云玲,胡爱华.目前文件检验工作中面临的难点问题.刑事技术,2007,(1):39-41.6 http:/w2.eff.org/Privacy/printers/docucolor/,2009,9,26.7刘宁,裴雷彩色激光打印机、复印机同一认定新方法.江苏警官学院学报,2005,20(2):165-1708陈春涛,裴雷.施乐DocuColor彩色激光打印机隐含信息的获取.江苏警官学院学报,2006,21(6):145-1489李江春利用暗记特征鉴别彩色激光打印、复印文件.刑事技术,2009,(1):26-2810Suh S,Allebach J
26、P,Chiu GT C et a1Printer Mechanism-Level Information Embedding and Extraction for Halftone DocumentsNew ResultSProceedings of the IS&TS NIP23:International Conference on Digital Printing Technologies,Anchorage,AM,2007:549-55311A1 i G N,Chiang P J,Mikki l ineni A K et a1.Intrinsic and extrinsic signa
27、tures for information hiding and secure printing with electrophotographic devices.Proceedings of the IS&TS NIPl9:International Conference on Digital Printing Techn0109ies,New Orleans,LA,2003:511-515.12Chiang P J,A1i G N,Mikkilineni A K et a1Extrinsic signatures embedding using exposure modulation fo
28、r information hiding and secure printing in electrophotography.Proceedings of the IS&TS NIP20:International Conference on Digital Print ing Techn0109ies,Salt Lake City,UT,2004:295-30013Cbiang P J,Mikkilineni A K,Arslan 0 et al,Extrinsic signature embeddingin text document using exposure modulation f
29、or information biding and secure printing in electrophotography.Proceedings of the IS&TS NIP21:International Conference on Digital Printing Technologies,Baltimore,MD,2005:231-23414Mikkilineni A K,Chiang P J,Suh S et a1.Information embedding and extraction for electrophotographic printing processesPr
30、oceedings of the SPIE International Conference on Security,Steganography,and Watermarking of Multimedia Contents VIII,San Jose,CA,200615Suh S,A1lebach J P,Chiu GT C et a1.Printer Mechanism-Level Data Hiding for Halftone Documents.Proceedings of the IS&TS NIP22:International Conference on Digital Pri
31、nting Techn0109ies,Denver,CO,2006:436-440163 john Oliver,Joyce ChenUse of signature analysis to discriminate digital printing technologies.Proceedings of the ISTS NIPl8:International Conference on Digital Printing Technologies,San Diego,CA,2002:218-22217 Mikkilineni A K,Chiang P J,A1i G N et a1.Prin
32、ter identification based on graylevel CO-occurrence features for security and forensic applicationsProceedings of the SPIE International Conference on Security,Steganography,and Watermarking of Multimedia Contents VII,San Jose,CA,2005:430-440.183 Jack Tchan.The development of an image analysis syste
33、m that can detect fraudulent alterations made to printed images.Proc.of the SPIE International Conference on Optical Security and Counterfeit Techniques V,San Jose,CA2004:151-15919Christoph H.Lampert,Lin Mei,Thomas M.Breuel.Printing Technique Classification for Document Counterfeit Detection.IEEE In
34、ternational Conference on Computational Intel l i gence and Securi ty,Guangzhou,China,2006:639-64420Chri stian Schulze,Marco Schreyer,Armin Stahl et a1.Evaluation of Graylevel-Features for Printing Technique Classification in HighThroughput Document Management Systems.International Workshop on Compu
35、tational Forensics,Washington,DE,2008:35-46213 V.Talbot,P.Perrot,c.Murie.Inkjet printing discrimination based on invariant moments.Proceedings of the IS&TS NIP22:International Conference on Digital Printing Technologies,Denver,CO,2006:42743122沈林杰,孔祥维,尤新刚.基于字符图像质量评价的打印机取证.东南大学学报(自然科学版),2007,37(S1):92
36、95.233 Seung-Jin Ryu,Hae-Yeoun Lee,11-Weon Cho et a1.Document Forgery Detection with SVM Classifier and Image Qual ity Measures.Lecture Notes in Computer Sc i ence,2008,5353:486-49524Ning Wang,Guoqiang Han.Laset Printer Fuzzy Identification Based on Correlative Specific Area of Character Image.IEEE
37、International Conference on Computational Intelligence and Security,Harbin,Heilongjiang,China,2007:415-419.25Wei Deng,Oinghu Chen,Feng Yuan et a1.Printer Identificat ion Based on Di stance Transform.IEEE First International Conference on Intelligent Networks and Intelligent Systems,Wuhan,China,2008:
38、565-56826Eric Kee,Hany Farid.Printer Profiling for Forensics and Ballistics.Proceedings of the 10th ACll workshop on Multimedia and securi ty,Oxford,UK,2008:3-927Yoshinori Akao,Kazuhiko Kobayashi,Shigeru Sugawara et a1Discrimination of inkjet printed counterfeits by spur marks and feature extraction by spatial frequency analysis.Proceedings of SPIEOptical Security and Counterfeit Deterrence Tec.hniques IV,San Jose,CA,2002:129-137