收藏 分销(赏)

毕业论文(设计)复杂背景下基于OCR的变体文本识别技术.pdf

上传人:曲**** 文档编号:10119421 上传时间:2025-04-22 格式:PDF 页数:53 大小:4.84MB
下载 相关 举报
毕业论文(设计)复杂背景下基于OCR的变体文本识别技术.pdf_第1页
第1页 / 共53页
毕业论文(设计)复杂背景下基于OCR的变体文本识别技术.pdf_第2页
第2页 / 共53页
毕业论文(设计)复杂背景下基于OCR的变体文本识别技术.pdf_第3页
第3页 / 共53页
毕业论文(设计)复杂背景下基于OCR的变体文本识别技术.pdf_第4页
第4页 / 共53页
毕业论文(设计)复杂背景下基于OCR的变体文本识别技术.pdf_第5页
第5页 / 共53页
点击查看更多>>
资源描述

1、摘要OCR(Optical Character Recognition,光学文本识别)技术作为基本的模式识别技术。根据应用领域的不同,可分为通用的OCR技术及复杂背景下的OCR技术两大类。复杂 背景下的OCR技术涉及的图象处理与模式识别技术较通用的OCR技术更为复杂,是文 本识别技术的研究前沿之一。由于图像中的文字通常叠加在复杂的图像背景之上,背景成分的干扰使得现有的 OCR技术难以识别出文字,因而如何从图像的复杂背景中提取出文字成为一个有必要 研究的问题。近年来,这一问题开始受到广泛关注,并取得了大量的研究成果,但由于 区分文字与复杂背景的困难性,该问题还远没有得到完美解决。本文从图像二值化

2、版面分析等方面介绍了文字切分的理论基础。对文字图像预处 理中的各种二值化方法以及各种不同的切分技术进行了分析和比较。本文对垃圾邮件中 的图片进行实验的基础上,对复杂背景下的文本提取技术进行了研究,提出了基于灰度 分级的新文本提取方法;同时提出了边缘检测技术,有效实现文本字符特征的提取和切 分。本文提出的方法可直接对复杂背景图象进行文本提取,并在此基础上实现对目标文 本的切分。关键词:图像文本提取;文字检测;文字分割;灰度图像;二值化AbstractAs a basic Patten Recognition technology,OCR(Optical Character Recognitio

3、n)technology is widely used in areas.According to different applications,OCR technology can be divided into General OCR technology and Complicated-Background OCR technolog.Complicated-Background OCR technology uses more complicated image processing techniques and pattern recognition technologies tha

4、n General OCR technology,and it is also one of the front-line sciences in character recognition field.text is usually embedded in complex background of images,which makes direct optical character recognition almost impossible.Therefore,it becomes necessary to extract text from complex background bef

5、ore recognition.In the last decades,many efforts have been devoted to developing effective algorithms to extract text from complex background in images.However,the state-of-the-art of text extraction is far from perfect due to the great difficulty in discriminating text from complex background compl

6、etely.This paper firstly presents the theory basis for character segmentation,which includes document image binarization and page analysis.Various segmentation techniques and their binarization recognition methods are introduced.By experiments on the images in the junk E-mail,this paper do some rese

7、arches on Text technology,and proposes Extraction Technology in Complicated-Background OCR a new method based on gray scale,and a new segmentation method based on Edge Detect Technology.This method can be used to text extraction directly from the Complicated-Background image and text segmentation of

8、 target characters.Keywords:text extraction from images;text detection;text segmentation;Gray-scale Image;Binarization第一章引言第一章引言1.1 研究的理论意义人类社会已开始进入信息时代,信息产业的发展将对国家的发达和民族的兴旺产生 重大的影响。因此,世界各国对信息产业的发展都给予了极大的重视和关注。人类社会 的不断进步带来了信息空间的增长和积累,而计算机的出现为现代信息处理提供了有效 的手段。作为互联网的第一大应用,电子邮件一直受到广大网民的青睐。但是,近些年来,垃圾邮件问题

9、日益严重。这些垃圾邮件为了避过当前的一些过滤技术,采取文字图片的 形式传送,这些图片大多都是,背景颜色多样,文字的字体、排版没有规律,这样对文 字的识别增加了不少的困难。下面介绍一下文字识别的一些知识。字符识别使用计算机自动辨识印刷在纸上或人写在纸上的字符,是模式识别的一个 重要分支,也是文字识别领域最为困难的问题,它的一项关键技术是光学字符识别(Optical Character Recognition,简称OCR)。OCR技术包括图像处理技术、识别技术、文本理解技术与还原技术、表格/票据处理技术,可应用于银行票据、大量文字资料、档 案卷宗、文案的录入和处理等领域。在1929年,德国的科学家

10、Tausheck首先提出了 OCR的概念。OCR技术是光学字 符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其他印刷品的文字转化为图像信息,再利用文字识别技术将图像信 息转化为可以使用的计算机输入技术。它涉及模式识别、图像处理、数字信号处理、自 然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科,是一门综 合性技术。在信息处理、办公室自动化、机器翻译、人工智能等高技术领域,都有着重 要的实用价值和理论意义。尤其是复杂背景下的变体文本的OCR技术具有很强的理论 挑战性:1、目前在模式识别领域,不仅

11、仅是文字识别,其他的分支诸如语音识别、人脸识 别、指纹识别等,都面临着一个共同的难题:在低质量,高噪音的情况下正确识别模式的 问题。各分支所研究的模式对象虽然有所不同,但是基本的原理是一致的,在很多方面 都有可以相互借鉴的地方。2、本文主要研究的是复杂背景下的变体文本OCR技术,变体文本主要是不规则体 的英文、数字和标点符号。由于背景复杂,噪音干扰大,文字的大小、排列和字体都没 华南理工大学硕士学位论文有规律,也是文字识别中最为困难的问题之一,在模式识别理论和方法研究方面有着重 大的意义,有助于对OCR技术做深 入地分析研究及验证一些新的理论的有效性,评 价各种方法的优缺点。3、复杂背景下的变

12、体文本的识别方法很容易推广到其它一些相关问题,一个直接 的应用是垃圾邮件的文字图片、图书馆里的索书号和车辆牌照的识别。1.2 研究的应用背景文字识别有着极为广泛的应用前景,这也正是它受到世界各国的研究工作者重视的 一个主要原因。而目前复杂背景的文本图像的识别问题已经成为了阻碍OCR技术进一 步发展和应用的瓶颈。下面我们将介绍文本识别技术的典型应用,及复杂背景的变体文 本图像识别在其中的重要性。(一)文本识别在图片垃圾邮件中的应用作为互联网的第一大应用,电子邮件一直受到广大网民的青睐。但是,近些年来,垃圾邮件问题日益严重。垃圾邮件不仅耗费网络带宽和计算机时空开销,而且会严重干 扰用户个人的正常生

13、活,浪费了用户的时间、精力和金钱。从2006年起,图片垃圾邮 件开始飞速膨胀,成为邮件安全从业者非常头疼的事情,由于目前的垃圾邮件辨识机制 多使用关键字作为辨识工具,因此图形垃圾邮件便容易规避这样的过漉机制,必须使用 光学辨识技术,才能辨识图片中的文字。近来图片垃圾邮件发送者技术不断增强,提高了图片垃圾邮件的有效性。其中主要 举措是一份图片会随机生成多个版本,对于个人阅读来说这些版本是一样的,但对垃圾 邮件过滤器来说则是完全不同的。比如说,垃圾邮件发送者发送带有附件为.gif文件的 垃圾邮件时,会在这份f文件中随机插入几个视觉“点”来造成生成图片的不同,或者 他们还可通过改变图片颜色、边框的宽

14、度和模式、还有字体样式来达到这个目的。在所 有这些情况下,在用户看来图片都是同样的,但图片的检验值却是不同的。反垃圾邮件软件供应商在他们的垃圾邮件过滤器产品中加入了光学字符识别程序(OCR),使得这些过滤器产品能够阅读图片垃圾邮件的内容,从而在这些邮件被发送到 用户的收件箱之前识别出哪些是垃圾邮件。而这些垃圾图片都属于复杂背景文本。(二)文本识别在办公自动化中的应用目前,办公自动化已成为信息社会不可避免的发展趋势。虽然在计算机网络飞速发 展的今天,许多信息已经电子化,世界各地出现了许多“电子版”的报纸、杂志等出版 2第一章引言物,但是我们可以看到印刷材料的数量也大大地增加了,一些专业单位如新闻

15、社、出版 社、档案馆等所接触的印刷材料更是浩如烟海,毕竟阅读印刷材料更为符合人的自然阅 读习惯。电子化与印刷文本材料如同一枚硬币的两面,互相补充、互相促进,在未来的 十几年或更长的时间内将不会出现一者被另一者取代的情况。并且,在办公自动化中,低质量文本占有相当大的比重,这主要是来源于传真和复 印这两个在办公中最经常使用的信息传递方式。(三)文本识别在财务、税务、金融领域中的应用财务、税务、金融是印刷体识别大有可为的又一领域。随着我国经济的迅速发展,每天等待处理的财务、税务报表、发票、支票、付款单等越来越多。如果能把它们用计 算机自动处理,无疑可以节约大量的时间、金钱和劳力。发票、支票等因为防伪

16、等原因,背景复杂、变化、有纹理,也属于复杂背景文本。(四)文本识别在图像文字信息处理中的应用随着数字图像技术的飞速发展,对于图像中嵌入的低质量低分辨率字符的识别需求 也大大的增强了。例如一些通过数码相机,摄像机和手机获取的图像或者单帧视频图像 中的文字信息的提取和识别。由于实际使用条件的影响,存在着许多不利于识别的因素,包括背景复杂、光照条件变化影响、镜头污损,以及由于拍摄角度或运动等原因导致字 符变形歪斜等。这些都属于复杂背景文本的范畴。随着信息化进程的加快,文字识别的应用需求将越来越广泛,因此应当加强这方面 的研究工作。笔者认为,OCR应用系统的性能的关键与瓶颈仍然在于低质量文本图像 的识

17、别性能上,最终目标是研究零误识率和低拒识率的高速识别算法。1.3 复杂背景下OCR的难点复杂背景下的OCR技术一般是指包含待识别文本信息的数字图象,对图象进行预 处理后,利用文本定位、分割和提取算法提取其中的待识别目标文本,并通过模式识别 算法分析所提取到的文本形态特征,得到相应目标文本的标准编码,最后将结果输出。其一般流程如图M所示。图1“复杂背景下的OCR流程3华南理工大学硕士学位论文由于文字的模式随着文字的语言、字体、颜色、风格和空间排列等属性的变化而呈 现出多样性,难以提取出统一的标志性特征来刻画它们与背景的本质区别,使得现有的 文字检测算法通常都是建立在对文字属性的各种限定之上的,其

18、通用性受到很大制约。文字风格的多样性,例如一些特效文字常有的渐变色、复合色、阴影、间断笔画等,给 文字分割也带来很大的困难。对于那些前景和背景对比强烈的高质量文本图像,人和计 算机都可以较容易的根据明显的灰度深浅对比,清晰的把目标字符前景和背景分开。而 对于复杂背景文本图像,因其前景和背景对比弱,对比度多变不一致。除了一部分较黑 或较白的像素点,可以比较容易的被归为前景和背景外,还存在大量的中间过渡值点,很难被简单的归属,产生了模糊性和不确定性。人在认知时,可以在相关知识的指导下,对于这类中间点给出一个正确合理的归属判断,做出一种智能化的解释,但是让计算机 像人一样可以利用各种相关知识做这种智

19、能化的判断,在当前的情况下仍是难以实现 的。为了讨论地方便,这些中间点被定义为“不确定点”O因此,当用计算机来识别文本图像时,之所以对简单背景文本图像的识别率高,对 复杂背景文本图像的识别率低的原因就在于:前者难以确定归属的不确定点的数量少,而后者中不确定点的数量多。其次,对复杂背景的文本图像做二值化,存在着两个困难:1)前景和背景灰度范围重 叠的图像,无法用一个单一的阈值二值化,只能局部二值化,但是局部如何划分是一个 难于解决的问题单一阈值可以得到令人满意的二值化结果的图像,如何发现这个阈值 是一个难以解决的问题。传统的二值OCR技术,一开始就对图像二值化,希望能找到 一个统一的方法,在最初

20、就得到一个利于识别的二值化结果。经过了这么多年的研究,仍是没能得到满意的解决。最后,字符切分问题。字符切分近几年来一直是OCR领域中的关键问题之一.较高的单字识别正确率与 无限制印刷体或手写体文本的识别正确率之间的差距正说明了这一点。而且目前在文字 识别领域所取得的大部分进展都可归功于文字切分水平的提高卬1。字符切分是影响系统识别的关键因素之一。影响字符切分的因素有多种,如字符因 素,排版因素及其它干扰因素。字符因素指字符本身具有的特点:英文字符较少(52 个大小字母、10个数字和几十个符号)而且结构简单,人们往往因此认为英文识别难度 就小。实际上印刷英文识别和印刷中文字符识别相比,存在着如下

21、难点:英文排版格式 较为自由,字符宽度、大小不一,无法像印刷中文字符识别那样利用字符纵横比接近1.04第一章引言的特点来帮助且分,这大大增加了字符切分的难度。字符结构简单,包含的分类信息较 少,按照信息墙理论囤,反而不如中文字符容易区分.由于英文排版的特点,英文字 符间容易出现粘连的现象。某些字母组合其实是一个整体,无法通过竖切分分开,比如“n”、“任”等。某些字母组合,尽管字符间可能并不粘连,但却交叠在一起,无法直 接通过投影找到合适切分点,虽然可以通过绕切分来解决某些问题,但依然会遇到候选 切分点选取的困难,同时绕切分也会增加不少的处理时间。有些字母可以切分成两 个合理的字母组合,比如“m

22、变成“m”,w”变成“VV”等等。干扰因素是指字符 可能出现断笔、字与字之间出现粘连或字边界处有污点。各种因素综合在一起给字符的 切分带来一定的困难。1.4 技术路线当前的OCR技术在处理复杂背景变体文本图像时,在各个步骤都有着不同程度的 问题和不足,我们把研究的重点放在了文本提取和单个字符切分这两个方面。这两个方 面是复杂背景变体文本OCR过程中最关犍的技术,也是目前复杂背景变体文本图像 OCR技术中急需解决的问题。在上述基本观点的指导下,针对文本提取和单字切分阶段的不同特点,本文分别提 出了不同的解决方法。1.4.1 复杂背景文本提取方案嵌入在图像中的文字一般都带有复杂的背景,现有的方法

23、一般将文字提取过程分为 两个步骤:文字检测(text detection)和文字分割(text segmentation)o检测的目的是判断图 像中文字出现的位置,然后准确地定位出文字出现的矩形区域(也称作文字块)。分割的 目的是进一步除去文字块中的背景,提取出文字笔画,并有可能地增强笔画的质量,以 得到OCR系统能够识别的二值文字图像。这种自上而下的框架如图12所示。在复杂背景下OCR技术中,采集到的图象一般为24位RGB(Red,Green,Blue)真彩 色图象,首先要对其进行灰度化处理,为后续的处理打下基础。同时由于目标文本所在 的图象背景复杂,目标文本与背景之间的对比度较小,从而边缘

24、纹理不够突出。在文本 分割前必须先将图像灰度化然后对灰度进行分级,扩大了灰度量化的间隔,适当加强灰 度图象的对比度,分的级别越多,有效信息量越大,本文采用灰度拉伸方法。最后,选 取适当的最大灰度级别n的值将我们图像中的有效信息绝大部分显示出来。详细的内容 介绍留待下一章。5华南理工大学硕士学位论文图12复杂背景文本提取的框架1.4.2 变体文字切分的解决方案切分是将整幅图像划分成单个字符图像的过程。切分的主要任务就是将字符分割开 来,因此切分所关注的是字符的边界信息,只要字符之间有间隔,利用一定的方法就能 将每个字符正确的切分出来。至于单个字符内部是否笔划粘连或断裂,对切分的影响并 不大。另外

25、我们研究的字符只有英文和数字,不包含中文字符。在变体文本图像排版中,尽管字体不同、字号不同,词内字符占用的空间宽度没有 按比例尺寸排列,但多数的字符行与字符行之间的有一定空白区,而这些空白区足以通 过投影分析获得,并且投影法获得空白区的算法复杂度小,执行速度快。因此,首先对 文本行进行x_方向的纵向投影,求出投影的空白分隔区。获得文本行图像后,需要进行字符切分才能得到单个字符图像。本文提出了采用上 下轮廓凹凸特征近似检测单个字符的宽度,在字符宽度的约束下,根据轮廓凹凸特征,直接建立切分路径,得到的切分路径在一定程度上可以很有效地将粘连字符切分。详细 的切分算法将在第四章介绍。6第一章引言1.

26、5 本文的章节安排本文的各章节安排如下:第一章引言,阐述了文本识别技术研究的理论意义和应用背景,以及复杂背景下 的文本图像识别的难点,以及本文的技术路线;,最后对各章的主要内容作了扼要地概 括;第二章OCR技术的研究和发展现状,介绍了 OCR发展历史和流程,以及现在已 有图像二值化的方法和切分方法;第三章复杂背景下的文本提取,详细介绍了本文所采用的文本提取方法,并用几 种方法进行对比实验;第四章变体文本的切分算法,介绍本文所用的切分算法;先阐述行切分的算法,然后说明字符切分的算法,最后给出实验结果;第五章变体文本的识别,先介绍了一些神经网络识别的知识,并说明本文所采用 的识别方法,给出最后的识

27、别结果;第六章结束语,得出本文结论。7华南理工大学硕士学位论文第二章OCR技术的研究和发展现状文字识别是模式识别的重要应用领域,是介于基础研究和应用研究之间的综合性技 术。本章追述了 OCR技术几十年的研究发展历程,对前人的工作进行了深入细致地分 析和探讨,为我们的研究工作提供了一定的参考,也为进一步对OCR技术的探索奠定 了深厚的理论基础。本章首先对OCR进行了基本介绍,然后对其核心技术:二值化、切分和特征提取 做了详细地归纳和分析,最后总结了当前OCR技术的发展方向。2.1OCR技术概述光学字符识别(OCR,Optical Character Recognition)是模式识别的一个重要分

28、支,简 单的说,是先将文本经扫描仪扫描,进行光电转换得到图像信息,然后利用识别技术,将图像信息转换为计算机可以直接处理的文字代码形式。它涉及模式识别、图像处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理 等众多学科,是介于基础研究和应用研究之间的综合性技术,在中文信息处理、办公室 自动化、机器翻译、人工智能等高技术领域,有着重要的实用价值和理论意义。2.1.1 发展历史OCR的概念产生于1929年,由德国的科学家Tausheck首先提出,到现在已经有 70多年的发展历史。欧美国家为了将浩如烟海、与日俱增的大量报刊杂志、文件资料和单据报表等文字 材料输入计算机进

29、行信息处理,从50年代就开始了西文OCR技术的研究,以便代替繁 重的人工键盘输入。经过40多年的不断改进和完善,并伴随着计算机技术的飞速发展,现已将OCR技术广泛应用于各个领域,使大量的文档资料能快速、方便、省时省力和 及时地自动输入计算机,实现信息处理的电子化。中文OCR技术最早可以追溯到60年代。1966年,IBM公司的Casey和Nagy发表 了第一篇关于中文OCR技术的论文,在这篇论文中他们利用简单的模板匹配法识别了 1,000个印刷体汉字。70年代以来,日本学者做了许多工作,其中有代表性的系统有1977 年东芝综合研究所研制的可以识别2000个汉字的单体印刷汉字识别系统;80年代初期

30、日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表 了当时汉字识别的最高水平。我国对中文OCR技术的研究始于70年代末、80年代初,大致可以分为三大阶段:8第二章OCR技术的研究和发展现状(1)第一阶段从70年代末期到80年代末期,主要是算法和方案探索。(2)第二阶段是90年代初期,中文OCR由实验室走向市场,初步实用。(3)第三阶段也就是目前,主要是印刷汉字识别技术和系统性能的提高。同国外相比,我国对中文OCR技术的研究起步较晚,但由于我国政府对中文OCR 技术的研究从80年代开始给予了充分的重视和支持,经过科研人员十多年的辛勤努力,中文OCR技术,尤其是印刷体

31、汉字识别技术的发展和应用,有了长足进步;从简单的 单体识别发展到多种字体混排的多体识别;从中文识别发展到中英混排的双语识别;从 背景简单到背景复杂的文字识别。我国的OCR识别技术在理论上与实践上都具有国际 先进水平。迄今为止,OCR技术已经发展的比较成熟,达到了实用的程度,在个人信息管理、办公自动化、电子出版物、网络资源、各种大型文献资料管理数据库、数字化图书馆等 领域有着广泛的应用,在邮政、金融、电子政务、保险、税务、工商等行业的需求呼声 也越来越高。随着OCR技术应用的领域越来越广泛,对于系统识别和处理能力鲁棒性的要求也 越来越高。在实际应用中,各种文本图像的情况复杂多变:纹理背景、变化背

32、景、噪音干 扰、不规则版面、低品质印刷等等。面对这些复杂的隋况,传统的OCR技术就显的力 不从心,因此,OCR的研究近年来就逐渐转移到如何高速准确的识别复杂背景文本图 像问题的研究上来。2.1.2 系统流程一般的OCR系统的流程如图2.1所示,主要包括:(1)扫描输入图像;(2)图像的预处理;(3)版面分析和理解;(4)文本图像切分;(5)基于单字图像的特征提取;(6)基于单字图像特征的模式分类;(7)识别结果的编辑修改和后处理。通过扫描仪等将印刷文本转换成二维原始图像,可以是灰度的(Grayscale)或二值的(Binary)一然后对原始图像预处理,包括去噪、倾斜校正或各种滤波处理一再对文本

33、 图像的总体进行版面分析,区分出文本段落及排版顺序,图像、表格的区域,对于文本 9华南理工大学硕士学位论文区域将进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进 行压缩或简单存储一)对文本区域进行行列字切分,以横版为例,就是将大幅的图像 先切割为行,再从图像行中分离出单个字符图像 从单个字符图像上提取特征,包 括为此而做的细化(Thinning)、归一化(Normalization)等工作文字识别,即从学习 得到的特征库中找到与待识字符相似度最高的字符类 后处理,是利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正。图2-1 OCR技术的流程图扫描输入图像:

34、原始图像是透过光学仪器,如影像扫描仪、传真机或任何摄影器材,将影像转入计算机而得到的。扫描仪等的输入装置的品质直接影响着原始输入图像的质 量,对OCR的性能也有一定的影响,扫描仪的高分辨率使影像更清晰、高扫描速度更 增进OCR处理的效率。图像的预处理:这部分包括对原始图像的去噪、倾斜校正和各种滤波处理,如果输入图像是灰度或彩色图像,一般还要进行二值化处理。第二章OCR技术的研究和发展现状版面分析和理解:版面分析完成对于文本图像的总体分析,区分出文本段落及排版 顺序、图像、表格的区域;对于文本区域将进行识别处理,对于表格区域进行专用的表 格分析及识别处理,对于图像区域进行压缩或简单存储。文本图像

35、切分:将大幅的文本图像区域先切割为行(列),再从图像行(歹U)中分离出 单个字符的过程。单字图像特征提取:特征提取是整个环节中最重要的一环,它是从单个字符图像上 提取统计特征或结构特征的过程,包括为此而做的细化(Thinning)、归一化(Normalization)等步骤。提取的特征的稳定性及有效性,直接决定了识别的性能。模式分类(识别):模式分类就是将待识别字符特征向量与通过学习得到的特征库 进行比对,找到相似度最高的字符类作为结果的过程。识别结果后处理:一般是利用词义、词频、语法规则或语料库等语言先验知识对识 别结果进行校正的过程:近几年来,为了进一步提高系统的总体识别率,图像的预处理、

36、版面分析和理解以 及识别后处理等方面的技术,也开始引起研究者的关注,并取得了一定的进展。各个环 节的方法和算法将在下面的小节中详细讨论,主要集中在我们所关注的二值化,切分和 特征提取这三个方面。2.2预处理图像二值化就是将一幅有多个灰度级的图像转化为只有黑和白两个灰度级的图像。二值化的图像的优点是便于数据压缩、能够使特征突出,但是在二值化的过程中也会丢 掉一些有用的信息,造成特征丢失。由于实际问题很复杂,定义一种通用有效的二值化 方法几乎是不可能的,目前已经提出的二值化方法不下100种,大部分的方法都是针对 具体的实际应用提出的,所以要用同一尺度进行精确的定量比较是不科学的。二值化属于图像处理

37、中的图像分割技术。图像分割主要有阈值、边缘检测和区域增 长三大类方法。阈值方法因其实现简单、计算量小、性能稳定而成为文本图像二值化的 最基本和应用最为广泛的二值化技术。阈值就是二值化时区分前景与背景的门槛值,小于或等于阈值的像素属于前景,而 其它属于背景。阈值的正确选择是二值化的关键,通常分为全局阈值和局部阈值两类,下面两节分别针对这两种方法的典型算法进行了讨论。11华南理工大学硕士学位论文2.2.1 全局阈值二值化图像的全局阈值二值化,就是对整幅图像计算一个阈值,小于阈值的像素标记为物 体(即黑色),否则认为是背景(白色)。这种方法速度快,对于质量好的图像特别是背景 单一的图像效果很好,但是

38、对背景复杂的图像,前景和背景的灰度级互相交错,单一阈 值就无法胜任了。下面介绍几种全局阈值的方法。积分率(Integral Ratio)的二值化法在文献中,Yan提出了基于积分率的二值化方法,该方法将图像的灰度直方图分 为三个类:前景、背景和一个既可以属于前景又可以属于背景的模糊区。如下图2.2所 示,其中x是灰度级,H(x)是灰度直方图,其中有两个参数A,C,它们将图像的灰度级 分为三个类。如果图像的灰度级g e A,C,即属于模糊区,需要利用图像中更多的信 息确定是前景还是背景。在文献中提出了两种求A和C的方法:NIR法和QIR法。然后在A,C之间求 得最优的阈值T:c/ryioT=C基于

39、灰度直方图的二值化法文献网中有该方法的详细介绍和源程序,该方法的主要思想是从图像的灰度直方图 中把灰度值的集合用阈值T分成两类,然后根据两个类别的平均值方差(类间方差)和各 类的方差(类内方差)的比为最大来确定阈值T。12第二章OCR技术的研究和发展现状假设给定的图像有L个灰度级,设阈值为T,把具有T以下的灰度值的像素和具有 比T大的灰度值的像素分为两类,设为类1和类2,类1中的像素数量为W,灰度 值的均值为MKT),方差为5;同样类2中的像素数为W(T),灰度值的均值为M2(T),方差为e(T).全体像素的平均值为Mt,则类内方差由下式(22)计算:4=1 q.2)类间方差由下式(23)计算

40、算用6%-46巴(2.3)为了使:可V:变得最大,最好是使。:最大,求出最大的6所对应的灰度值即为所 求阈值。基于灰度差直方图的二值化法在文献中提出了基于灰度差直方图的阈值选取方法,以灰度差直方图为依据,为 图像二值化选取阈值,该方法的具体步骤如下:图像中的每个像素,分别计算该像素与周围领域的差值,5为大于。部分的和,d2 为小于0部分和的绝对值,将这两个值分别加入各自的灰度差直方图,横坐标是该像素 的灰度级;计算完灰度差直方图后,则对应于最大灰度差累计和的灰度级即为阈值T,这样得 到的阈值为Ti,T2,二值化的阈值为:T=(Ti+T2)/2考虑信息嫡的二值化法文献中认为前景和背景是两个不同

41、的信息源,使这两个信息源的嫡最大的阈值就 是所求的阈值。图中的前景埼和背景燧分别定义如下:-所以最优阈值为:TopargmaxtHKTHHbfT);人工设定整体阈值前面的方法均属于自动整体阈值法,人工设定整体阚值这种方法是根据试验或者前 人的经验,预先给定一个固定阈值。这种方法的缺点是:13华南理工大学硕士学位论文1)不能根据每个文字确定它最佳的阈值;2)确定阈值后,当光源和外界等条件改变时,不能使阈值随之改变。2.2.2 局部阈值二值化方法由于全局二值化方法不能处理复杂图像,为了提高二值化后图像的质量,所以提出 了局部二值化的方法。局部阈值二值化方法就是每一个或一块像素的阈值的确定是同其 周

42、围像素有关而与其它位置的像素无关。由于每一个像素或者一块像素都要计算一个阈 值,所以图像二值化的效果好,适应的范围广,但是这些都是以降低速度作为代价的。局部二值化的一个最大的不足就是容易形成空心物体。同时,窗口的选择也是一个难点。下面几节介绍了几种常用的局部阈值二值化方法。Eikvil提出的方法图23大小窗口示意图Eikvil等在文献【中提出该方法,如上图23所示,小窗口 SXS的阈值的选取是以 大窗口 LXL为基础的,大窗口以步长S移动,在窗口 LXL中,利用Otsu提出的基于 灰度直方图的方法求出阈值T,并且求出两类的均值mi,1112,小窗口中像素二值化的 阈值就为T。如果|m】m2|/

43、则用T,否则小窗口中的像素属于距离中心较近的类。根据文献臼其中S=3,L=15,7=150Niblack提出的方法文献中提出的该方法非常简单,但是非常的高效。其思想是:根据局部的均值和 方差决定中心像素的阈值。对于一个以坐标(i,j)为中心的rXr的窗口,该窗口中的像素 的均值和方差为:m(i,j),s(i,j),则该点的阈值为:T(i,j)=m(b j)+k*s(i,j)在这种方法中窗口大小r的选择非常重要,r不能太大,否则图像的细节无法保留,14第二章OCR技术的研究和发展现状r不能太小,否则图像的噪声无法压制。根据文献,尸15,k=-0.2 J.M.White提出的方法在文献中J.M.W

44、hite等介绍了两种二值化的方法。第一种方法为非线性动态窗口 阈值法,该方法中经验参数太多,而且有三个经验函数从目前可以得到的任何资料中无 法得到,所以该方法无法得到结果。另一种方法为综合函数法,该方法首先进行梯度检 测,是物体的标记为,是背景的标记为“一”,还有一个第三态“0”o然后根据 这些序列来确定哪些像素是背景,哪些像素是前景。方法具体如下:在原始图像上计算图像的Activity算子:A(i,j);在原始图像上接着计算Laplace梯度:ddxy(i,j);根据A(i,j)、ddxy(i,j),得到一个三值图像:aSsa;力=+(,/(4力 27。如。彳otherwise(2-4)根据

45、文献网 Ti=20,T2=16,T3=30,T4=128,T5=20;23切分方法所谓切分就是从整幅图像中分割提取出单个字符图像的过程,切分是整个流程中非 常关键的一步,如果切分出现错误,识别的正确性根本无从谈起。迄今为止,在文献中 提到的切分方法不胜枚举,但直到今天,切分仍然存在不少的问题。对切分方法的分类 也是多种多样,在本文中,切分被分为四种基本策略:经典切分法、连通区域法、基 于识别的切分方法、整体切分法。切分方法虽然多种多样,但都是基于这四种策略中的 一种或几种的混合。2.3.1 经典切分方法经典切分法也称作标准切分方法。它指根据文本图像本身所具有的一些属性特征(例如宽、高、基线位置

46、等),切割成单个字符图像的方法。这种切分方法从50年代OCR 技术开始发展时就己得到应用,并且随着OCR的发展,也不断地得到改进,但是基本 思想没有变,仍是根据图像的统计特征进行切分。间距法主要应用于打印稿(machine printing)。由于打印稿每个字符所占的块通常有固定的 宽度、倾斜度,打印稿水平单位距离上的字符数通常固定。通过这些属性,可以估计出 切分点的位置。垂直投影法垂直投影法在切分中被广泛使用。垂直投影V(x)是通过在x坐标处的该列上的所 有的黑点相加得到的。在任意一个单行垂直投影中,在任意一个竖直笔画处都将出现峰,如果字符是完全分开的,V(x)将在字间为0。这种切分方法应用

47、广泛,它是通过对输入图像的垂直扫描线上出现的黑色信息点的 个数进行统计,再根据统计值特征进行字符切分。这种方法在图像质量良好的时候(每 个字符能够很好的分开并且没有断裂的情况)是可以很好的完成字符切分问题,然而在 实际应用中,大多数的图像都不能满足这种要求。不过在切分技术中,垂直特征还是一 个很重要的特征。16第二章OCR技术的研究和发展现状如下图2所示:IIII图24图像垂直投影示意图基于多行的垂直投影法这种切分方法实际上是垂直投影方法的变形形式。它通过对多行文字在垂直扫描中 进行多行信息点个数的统计,然后根据统计特征进行字符切分。这种方法可以有效的解 决由于个别字符断裂产生的错误切分问题。

48、但是这种方法主要用于类似于点阵式打字机 输出的字符排列很规正的文本图像,因而该种方法的局限性也很大。Lu.在文献期中针 对这种形式的文本图像的切分提出两种基于此种切分思想的方法。在这两种方法中,第一种方法是用各行的x高去进行分组。比如下图2-5中有两组,第一行为一组,二、三行构成了第二组。然后对各组分别进行垂直投影,多行垂直投影 就是简单的各列累加。如果所有的位于同一组的字行都有适当的排列,不同行的字将有 相同的边界。这意味着多行垂直投影中零值的间隔正是二值图中水平方向连在一起的部 分的分隔处。回用tw图25图像多行分组示意图Lu的另一种方法是周期字间检测法(GPD)。该方法利用固定字体(但不

49、包括比例字 体)中字间必须周期出现的事实,首先,该方法利用多行垂直投影部分去检测待切分区 域中最合适的偏移和大小。大小的估计是基于垂直投影的平均字间长。如果这两种方法 的估计超过了经验阈值,或估计的大小远大于平均字行高度,则字体并不是固定大小,华南理工大学硕士学位论文需要用其它的方法。多行处理的想法是想用累积投影法来消除单行中不确定的错误。以上阐述的两种方 法是针对固定大小字体切分的,尤其对断字和点阵字体有效。其想法来源于固定大小字 体的字间一定会在字行中固定间距出现的性质。因为对行组进行操作,所以这两种方法 的效率都非常高。基于垂直投影特征的分析切分方法以上的三种方法要求图像质量非常高,而在

50、实际的OCR应用中,输入的图像质量 往往参差不齐,很难达到上述方法的要求。所以很多人就根据图像垂直投影特征的一些 数学性质提出了基于垂直投影特征的分析切分方法,在实际的OCR系统中,这种方法 应用的最多,也是种类最多的。由于在实际的文本图像中经常影响切分效果的情况是字 符的断裂、字符的粘连和字符的紧排,因而该方法研究的几个方向也是针对这几种情况。1、字符的断裂一般针对字符断裂的算法包括一个估计子函数、一个合并子函数和一个判断子函 数。首先通过垂直投影得到字符的字宽、字间距和字的中心距等统计值,然后用估计子 函数估计出平均字宽和平均字间距,再用合并子函数对每个切分出的部分进行处理,对 可能是由于

展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服