1、中北大学信息商务学院1 绪论随着互联网和多媒体技术的快速发展,世界进入了一个崭新的信息化时代。以图像、动画、视频为主要元素的各种多媒体信息构成了信息传播的主力。最近几年以来随着既有拍照功能的便携式电子设备,比如智能手机,平板电脑等,随着技术的不断更新升级,人们急需一种方便的应用程序来提取处理图像中内嵌的文本信息。这都使得彩色图像下的文本的提取成为一个很有意义的研究课题。彩色图像中的文本提取即为彩色图像中文本定位,是很困难的问题。由于其广泛的应用领域越来越受到人们的重视。 因此,将图像中的文本提取出来将便于不停国家,不同文化之间的交流。 1.1研究意义和背景随着计算机技术、多媒体技术和通讯技术的
2、发展,以图像、声音和视频为主的多媒体信息的应用越来越广泛,图像中的文本信息对检索和浏览有十分重要的意义。在彩色图像中,文本信息包含了丰富的高层语义信息1。文本可以作为图像的内容标识和索引,是图像内容重要程度的判断依据,例如出现醒目文字的帧,可以抽取出来作为对应的图像的代表帧。如果这些文字信息能自动准确的被检测、分割、识别出来,则对图像高层语义的自动理解、索引和检索是非常有价值的。随着技术的不断发展,人们对彩色图像中文字提取进行了广泛的研究,并已有许多成熟的技术应用在各个领域,如交通管理中的汽车牌照识别和港口货物管理的集装箱编码识别等。但自然场景中的文本分割依然面临着许多复杂的问题,主要原因是:
3、(1)文字和其他自然景物混杂在一起,如树、窗户和房屋建筑等,背景复杂;(2)文字的颜色多种多样;(3)文字的字体和大小复杂多变;(4)光照的变化等。因此从自然场景图像中提取文本是一项极具挑战性的工作。目前已有的文本区域提取方法大致可以分为四类:(1)基于边缘的方法(2)基于纹理的方法(3)基于连通域的方法(4)基于学习的方法。在各种自然彩色图像中,往往可以见到各种各样的文字,这些文字一般和该图像的语义内容相关,或者提供了某种定位辅助信息。若能准确的将这些文字信息定位出来,并进行处理,使之能够被传统的OCR软件识别并被转化成为机器内码,结合自然语言处理,文本检索,文本翻译,语音合成等技术可以被应
4、用到各种领域实现。1.2课题发展现状针对图像、视频文本检测和提取的研究,主要有以下算法:Rainer Lienhart2利用文字颜色的单一性、文本区域的大小约束、同一文本会在连续几个视频帧出现等特点,对文本进行检测和定位。首先对视频帧使用分裂合并算法,将视频帧分解成颜色一致的连通元(connected component)。然后通过匹配算法,对连通元进行多帧跟踪,去除那些没有连续多帧出现的连通元。最后通过对比度的分析,形状分析等去除非文本的连通元。该算法要对每一个视频帧进行分裂合并算法,而且视频中生成的连通元绝大部分都不会是文本,因此算法复杂度太高,系统效率低。Boon -Lock Yeo3提
5、出利用场景变化来检测视频文本的出现和消失。算法对相邻两个视频帧取差值,在差值图像中寻找高亮区域。这种算法只能提取高亮的视频字幕,而不能提取非高亮度的字幕,而且也会受到较亮的物体的干扰。Byung4提出用字符的拓扑结构特征来提取字符文本区域,然后对视频字幕区域进行复原。该算法是基于单个视频帧图像的字幕提取,效果并不明显。Marco Bertin5利用角点特征来进行的视频字幕检测。这种算法实质上类似于基于灰度边缘的算法等。王辰等6等通过灰度边缘检测来定位文本区域。首先提取视频帧的灰度边缘,然后合并相邻的边缘,生成候选文本区域,最后用一些启发式规则来去除虚假的文本区域。该算法不能提取灰度值和背景接近
6、的文本。王勇等7提出一种基于边缘点密度的视频字幕自适应检测算法。采用基于边缘检测的方法,结合文字图像区域本身的特点,在对原图像进行边缘检测和形态学膨胀后,对其在水平和垂直方向的边缘密度投影采用一种自适应的检测算法,从而检测得到字幕图像区域。该算法的优点是可以检测出各种字体大小的文本行。但是算法不能提取灰度值和背景接近的文本。郭丽等8提出一种基于颜色边缘点和游程平滑的视频文本提取算法。黄晓东等15综合应用小波变换和颜色聚类技术来提取视频帧中的字幕区域。首先,通过小波变换计算视频中的局部能力特征,能量高的区域作为候选字幕区域。然后利用字幕颜色一致的特征,进行邻域颜色聚类算法,从背景中分离出字幕。最
7、后利用字幕属性特征消除噪声。但是该算法容易受到颜色一致的物体的干扰。处理图像的时间较长。1.3本文主要研究方向 课题的主要目标就是在彩色图像下提取文本信息,二值化分割进而识别文字这一特定语义对象。在各种彩色图像中,往往可以见到各种各样的文字,这些文字一般和该图像的语义内容相关,或者提供了某种定位辅助信息。若能准确的将这些文字信息定位出来,并进行处理,使之能够被传统的OCR软件识别并被转化成为机器内码,结合自然语言处理,文本检索,文本翻译,语音合成等技术可以被应用到各种应用领域。对图像中文字的提取首先确定包含文字的图像区域,滤除非文本背景的干扰,把彩色图像中的文本区域定位出来,这是文字提取工作中
8、最难、最关键的环节,确定包含文字图像的区域后,利用文本特征制定启发式规则,滤除非文本区域,得到二值化文本字符,为了方便后面的文字抽取,在字符抽取前进行一次文字区域图像质量的改善也很有必要,对文字提取后,最终采用OCR技术对字符进行识别。1.4本文主要内容与安排论文从课题出发,第一章绪论中阐述了彩色图像中文本信息提取的四种方式,然后比较对于不同场景和复杂背景各种方式的可操作性。并将完整的文字提取系统划分为文字定位、文字分割和文字识别三个阶段,指出前两部分是本文所要解决的问题所在。第二章主要介绍了文本定位与提取方法综述,简单的介绍文本提取原理,对文本粗提取与细提取的步骤进行了阐述。第三章文本预处理
9、,主要介绍了对文本的灰度化,直方均衡,和图像降噪等等,使提取出来的图像对后面的文本细定位做了准备。第四章结合边缘检测和数学形态学特征对文字进行定位,边缘检测算法中5种算子的比较,基于边缘的图像文本处理技术。应用了基于彩色图像的canny算子边缘的方法。结合数学形态学中各种运算做了文本细定位。第五章介绍文字分割典型的常见手法并且加以比较,针对彩色图像中文本定位提取的问题,对文本区域进行字符提取,成功提取出单个字符串。第六章展望与总结。2. 彩色图像文本特征分析与提取人们识别文本的过程不是有规律的基于逻辑的思维方式,而是一种无规则的基于直觉的思维方式。目前电脑还达不到模拟人类直觉思维方式的水平,它
10、只能利用大量的运算来逼近人们的类比识别过程,因此某一些特定的数学运算并不足以适应多种情况下大的需要,并且对于图像中的目标文本而言,文本不单单以一种特定形式表现,而是根据不同的情况存在有不同的表现方式,比如颜色、梯度、纹理、边缘等等。2.1彩色文本提取常用方法目前存在的很多图像文本提取技术有很强的针对性,对于不同的文本特征,比较适用的提取方法如表2.1所示。表2.1文本提取技术及其对应的文本特征文本提取技术对应文本特征具体实现方案基于连通分量的技术颜色、灰度值阈值化方法,颜色聚类,颜色量化基于边缘的技术边缘和梯度边缘检测算子基于纹理的技术纹理和梯度K-mean方法基于学习的技术像素灰度值、彩色梯
11、度神经网络,支持向量机目前文字识别各种技术相对成熟并已经投入实际应用。相比之下,如何准确的将文字区域提取出来目前还处于探索阶段。其主要的难点在于:文本存在于复杂背景之中难以区分;文本存在严重的形变和几何畸变;自然环境下由于照度的不均匀、阴影、反射等原因等造成的文本图像的亮度变化。由于存在这些难点,才使得图像文字提取成为一个值得深入研究的课题。通常情况下根据文本对象的存在形式将文本分为人工文本和场景文本。目前的研究主要集中于对人工文本的研究,而场景文本的研究刚刚起步。文本提取的研究思路主要集中于应用各种图像处理的方法将文字区域的边角特征、色彩特征和纹理特征突出,然后根据一定的分类算法来划分候选的
12、区域,经过进一步的后处理来最终确定实际的文本区域。在本文将文本的定位、定位与提取、作为文本区域提取整体来讨论,包含预处理、特征提取、分类(定位)、生成候选区域、文本区域提取几个步骤来解决文本区域的准确提取问题。在本文将文本的定位、定位与提取、作为文本区域提取整体来讨论,包含预处理、特征提取、分类(定位)、生成候选区域、文本区域提取几个步骤来解决文本区域的准确提取问题。彩色图像文本提取流程如下图所示。字符识别图像采集字符分割文字定位图像预处理图2.1 彩色图像文本提取 文本信息提取流程包含了文字定位、文字分割和光学字符识别(OCR)三个串联的阶段。本文主要介绍文字定位和文字分割。在第一部分图像采
13、集中,主要通过CCD 摄像头与计算机的视频捕捉卡直接相连来完成图像采集。该部分功能可简单调用计算机视频捕捉卡厂商提供的各种软件开发包工具即可实现。彩色图像中的文本提取的关键在于后四部分。首先要对采集到的图像进行预处理,而文本定位又决定其后的文本字符识别,因此文本域定位是关键,文本区域定位就是从包含整个图像中找到文本所在区域的位置。目前,已经提出了很多种方法,一个共同的出发点是:通过文本的特征来判断区域,利用的文本特征主要包括:文本区域内的边缘灰度直方图统计“特征”、文本的几何特征、文本区域的灰度分布特征、文本区域水平或垂直投影特征、文本形状特征和频谱特征。2.2 图像预处理根据三基色原理,世界
14、上任何色彩都可以由红绿蓝(RGB)三色不同比例的混合来表示,如果红绿蓝(RGB)三个信号分别由一个字节表示,则该图像颜色位数就达到二十四位真彩,也就是说在二十四位真彩的数字图像中每个像素点由三个字节来表示,根据数字图像水平和垂直方向像素点数(即图像分辨率)可计算出一幅图像实际位图大小。通常文字在字体、大小、颜色、对齐方式和排列方向上常常有很大的变化,文字背景复杂,图像分辨率低,图像噪声高,而且很多系统在应用上还要求算法有较高的处理速度,这些都使得从图像中有效地提取出文字变得异常困难。但我们可以对图像根据不同应用特点进行识别前的预处理,尽最大可能提高文本正确识别率,这些图像预处理包括图像平滑、倾
15、斜校正、直方图均衡化、灰度修正等。 2.3 文字定位彩色图像往往是在复杂的环境中得到的,图像中往往有很大的形变,如何在复杂背景中准确、快速找出文本的位置成为文本识别中的难点10。目前已有不少学者在这方面进行了研究。总结起来主要有如下几类方法:(1) 基于水平灰度变化特征的方法,这种方法主要在文本定位以前,需要对图像进行预处理,将彩色图像转换为灰度图像。(2) 基于边缘检测的定位方法,这种方法是利用文本区域丰富的边缘特征进行文字定位11,能够进行检测的方法有多种,如Roberts 边缘算子、Prewitt 算子、Sobel 算子以及拉普拉斯边缘检测;(3) 基于颜色特征的定位方法,这种方法主要是
16、应用图像的纹理特征、形状特征和颜色特征即利用字符和底色具有明显的反差特征来排除干扰进行文字的定位;(4) 基于数学形态学的定位方法,这种方法是利用数学形态学图像处理的基本思想,利用一个结构元素来探测一个图像,看是否能将这个结构元素很好的填放在图像内部,同时验证填放元素的方法是否有效。腐蚀、膨胀、开启和关闭是数学形态学的基本运算。这些方法各有优缺点,本文结合数学形态学的特征和边缘检测对文本进行定位,对于提高文本定位准确率提供更有利的保障。该方法包括文字区域的粗定位和细定位两个步骤。在粗定位阶段中采用了基于数学形态学的定位方法,在得到定位图像后进行细定位,在细定位中采用颜色特征的方法以获得最后定位
17、图像。本方法对在多种光照条件下采集的彩色图像、背景复杂等情形,均能取得较好的定位效果。2.3.1 文本粗定位由摄像机采集的彩色图像首先转化为灰度图像,经过灰度均衡变换、Canny边缘强化,其边缘得到了勾勒和加强。这里选用的是数学形态学的方法,其基本思想是用具有一定形态的机构元素去量度和提取图像中的对应形状以达到对图像分析和识别的目的。数学形态学的应用可以简化图像数据,保持它们基本的形态特征,并除去不相干的结构。在本文中用到了膨胀和开运算这两个基本运算。2.3.2 文本细定位在获得文本粗定位后,利用彩色图像的彩色分割方法。根据图片底色等有关的先验知识,采用彩色像素点统计的方法分割出合理的文本区域
18、,确定图片底色RGB对应的各自灰度范围,然后行方向统计在此颜色范围内的像素点数量,设定合理的阈值,确定车牌在行方向的合理区域。然后,在分割出的行区域内,统计列方向蓝色像素点的数量,最终确定完整的车牌区域。2.4文本分割图像的分割即把文本区域分割成单字符区域,以便后续进行识别。文字分割的难点在于噪声合字符粘连,断裂对字符的影响。要想从图像中直接提取出目标物体,最常用的方法就是设定一个阈值T,用T将图像的数据分成两部分:大于T的像素群和小于T的像素群,即对图像二值化。均值滤波是典型的线性滤波算法,它是指在图像上对目标像素给一个模板,该模板包括了其周围的临近像素。再用模板中的全体像素的平均值来代替原
19、来像素值。2.5本章小结:本章主要介绍了目前彩色图像中文本信息的提取流程,对各个步骤进行了简单的概述。想要精确的提取出文本区域,必须综合考虑文本的各种特征,在初步提取的基础上利用各种限制性条件,滤除非文本区域,得到目标文本。3图像预处理因为天气或者拍摄角度等原因会造成图像模糊、歪斜或缺损的情况,所以我们在分析图像文本时要对图像进行预处理,一般动作有对输入的灰度图像进行大小归一化,避免因图像的变形而影响后续的处理,通过灰度拉伸增强图像对比度,通过二值化处理实现图像中背景和对象的分割。采用动态阈值法确定图像二值化的关键阈值,使用带修正的自适应邻域平均法消除图像干扰和噪音一般对灰度图像可以实现较好的
20、处理效果。3.1灰度校正由于图像受到种种条件的现实和干扰,图像的灰度值往往与实际景物不完全平匹配,这将直接影响到图像的后续处理,如果造成这种影响的原因主要是被摄物体远近不同,或是由于曝光不足而使得图像灰度变化范围变窄。这时就可以采用灰度校正的方法来处理,增强灰度的变化范围,丰富灰度层次,以达到增强图像的对比率和分辨率。在RGB模型中,如果R=G=B时,则彩色表示一种灰度颜色,其中R=G=B的值叫灰度值,因此,灰度图像每个像素只需一个字节存放灰度值(又称强度值、亮度值),灰度范围为0-255。根据人类色彩感光特性,可以采用以下公式计算得到彩色图像中各个像素的灰度值。 (3.1)为避免浮点数计算,
21、加快计算速度,叫以用式(2) 代替式(1)运算。 (3.2)其中考虑了整数除法的四舍五入。式(3.2) 可进一步简化为: (3.3)这使得运算时间进步缩短。实验时,系统采用式(4)进行灰度化计算。 (3.4)一般有以下三种方法对彩色图像进行灰度化:1.分量法 将彩色图像中的三分量的亮度作为三个灰度图像的灰度值,可根据应用需要选取一种灰度图像。2.最大值法 将彩色图像中的三分量亮度的最大值作为灰度图的灰度值。3.平均值法 将彩色图像中的三分量亮度求平均得到一个灰度图14。综上所述,将原图像转化为灰度化如图3.1所示。 (a) 原图 (b) 灰度化图像图 3.1 原图像转化为灰度化3.2图像降噪彩
22、色图像受到光照等影响,图像的输入、采集、处理的各个环节以及最终的输出结果都会产生一定的影响,特别是在图像的输入、采集过程中,若输入伴有较大噪声,必定会对其后的处理以及最终的文字提取效果造成不利。因此,对图像进行去噪对图像文本的提取很是重要。 3.2.1 均值滤波均值滤波也称为线性滤波,其采用的主要方法为邻域平均法。其基本原理是用均值替代原图像中的各个像素值,即对待处理的当前像素点,选择一个模板,该模板由其近邻的若干像素组成,求模板中所有像素的均值,再把该均值赋予当前像素点 ,作为处理后图像在该点上的灰度: (3.5)其中,为模板,为该模板中包含当前像素在内的像素总个数。3.2.2 中值滤波中值
23、滤波是基于排序统计理论的一种能有效抑制噪声的非线性信号处理技术。其实现原理如下:将某个像素邻域中的像素按灰度值进行排序,然后选择该序列的中间值作为输出的像素值,让周围像素灰度值的差比较大的像素改取与周围的像素值接近的值,从而可以消除孤立的噪声点。其具体的操作是:首先确定一个以某个像素为中心点的领域,一般为方形领域(如3 * 3、5 * 5的矩形领域),然后将领域中的各个像素的灰度值进行排序。假设其排序为:, (3.6)取排好序的序列的中间值作为中心点像素灰度的新值,这里的邻域通常被称为窗口。当窗口在图像中上下左右进行移动后,利用中值滤波算法可以很好地对图像进行平滑处理。本文应用中值滤波对图像进
24、行降噪,所以根据中值滤波原理可知,通过数据排序的方法,将图像中未被噪声污染的点代替噪声点的值的概率比较大,因此噪声的抑制效果很好,同时画面的轮廓依然比较清晰。如下即分别为用中值滤波处理后的图像: (a)原图 (b)中值滤波处理图图3.2图像降噪处理图3.3灰度直方图修正直方图是图像的最基本的统计特征,它反映的是图像的灰度值的分布情况。直方图均衡化的目的是使图像在整个灰度值动态范围内的分布均匀化,改善图像的亮度分布状态,增强图像的视觉效果。灰度直方图是图像预处理涉及最广泛的基本概念之一。图像的直方图事实上就是图像的亮度分布的概率密度函数,是一幅图像的所有像素集合的最基本的统计规律。直方图反映了图
25、像的明暗分布规律,可以通过图像变换进行直方图调整,获得较好的视觉效果17。一幅给定图像的灰度级经归一化处理后,分布在范围内。这时可以对0,1区间内的任意一个r值进行如下变换: (3.7)也就是说,通过上述变换,每个原始图像的像素值r都对应产生一个s值。变换函数应该满足下列条件: 在区间内,是单值单调增加; 对于,有这里第一个条件保证了图像的灰度级西欧哪个白到黑的次序不变和反变换函数的存在。第二个条件则保证了映射变化后的像素灰度值在允许的范围内。从s到r的反变换可用式(3.8)表示,同样也满足上述两个条件 (3.8)由概率论理论可知,若已知随机变量的概率密度为,而随机变量是的函数,即,的概率密度
26、为,所以可以由求出。因为是单调增加的,由数学分析可知,它的反函数也是单调函数。在这种情况下,当,且仅当时发生,所以可以求得随即变量的分布函数为: (3.9)对式(3.9)两边求导,即可得到随即变量的分布密度函数为:(3.10)由式(3.10)可知,对于连续情况,设和分别表示原图像和变换后图像的灰度级概率密度函数。根据概率论的知识,在已知和变换函数时,反变换函数也是单调增长,则可由式(3.10)求出。 (a)原灰度图像 (b)直方图均衡图3. 3 直方图均衡处理3.2平滑处理 对于受噪声干扰严重的图像,由于噪音点多在频谱中映射为高频分量,因此可以通过中值滤波来滤除噪音,但实际中为了简化算法也可以
27、直接在空域中用求领域平均值得方法来消弱噪音影响。这种方法就是平滑处理。 经过上述方法分割出来的文本区域图像中存在目标文本、背景还有噪声,要想从图像中直接提取目标物体,最常用的方法就是设定一个阈值T,用T将图像的数据分成两部分:大于T的像素群和小于T的像素群,即对图像的二值化。均值滤波是典型的线性滤波算法,它是指在图像上对目标像素给一个模板,该模板包括了周围的临近像素,再用模板中的全体像素的平均值来代替原来的像素值。3.5本章小结: 对图像中文本区域的细定位首先要是对图像进行预处理,本章着重介绍了目前常用的预处理方法,通常文字在字体、大小、颜色、对齐方式和排列方向上常常有很大的变化,文字背景复杂
28、,图像分辨率低,图像噪声高,而且很多系统在应用上还要求算法有较高的处理速度,这些都使得从图像中有效地提取出文字变得异常困难。但我们可以对图像根据不同应用特点进行识别前的预处理,尽最大可能提高文本正确识别率,这些图像预处理包括图像平滑、倾斜校正、灰度修正等。4 文本定位在获得预处理的图像后,利用彩色图像的彩色分割方法。根据图片底色等有关的先验知识,采用彩色像素点统计的方法分割出合理的文本区域,确定图片底色RGB对应的各自灰度范围,然后行方向统计在此颜色范围内的像素点数量,设定合理的阈值,确定文本在行方向的合理区域。然后,在分割出的行区域内,统计列方向蓝色像素点的数量,最终确定完整的文字区域。本文
29、应用基于边缘的方法实现对文本的定位。仅仅依靠单一文本特征的图像分割方法不适于复杂彩色图像文本的提取,必须要在初步提取的基础上,考虑更多的文本特征,对候选文本区域进行筛选。鉴于图像的边缘是图像的最基本特征之一,人们在观察一幅图像时,最先得到的信息就是图像的外形轮廓(边缘)。因此,本章提出一种基于边缘的文本检测算法,借助图像的边缘特征为主要特征,颜色尺寸等特征为辅,更好地分割识别出彩色图像中的文本。其文本定位如下图示: (a)原图像 (b)梯度分割结果图4.1 图像定位结果4.1图像边缘检测技术根据边缘是图像上灰度值的变化最为剧烈的地方,反映为数学表达就是函数梯度比较大的地方,因此边缘检测的思路主
30、要集中在研究比较好的求导算子上面12。边缘检测的方法主要集中于计算图像灰度值的一阶导数或二阶导数,图像的边缘点对应于一阶微分图像的峰值点,在二阶微分图像上对应于零交叉点。一般的图像边缘检测方法有三个步骤:图像滤波,使用滤波器来改善与噪声有关的边缘检测器的性能;图像增强,一般是通过计算梯度的幅值来完成;图像检测,确定哪些点是边缘点。最简单的边缘检测判断依据是梯度幅值。4.2边缘检测算子 边缘检测的基本算法有很多,有梯度算子、方向算子、拉普拉斯算子和坎尼(Canny)算子等等。几种常用的边缘检测方法有属于梯度算子的Roberts算子、Sobel算子和Prewitt算子、高斯偏导滤波器(LOG)以及
31、Canny边缘检测器等。下面介绍几种经典的边缘检测算子13。4.2.1 Sobel 算子考虑到采用33邻域可以避免在像素之间内插点上计算梯度,设计出下图4.1中所示的点i,j 周围点的排列。Sobel算子即是如此排列的一种梯度幅值, (4.1)其中 (4.2)其中的偏导数用下式计算(如图4.1): (4.3)其中常数c=2,和其他的梯度算子一样,和,可用卷积模板来实现,请注意这一算子把重点放在接近于模板中心的像素点。Sobel算子是边缘检测器中最常用的算子之一。4.2.2 Prewitt 算子 Prewitt算子类似于Sobel算子,不同的是常系数c=l。由于常量c的不同,这一算子与Sobel
32、算子不同的地方在于没有把重点放在接近模板中心的像素点。当用两个掩模板(卷积算子)组成边缘检测器时,通常取较大的幅度作为输出值。这使得它们对边缘的走向有些敏感。取它们的平方和的开方可以获得性能更一致的全方位的响应。这与真实的梯度值更接近。另一种方法是,可以将Prewitt算子扩展成八个方向,即边缘样板算子。这些算子样板由理想的边缘子图构成。依次用边缘样板去检测图像,与被检测区域最为相似的样板给出最大值。用这个最大值作为算子的输出值MIA,这样可将边缘像素检测出来13。4.2.3 Roberts 算子 1963年Roberts提出了边缘检测和边缘检测的这个简单算子14。边缘,是指周围像素灰度有阶跃
33、变化或屋顶等变化的那些像素的集合。图像的边缘对应着图像灰度的不连续性。显然图像的边缘很少是从一个灰度跳到另一个灰度这样的理想状况。真实图像的边缘通常都具有有限的宽度呈现出陡峭的斜坡状。 边缘的锐利程度由图像灰度的梯度决定。梯度是一个向量,f 指出灰度变化的最快的方向和数量。 (4.4)梯度的大小和方向是由: (4.5) (4.6)因此最简单的边缘检测算子是用图像的垂直和水平差分来逼近梯度算子: (4.7)因此当我想寻找边缘的时候,最简单的方法是对每一个像素计算出的向量,然后求出他的绝对值,然后进行阀值操作就可以了。利用这种思想就得到了Roberts算子: (4.8)a) 它是一个两个22模板作
34、用的结果(标注.的是当前像素的位置): 和 4.2.4 Log算子 前面都是利用边缘处的梯度最大(正的或负的)这一性质来进行边缘检测,即利用了灰度图像的拐点位置是边缘的性质。Log算法理论是从生物视觉理论导出的方法。其基本思想是:首先在一定范围内做平滑滤波,然后利用差分算子检测在相应尺度上的边缘。滤波器的选择取决于两个因素,一是要求滤波器在空间上平稳,空间位置误差要小,二是要求平滑滤波器本身是带通滤波器,在其有限带通内是平稳的,即要求频域误差w要小。由信号处理中的测不准原理知,与w是矛盾的,达到测不准下限的滤波器是高斯滤波器。Marr和Hildreth提出的差分算子是各向同性的拉普拉斯二阶差分
35、算子15。Log边缘检测器的基本特征是:1、 平滑滤波器是高斯滤波器2、 增强步骤采用二阶导数(二维拉普拉斯函数)3、 边缘检测判据是二阶导数零交叉点并对应一阶导数的较大峰值 这种方法的特点是图像首先与高斯滤波器进行卷积,这一步既平滑了图像又降低了噪声,孤立的噪声点和较小的结构组织将被路滤除。由于平滑会导致边缘的延展,因此边缘检测器只考虑那些具有局部梯度最大值的点为边缘点,这一点可以用二阶倒数零交叉点来实现。拉普拉斯函数用作二维二阶倒数的近似,是因为它是一种无方向算子。为了避免检测出非显著边缘,应选择一阶导数大于某一阈值的零交叉点为边缘点16。Log算子的输出是通过卷积运算得到的: (4.9)
36、 根据卷积求导法有: (4.10)一阶导数的边缘算子有时会导致检测的边缘点太多,检测处的边缘较粗。而二阶导数的过零点处对应着一阶导数的局部最大值,因此利用二阶导数的算子求得局部梯度最大值对应的点,并判定它们属于边缘点,可以检测得出更加精确的边缘。Canny算子提出了评价检测性能优劣的三个准则28,信噪比准则(真正的边缘尽可能少的丟失又要尽可能避免将非边缘点检测为边缘)、定位精度准则(检测的边缘应尽可能接近真实的边缘)、单边缘响应准则(对每一个边缘点有唯一的响应,即得到单像素宽度的边缘)。根据三个准则,可以得到最佳的边缘。4.2.5 Canny算子还有一个重要的边缘检测算子,即Canny算子,它
37、是最优的阶梯型边缘(step edge)检测算子。从以下的3个标准意义来说,Canny边缘检测算子对白噪声影响的阶跃型边缘是最优。(1)检测标准。不丢失重要的边缘,不应有虚假的边缘。(2)定位标准。实际边缘与检测到的边缘位置之间的偏差最小。(3)单响应标准。将多个响应降低为单个边缘响应。Canny 边缘检测法是高斯函数的一阶微分,它能在噪声抑制和边缘检测之间取得较好的平衡27。算法如下:1. 用 33 高斯滤波器来对图像滤波,以取出图像中的噪声。2. 对每个像素,计算其梯度的大小M和方向O。为此要使以下22大小的模板作为对X和Y方向偏微分的一阶近似。 (4.11)由此得到梯度的大小M和方向O:
38、 (4.12)对 Canny算子作如下说明:1. 梯度进行“非极大抑制”。梯度的方向可以被定义为属于4个区之一,各个区有不同的邻近像素用来进行比较,以决定局部极大值。这4个区及其相应的比较方向如下模板所示:例如,如果中心像素x的梯度方向属于第3区,则把x的梯度值同它的左上和右下相邻像素的梯度值比较,看x的梯度值是否是局部极大值。如果不是,则把像素的灰度值设为0。这个过程叫做“非极大抑制”。2. 梯度取两次阈值。3. 边缘连接。Canny算子的实现步骤如下:(1)首先用2D高斯滤波模板与原始图像进行卷积,以消除噪声。(2)利用导数算子(如Prewitt算子、Sobel算子)找到图像灰度沿两个方向
39、的导数,并求出梯度的大小:(3)利用(2)的结果计算出梯度的方向:。(4)求出了边缘的方向,就可以把边缘的梯度方向大致分为四种(水平、垂直、45方向和135方向),并可以找到这个像素梯度方向的邻接像素。(5)遍历图像。若某个像素的灰度值与其梯度方向上前后两个像素的灰度值相比不是最大的,那么将这个像素值置为0,即不是边缘。(6)使用累计直方图计算两个阈值。凡是大于高阈值的一定是边缘,凡是小于低阈值的一定不是边缘。如果检测结果在两个阈值之间,则根据这个像素的邻接像素有没有超过高阈值的边缘像素,如果有,则它就是边缘,否则不是17。4.3各种图像边缘检测算法的分析比较Roberts 算子提取边缘的结果
40、边缘较粗,边缘定位不很准确,Sobel 算子和Prewitt 算子对边缘的定位就准确了一些,而采用Log 算子进行边缘提取的结果要明显优于前4 种算子,特别是边缘比较完整,位置比较准确。Canny 算子则能较好地体现图像的弱边缘18。其检测结果如下图: (a)灰度化调整图 (b)边缘检测图图4.2 利用Canny算子的边缘检测图4.4数学形态学处理技术边缘检测之后给出的只是二值边缘图像。边缘图像的二值化是很重要的问题,如果阈值太大可能会漏掉一些文本边缘,而阈值太小则可能会使较多的非文本边缘被当作文本边缘来处理,造成较多的误检。为了使二值化取得良好的效果,首先对边缘图像进行形态学填充,弥合孔洞去
41、除噪声,再进行自适应的阈值分割获取二值图像。最基本的形态学算子有四个:腐蚀、膨胀、开运算以及闭运算。4.4.1二值形态学 1) 基本原理数学形态学是一种非线性的滤波方法,它以严格的数学理论和几何学为基础,着重研究图像的几何结构及相互关系。其基本思想是:根据原图像目标特征选取适合的结构元素,利用结构元素对原图像进行平移、交、并等运算,然后将结果图输出。数学形态学不仅可以简化图像数据,并能在保持基本形状特征的基础上去除不相干结构。数学形态学的基础是二值形态学,基本运算主要为腐蚀、膨胀、开启和闭合四种。设二值图像集合为A,结构元素集合为B。本文主要运用其中的腐蚀、开启运算对图像进行后续处理。a. 腐
42、蚀(Erosion)腐蚀是在结构元素的约束下,消除物体的部分边界点的一种过程。运算结果使物体的面积减少了相应数量的点。例如,假设结构元素是半径为r个象素的小圆,被作用的物体是一个大圆。腐蚀运算的结果是沿大圆边界向内减少了r个象素的宽度,即直径减少2r。如果被作用的图象中的物体在某一处宽度小于2r+1,腐蚀的结果将使物体在该点断开,分裂为两个物体。在任何方向宽度不大于2r个象素的物体将被消除。腐蚀运算的数学定义为: (4.13)上式的含义是,结构元素B平移至点x后仍在A中,或B完全包含在A中时,B的原点处象素点x的集合。A是由多个象素点连接成的图像物体,结构元素B是直角连接的三个象素。符号“+”
43、代表该结构元素的原点,本例中,原点位于结构元素之内。将结构元素的原点移至图象A起始部分,如果B的全部象素都包含在A之中,则此时处在结构元素原点位置的象素记做“1”,否则,记做“0”。继续移动结构元素,直至遍历图象A全部。最后得到的图象就是腐蚀运算的结果。腐蚀运算将一幅图象中除去小且无意义的物体,突出主要感兴趣目标。针对本文腐蚀运算的处理结果如下图: 图4.3 对边缘后的图像进行腐蚀化处理b.开运算使用同一个结构元素对图像先腐蚀再进行膨胀的运算称为开运算。结构元素B对A的开运算记作,其定义为 (4.15) 即先用B对A作腐蚀运算,再作膨胀运算。为了更好的理解开运算在图像处理中的作用,现讨论下面的
44、等价方程 (4.16)这个方程表明,B对A的开运算可由对所有可以填入A的B并集得到,A的所有比B小的部分都将舍去。开运算通常用来消除小对象物、在纤细点处分离物体、平滑较大物体的边界的同时并不明显改变其面积。如图所示:图4.4 对腐蚀后的图像开运算结果图在切除了非目标文本的小区域后得到定位剪切的彩色文本区域如下图所示,实现了文本的彩色细定位: 图4.5文本的细定位4.5本章小结本章应用了基于边缘的文本提取方法通过形态学填充形成连通区域,得到的二值化图像特征更加突出,更加便于后续的筛选。然后对图像进行腐蚀运算,开启运算并结合形态学滤波,滤除非文本区域,最后得到目标文本。本算法对彩色图像中的文本提取具有较高的精确率和较快的运算速度,取得了较好的综合效果。5文字分割文字分割指的是指从彩色图像文字块中将背景去除,得到只含文字信息的二值图像。确定文本区域位置后下一步任务就是进行字符切分分离出字符图像。 5.1文字分割问题的定义如前所述,通过文字定位,我们得到了原始图像中出现文字的一系列矩形区域。将这些区域剪裁下来,就得到了原图像的一系列子图像,我们称之为图像文字块,文字分割指的是从以上的图像文字块中将背景去除,得到只含文字信息的二值图像,从这个意义上说,文字分割也可以叫做图像文字二值化20。
©2010-2025 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100