1、 毕 业 设 计 题 目: OCR系统中的图像预处理的研究和实现 学 院: 计算机与通信学院 专 业: 通信工程 班级:学号: 学生姓名: 导师姓名: 完成日期: 2014年6月3日 诚信声明 本人声明: 1、本人所呈交的毕业设计(论
2、文)是在老师指导下进行的研究工作及取得的研究成果; 2、据查证,除了文中特别加以标注和致谢的地方外,毕业设计(论文)中不包含其他人已经公开发表过的研究成果,也不包含为获得其他教育机构的学位而使用过的材料; 3、我承诺,本人提交的毕业设计(论文)中的所有内容均真实、可信。 作者签名: 日期: 年 月 日 湖南工程学院毕业设计(论文) 毕业设计(论文)任务书 题目: OCR系统中的图像预处理的研究和实现
3、 姓名 系 计算机与通信学院 专业 通信工程 班级 学号 指导老师 职称 讲师 教研室主任 一、 基本任务及要求: OCR技术借助光学输入设备将印刷文献的数字图像输入计算机,由OCR程序对其进行自动的分析与识别,形成文字的代码,并以标准格式的文件存储。它可以大大减少手工录入人员的工作量。在整个OCR处理过程中,图像预处理的有效性是字符识别成败的重要因素。事实上,由于纸质文档质量不一,如纸透重影、墨点;而获取图像的过程中,可能会出
4、现几何变形、倾斜、卷边、光照不匀等情况,如果直接对这样的图像直接进行识别,正确率将得不到保证。 课题的主要任务是研究和分析成像过程中存在的倾斜、几何变形、卷边、光照不匀等情况,在进行字符匹配之前,进行图像预处理,提高图像质量,进行提高OCR识别的正确率。要求熟悉图像增强技术、几何校正和图像还原技术,在VC开发环境中,开发出MFC风格的OCR预处理子系统。
5、 二、 进度安排及完成时间: 第1周:老师集中指导,分析并明确课题任务与要求,学习资料收集检索方法,并搜索收集所需中英文资料。 第2~3周:阅读资料、书籍,学习所需知识,撰写文献综述。 第4~5周:毕业实习、完成毕业实习报告撰写。
6、 第6周:初步拟订系统设计方案;完成开题报告。 第7周:完成基于单片机的节能型路灯系统的总体设计。 第8~13周:具体设计、调试、修改、实现。 第14~15周:撰写毕业论文(说明书)。
7、 第16~17周:完成毕业答辩资格审查、毕业答辩。 目 录 摘 要 I ABSTRACT II 第1章 绪论 1 1.1 课题研究的背景和意义 1 1.1.1 OCR图像预处理 1 1.1.2课题研究的背景 1 1.1.3课题研究的意义 2 1.2 课题研究的国内外现状及应用 3 1.2.1课题研究的国内外现状 3 1.2.2课题研究的应用 4 1.3 系统设计简介及课题研究的内容 4 1.3.1系统设计简介 4
8、 1.3.2课题研究的内容 6 1.4 课题设计方案及解决问题的框架 6 第2章 OCR图像预处理实现原理 8 2.1 文本文字图像预处理的介绍 8 2.2 灰度变换 8 2.3 几何校正 8 2.3.1几何校正简介 8 2.3.2 扭曲校正 8 2.3.3 倾斜校正 9 2.4 图像增强 11 2.4.1图像增强简介 11 2.4.2灰度值分段线性拉伸 12 2.4.3灰度值均衡化处理 12 2.4.4同态滤波 13 2.5 二值化及形态学处理 15 2.5.1二值化简介 15 2.5.2二值化实现 15 2.5.3形态学处理 16 2.6 平滑滤波 1
9、8 2.6.1平滑滤波简介 18 2.6.2线性滤波 18 2.6.3中值滤波 20 2.6.4维纳滤波 22 2.7 文字提取 22 2.7.1文字提取简介 22 2.7.2文字提取实现 22 第3章 MATLAB相关知识介绍 24 3.1 MATLAB图像处理工作箱支持的图像类型简介 24 3.2 MATLAB相关语句简介 24 3.2.1曲线绘图语句 24 3.2.2 MATLAB图像操作语句 25 3.3 MATLAB GUI相关知识及系统功能简介 25 3.3.1 MATLAB GUI相关知识简介 26 3.3.2 系统功能简介 27 第4章 基于MA
10、TLAB图像预处理实现过程及其结果 29 4.1 灰度变换 29 4.2 几何校正 30 4.2.1灰度图像扭曲校正 30 4.2.2二值图像倾斜校正 31 4.3 图像增强 34 4.3.1灰度值分段线性拉伸 34 4.3.2灰度值均衡化处理 35 4.3.3同态滤波 35 4.4 二值化及形态学处理 36 4.4.1二值化 36 4.4.2形态学处理 36 4.5 平滑滤波 37 4.6 文字提取 39 结束语 41 参考文献 43 致 谢 44 附 录 46 湖南工程学院毕业设计(论文) OCR系统中的图像预处理的研究与实现
11、 摘 要:OCR (Optical Character Recognition,光学字符识别)指的是利用光学设备拍摄或者扫描文本文档上的字符信息,通过与纸面明暗差确定字符形状,然后利用字符识别技术转化为计算机文本信息的过程。 在整个OCR处理过程中,进行有效的图像预处理是字符识别成败的重要因素。在OCR系统中进行图像预处理的主要目的是提高图像质量,进而提高OCR识别的正确率。 本文针对获取文本文字图像过程中引入的噪声、倾斜和几何畸变等问题,研究实现了图像读取、灰度化、二值化、扭曲校正、倾斜校正、同态滤波、平滑滤波等算法,最后研究实现了文字分割与提取算法,为后续的文字识别做准备。本课题利用
12、MATLAB GUI创建一个应用程序框架,在这个框架内实现了预处理的各个步骤,并以普通相机摄像和扫描仪得到的文本文字图像(JPG格式)为测试图像,进行了一系列实验。实验结果表明本文采取的算法切合实际。 关键词:OCR图像预处理;几何校正;二值化;平滑滤波;文字提取 Research and implementation of image processing in OCR system Abstract: OCR(Optical Character Recognition) is the processes of using electronic equipments(
13、such as scanners or digital cameras) to scan characters which be printed on the paper, then determining the characters’ shape by the detection of brightness patterns , finally using the methods of character recognition to translate word shape into binary word that can be recognized by computer. Du
14、ring the OCR process, the last but not least factor of the character recognition accuracy is the effective image preprocessing.The mainly purpose of image preprocessing in OCR system is to improve the image quality and accuracy. In the paper, it has researched and realized the processes of image
15、reading、grayscale、 binaryzation、 skew correction、tilt correction、homomorphic filtering、smoothing filtering algorithm to solve the problems of the text image obtaining noise、tilting and geometric distortion. It has studied word segmentation and extraction process to prepare for the following text rec
16、ognition. It has used MATLAB GUI to create an application framework. It has obtained the test images by ordinary camera and scanner (JPG format) ,and then done a series of experiments of pretreatment process based on GUI framework. The experimental results have show that the algorithm is practical .
17、 Keywords:The pretreatment process of OCR system; Geometric correction;Binaryzation;Smoothing filter;Character extractio. 49 第1章 绪论 1.1 课题研究的背景和意义 1.1.1 OCR图像预处理 OCR科学定义:OCR(optical character recognition)指的是利用光学设备拍摄或者扫描纸质文档上的字符信息,通过与纸面明暗差确定字符形状,然后利用字符识别技术转化为计算机文本文字信息的过程。也就是,将纸质文档资料进行光学
18、处理转换成图像信息之后进行分析处理,获得文字以及相关版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题的友好性,产品的稳定性,易用性及可行性等。 图像预处理科学定义:将每一个文字图像分检出来交给识别模块识别,这一过程称为图像预处理。 本文主要研究在预处理过程中前、中、后三个阶段的如何严格地、有效地消除噪声干扰、几何畸变干扰、光照不均干扰等等影响字符识别的方法。 1.1.2课题研究的背景 光学文字识别的概念是在上个世纪二十年代末期由德国科学家Tausheck最先进行分析的,美国科学家Handel也提出了相似的理论学说。最早对纸质文档中的汉字进行识别的是美国IBM公
19、司的Casey和Nagy,在上个世纪六十年代中后期他们率先发表了一篇利用模板匹配法技术识别了一千个纸质文档汉字的论文。 在上个世纪六、七十年代,就有进行OCR技术研究的国家,其中包括中国。在OCR技术研究的初期阶段,主要的研究对象是文字的识别方法,以数字0-9为识别的唯一对象。日本在上个世纪六十年代左右开始对日本的方块文字进行了OCR识别技术研究工作,初期也是以数字作为唯一对象进行研究的。能够大规模实际使用的技术是在上个世纪六十年代中期到后期出现的,例如:邮政编码识别系统,在识别邮件的邮政编码的基础上有效地帮助了邮局作区域分信的工作;也因此邮政码一直是各国提倡的地址书写方式。 上个世纪七十
20、年代初期,日本的相关学者、专家开始进行了汉字的识别研究。我国的OCR技术研究工作起步较晚,但是发展较快,在七十年代才开始对数字、英文字母、以及符号的识别进行了研究,到了七十年代末期就开始进行了汉字识别工作的研究,1986年之后我国就推出了中文OCR产品。由于识别率、产品化、硬件设备成本高、运行速度慢等原因使得OCR技术未能达到实用化的地步。只有少数如信息、新闻出版等单位使用OCR软件。1986年以后我国在OCR技术研究上取得了长足进展,在汉字建模和识别的方法上有了创新性地研究,在开发应用和系统研制方面取得了丰硕的理论、实际成果,许多应用、研究单位推出了中文OCR产品。到了上个世纪九十年代,随着
21、我国扫描设备以及信息自动化和办公自动化的普及,很大程度上推进了我国OCR技术的研究,使得OCR技术识别率、运行速度等等制约着OCR技术实用化的瓶颈得到解决。其中以OCR为科技核心的云脉技术不断创新进取,研发了一系列OCR软件产品,并且运用在医院,学校,企业等各大市场。 1.1.3课题研究的意义 (1)OCR在信息化时代下大规模纸质文字信息转化为计算机文本文字信息的意义。 学者臧国全发表的《文本数字化图像OCR 识别的准确度测度实验与提高》一文中,作者基于英国图书馆Reshelp和Burney两个古旧英文报纸数字化项目进行了OCR技术的准确度研究。 针对纸质文本文字扫描对象的获取、计算机数
22、字化图像的生产、数字图像的处理和计算机文本文字识别四个阶段中影响准确度的因素进行了分析,得出了提高准确度的具体措施的若干结论。 杭州师范学院徐清学者发表的《2001—2005我国中文古籍数字化研究综述》一文针对古籍全文的数字化问题、提高基础理论研究高度、广度,重点讨论了数字化资源的深度开发与选择,对于数据库建设的问题进行了仔细且全面地讨论。 沈阳师范大学图书馆潘德利教授的《中国古籍数字化进程和展望》针对中国大陆香港、台湾的古籍数字化的进程进行了详细介绍和具体的统计,对我国古籍数字化项目的发展目标进行了预测和展望。 从学者的古籍数字化论文中可以看出大规模纸质文档信息转化为计算机文本文字信息
23、技术研究的重要性和实用性以及其深刻意义。 文字是信息中的重要载体,其数字化程度决定了信息化的程度。OCR技术改变了传统的纸质文字资料手动输入的概念。通过OCR技术,使用者通过摄像机、扫描设备等等现有的光学输入设备将传统的的纸质报刊、书籍、文稿、表格等印刷品的图像信息转化为可供计算机识别处理的文本文字信息。所以,较传统的手动录入方式,OCR技术大大地增强了资料存储、检索、加工的效率。 (2)OCR预处理对提高OCR识别率的目的和意义 文字识别是OCR系统中的关键环节,是纸质文档信息转化为计算机文本文字信息的最后节点也是最关键节点。OCR对原文本文字图像的要求是文本文字的源图像要清晰、完整,
24、光照要均匀,笔画不能间断;文本文字图像边缘锯齿不明显并且不卷边等;有文字部分摆放水平。但是原文本文字图像的情况是形态各异,千差万别的,由于纸质文档质量不一,如纸透重影、墨点;而获取图像的过程中,可能会出现几何变形、倾斜、卷边、光照不匀等情况。所以需要在识别前,应做一些预先的处理即图像预处理。比如:几何变换、灰度变换、倾斜校正等操作。这个课题的目的就是通过图像预处理,提高图像质量,进而提高OCR识别的正确率。 1.2课题研究的国内外现状及应用 1.2.1课题研究的国内外现状 (1)国外发展及其现状 世界上率先推出的OCR处理软件是上个世纪五十年代中后期的ERA。ERA是基于窥视孔
25、方法,识别速率为120个字符/S。从OCR技术的发展历程看,分为三个阶段。 第一代的OCR产品出现在上世纪六十年代初期,NCR、FARRINGTON、IBM公司分别研制、推出了自己的OCR软件。但它只能识别印刷体的数字、英文字母及部分符号,而且为严格指定的字体。 第二代OCR产品诞生于上世纪六十年代中期到七十年代初期,可以识别手写字符。日本东芝公司研制、推出的OCR产品应用于IBM公司,在手写体邮政编码识别的信函自动分拣系统中取得了正确分拣率达到92%~93%的良好应用效果,广泛地应用在了实际生活中。 第三代OCR产品主要解决的问题为对于质量较差的文档以及大字符集比如数学公式的识别。日本
26、东芝公司于1983年发布了其研制的印刷体日本汉字的OCR系统,识别速度为70~100个字符/S,取得了99.5%的识别率。经过不断地改进,针对印刷体手写日本汉字的识别达到了实际应用水平。 (2)国内发展及其现状 我国在OCR技术方面的研究工作起步较晚,但是发展势头强劲,在七十年代才开始对数字、英语字母及字符的识别工作进行研究,到了七十年代末期才开始进行汉字的识别研究工作。我国政府从七五计划到现在的863计划一直坚持立足于国产的OCR识别技术的研究。从八十年代中期开始,国内的中文OCR技术的研究到达了高潮阶段,到了九十年代中期,国内汉王公司推出了汉字中文的OCR系统,达到了可以初步实用化的水
27、平。 目前,我国的OCR技术应用市场十分广泛。在信息技术以及计算机技术日益普及的今天,如何将汉字方便、快捷输入到计算机中并且能够高效率地进行识别,成为了影响人机交互式操作的重要难题,也成为计算机是否能够在我国得到普及和应用。目前,OCR对英文的正确识别率较高,而对于汉字,尤其是手写汉字,识别率较低。如何提高OCR对手写汉字的识别率,将是未来的一个重要的研究方向。 1.2.2课题研究的应用 (1)大规模文本文字信息数字化 我国中文古籍浩如烟海,由于纸质文档保存文字信息容易受到温度、空气氧化、虫蛀等等非人为控制原因的影响而产生字体模糊、变形、纸质发黄、脆化,使得识别率降低,所以古籍数字化是
28、一个刻不容缓的项目。 (2)在智能交通处罚系统中的应用 在智能交通系统ITS的违章处罚信息中,最重要的是要知道车牌号,也就是对车牌号的识别。因为违规车牌号是交管部门处罚违章者的依据,因此捕捉到清晰的车牌号是智能交通系统ITS的违章处罚信息中最重要的一步。采取措其工作流程为:通过安装在路面上方的摄像头采集到违章车辆图像,然后经过图像的预处理提取到车牌号码,利用计算机相关技术以及数字图像处理技术将获得的图像信息进行处理、分析,最后获得实时的违规、违章的机动车辆的信息,进行实时的信息发布、交通处罚等相关工作。不过由于外界环境的干扰,比如说大雾天气,或者镜头、牌照沾染灰尘等原因,使得获取的大部分车
29、牌图像都是较为模糊的。 (3)在办公室自动化图像应用 在现实的工作、学习过程中都需要阅读、转手大量的纸质文档材料,由于传真、复印等环节导致获取的文本质量的急剧下降导致识别率降低,所以在办公自动化处理中低质量的文本占很大部分。 综上所述OCR技术在信息化时代发挥的作用是巨大的。 1.3系统设计简介及课题研究的内容 1.3.1系统设计简介 OCR系统图像预处理技术是由几个相互依存但又相互独立的模块组成,相互独立保证了对于各式文本文字图像处理的灵活性,相互依存保证了文本文字图像处理的有效性。 通常,一个OCR系统由以下几个部分组成如图1.1所示。 图1.1 OCR系统框架
30、图 本文研究的是图像预处理,从图像预处理的定义来看,预处理的作用就是怎样提高文字识别率。从图1.2、图1.3可以看出实际待处理文本文字图像存在的问题。 图1.2 实际获取的图像 图1.3实际获取的图像 实际拍摄获取的待处理的文本文字图像存在的问题有相机拍摄时,由于电子转移产生的噪声、光照不均、相机透镜产生的扭曲现象、拍照时的随意性产生的倾斜问题。 总的来说,OCR系统的图像预处理的模块如图1.4所示: 图像输入 灰度变换 几何变换 图像增强 图像分割 版面分析 文字切分 归一化 文字细化 图1.4图像预处理的模块 本课题研究的
31、是预处理过程中的灰度变换,几何校正,图像增强,二值化,文字提取功能。 1.3.2课题研究的内容 本课题是OCR系统中的图像预处理的研究和实现,通过MATLAB实现算法。 预处理包括灰度变换、几何校正、图像增强、二值化、文字提取功能。本课题由以下几个方面构成。 第1章从OCR系统、预处理定义入手,详细地介绍了课题背景,发展历程,国内外发展、应用现状。简单扼要地介绍了基于定义所要求我们实现的内容。 第2章从实现的内容出发,详细地介绍了课题涉及到的预处理方面的理论原理以及实现算法。 第3章本文系统地介绍了涉及到的MATLAB M文件、语句、GUI句柄涉及的相关知识,方便读者入手进行了解。
32、 第4章介绍了具体实现以及实现过程中差错控制以及遇到的问题。 结束语则是对此课题的总结包括心得、遇到的问题、如何去解决以及展望。 1.4 课题设计方案及解决问题的框架 课题的主要目的是提高OCR系统文字识别率,在实际提取的图像中遇到的噪声、光照不均、扭曲畸变、倾斜问题便是课题需要解决的问题,课题设计的方案为如图1.5实际文本文字图像预处理的设计方案。 图1.5 实际文本文字图像预处理的设计方案 第2章 OCR图像预处理实现原理 2.1 文本文字图像预处理的介绍 在OCR技术中,对文本文字图像进行特征提取、分割以及文字识别前所进行的处理
33、叫做图像预处理。进行预处理的最终目的就是将文本文字图像中所有的文字信息进行正确地识别,该过程在本系统中分为图像增强、二值化、几何变换、平滑滤波,文字提取几个步骤。 2.2 灰度变换 经由光学设备采集到的图像或者在计算机中存储的图像为RGB彩色图像,RGB是红、绿、蓝的简称,每个像素中每种颜色占一个字节。彩色图像包含了大量的色彩信息,占用大量内存且大大降低了处理速度,将彩色图像转化为可以基本识别图像信息的灰度值图像可以大大地简化处理速度。当图像中的每一个像素值R=G=B时,则表示一种灰度颜色。灰度化通常有三种方法。 表2.1 灰度化三种方法 最大值法 R=G=B=max(R
34、G,B) 平均值法 R=G=B=(R+G+B)/3 加权值法 R=G=B=0.30R+0.59G+0.11B 因为人眼对绿色敏感度最高,红色次之,蓝色最低,因此权值法中的加权值法可以得到最适合的灰度图像。 2.3 几何校正 2.3.1几何校正简介 我们对选取的文本文字图像有着较为严格的要求。在实际处理过程中,因为某些图像源摆设的固定性、光学设备摆设的随意性和相机凹凸镜头的原因,造成了拍摄图像的扭曲畸变和倾斜畸变,2.3.2和2.3.3节针对两种情况进行了科学分析并提出解决方案使得处理后的文本文字图像能够适合文字识别。 2.3.2 扭曲校正 在图像获取的过程中
35、由于扫描仪或相机透镜存在的原因、纸质文档纸面卷曲的原因,会产生某种程度的图像扭曲畸变,针对扭曲畸变问题,本文采用了高次函数进行拟合校正的方法。具体的校正过程如图2.1所示。 拍摄过程中的某些原因导致扭曲畸变 x’=x(u,v) y’=y(u,v) 进行拟合校正 (U,V) (X,Y) (X’,Y’) 图2.1 高次函数进行拟合校正过程 其中拟合函数: (2-1) (2-2) 其中k1,k2分
36、别是控制水平方向、竖直方向上的扭曲矫正的参数。 本文中预设k1= -0.00000024,k2=0.在程序运行过程中可以根据具体图像的扭曲程度调节参数值。 2.3.3 倾斜校正 (1)radon校正 Radon算法是一种通过定方向投影叠加,找到最大投影值时角度,从而确定图像倾斜角度的算法。具体过程如图2.2所示。 (0,0) x Y (0,0) Y’’ X’ IMMG I‘ X’ Y’ 图2.2 radon变换解析 二值图像矩阵的矩阵坐标,将作为原点坐标,建立笛卡尔坐标轴,矩阵坐标变换为笛卡尔坐标:,相对于X轴建立 坐标轴,图像的笛卡尔坐标在的
37、轴上进行投影,统计投影值,从度变换,寻找最大投影值对应的角度,便是矩阵图像矩阵需要逆时针转动的倾斜角度。 (2)Hough校正 Hough校正是通过寻找参数最大重叠点对应的的角度进行图像倾斜矫正的。 具体过程见图2.3 Hough变换解析。 (k,b) y=k*x+b (k1,b1) y=k1*x+b1 图2.3 Hough变换解析 一条直线在直角坐标系下可以用y=kx+b表示, 霍夫变换的主要思想是利用该方程的参数空间和变量空间的对应关系。在变量空间里作为已知量,在参数空间作为变量坐标,或者相反。直线在参数空间映射的点为,参数空间直线在变量空间映射的点
38、为,过变量有无数条直线与参数空间点对应。由此可以做如下推论:在变量空间个点分布在同一直线上,各个点在参数空间中按照倾斜角度均匀提取条直线,则条直线会在参数空间中有一个重叠数目达到的点,该点对应的变量空间的直线的倾斜角度便是文字图像的倾斜角度。由于斜率K在直线垂直X轴的情况下为无穷大,所以直接用直角坐标系下的参数映射法存在不合适实际情况的地方。 选用极坐标,,表示直线到原点的距离, 为线上点与原点连线与X轴角度。 (2-3) 由于汉子是方块形,有些文字有明显的框或者存在明显的竖线、横线的情况,在进行hough变换时会将这些直线提取出来,得到错误的倾斜角度,这是
39、实际处理过程中无法避免的,解决办法是对提取的直线进行阈值控制,具体办法是将提取的直线的倾斜角度用plot()显示,根据具体图像的倾斜角度选取阈值范围,将阈值范围以外的倾斜角度去掉,将阈值以内的倾斜角度使用最小二乘法算法求得合适的倾斜角度。 设留下的倾斜角度为,,最合适的角度为,最小,利用最小二乘法求得最合适的角度为:。 图2.4 Hough变换流程图 2.4 图像增强 2.4.1图像增强简介 图像增强的目的是增强图像中的有用信息,抑制无用甚至干扰信息,其目的是要改善图像的视觉效果,针对特定的图像,强调图像的整体或局部特性,将原来局部感兴趣的不清晰的图像变得清晰或强调某些感
40、兴趣的特征。 图像增强处理的方法分为频域和空域法两种。其中频域法是将图像进行二维傅里叶变换,通过观察频谱域中二维频谱信息确定相应频域滤波器。空域法有均衡化处理、平滑滤波、灰度值线性拉伸等等。平滑滤波可以消除或减弱零散分布的噪声信号,比如:椒盐噪声,均衡化可以增加灰度值宽度,增加低亮度像素点数量来增强图像细节部分的视觉效果。 本文中基于频域的图像增强算法是同态滤波算法,同态滤波算法作用是分离出低频的照射光和高频反射光,通过高通滤波器获取高频反射光信息,也就是图片特性信息。 本文中使用的空域运算分为点运算和邻域去噪算法。点运算包括图像灰度均衡算法。邻域去噪算法包括中值滤波算法、自适应滤波算法
41、线性滤波算法。 2.4.2灰度值分段线性拉伸 根据文本文字图像具体特性,本文选取了灰度值分段线性拉伸算法对灰度图像进行灰度值处理。采用灰度值分段线性拉伸算法的目的使得灰度值低的字体信息、灰度值随机分布的噪声信号、灰度值高的背景信息之间的灰度距离得到拉伸以便于二值化处理时选取阈值。 其中灰度分段线性拉伸函数如下式所示: Y(x)= (2-4) 选定可普遍适用的较佳参数值如下: x
42、1=90 y1=60 x2=180 y2=210 2.4.3灰度值均衡化处理 实际图像的直方图存在灰度级过于集中,导致图像对比度差,图像细节模糊不清,针对此情况,设计了图像均衡化算法。 (1)算法思路: ①峰值压缩。 ②每个灰度级对应的像素个数相同或相近。 ③灰度级扩展。 (2)具体算法实现: 图像均衡化实际是通过一个转换函数对原图像每个像素点的灰度值进行变换。函数通过以下推导过程得到。 为通过变换后的灰度值像素点统计值函数,灰度值,为原图像灰度值像素点数量统计函数,。,。 下文的分析采用连续函数分析法,然后引申得到适用于离散函数的结论。 由于变换前后灰度
43、直方图相应区间面积具有对应相等关系,则: (2-5) 为的某个原函数。令为常数, (2-6) M为图像像素点的总个数。 将公式(2-6)带入(2-5),左边积分,右端近似离散 (2-7) (2-8) 公式(2-8)为我们需要的转换公式。 2.4.4同态滤波 针对图像因为光照不均的问题产生的图像失真,我们采用了同态滤波算法进行频率域处理,同态滤波算法的数学模型模型为:(模
44、型中,函数均为连续函数,但是在实际处理中的是矩阵图像)图像为入射分量与反射分量的乘积。 (2-9) 入射分量频率变化较慢,为图像反射场,由于图像信息在空间上变化速度较快,能量主要集中在高频,文中低频、高频为相对概念。 使用以e为底对数运算可以将两个函数分离。 (2-10) 可以证明,与频域分布特性没有较大变化。证明如下: 设 频谱图像如图2.5所示,的频谱图如图2.6所示。从图中可以看出频率为,所占能量比较大的频率分量也集中在附近,其他部分的频率分量在某种程度上有增加或者减少但是相比较部分的频率分量所
45、占的能量较小,所以不会对滤波处理产生很大影响,所以可以验证推论,即对原图像对数化以后,滤除掉的低频分量就是照射光的能量。 图2.5 f(x)傅里叶变换 图2.6 ln(f(x)+1.1)傅里叶变换 文本文字图像频谱图2.7。 图2.7 文本文字图像的傅里叶变换 观察文本文字图像的二维傅里叶变换得到的频谱,图中信息显示图像的能量主要集中在低频部分,从同态滤波模型适用范围来看,该图像的反射场频率能量集中在低频,和照射场频率分布的区分度非常小,所以本文选取的用普通相机拍摄的文本文字图像不适合用同态滤波进行图像增强处理。 2.5
46、 二值化及形态学处理 2.5.1二值化简介 二值化图像是在灰度图像的基础上通过设置数值门槛的方法转化为黑白图像,即每个像素点的值只有0或1。阈值法分为整体阈值和局部阈值法,整体阈值法适用于直方图具有两个峰中间有一个低谷的灰度图像,局部阈值经过某种算法处理后得到邻域的阈值然后通过与邻域中某像素的灰度值进行比较得出是0或1。本文采用改进的自适应二值化方法对文本文字图像进行二值化处理,是一种局部阈值法。 2.5.2二值化实现 在本系统中采用的是改进的自适应二值化算法,该算法通过对被考察点所在的区域模板(3*3)与周围邻域模板(8邻域)的灰度值进行比较,来确定各个点的不同分割阈值。这种方
47、法充分利用了像元自身及其邻域的灰度变化特性,使得各像元具有不同的分割阈值,从而在进行图像全局考虑的同时顾及图像的局域特征。 本文中8邻域定义如表2.2所示: 表2.2 邻域表 1 2 3 8 0 4 7 6 5 其算法的详细描述如图2.8所示: 图2.8 自适应二值化算法描述 2.5.3形态学处理 二值形态学有四种基本变换:膨胀、腐蚀、开运算、闭运算。 膨胀与腐蚀运算式建立在集合的Minkowsku和与差基础上的,它们是所有复合形态学变换或形态分析的基础。形态学主要利用结构元素对每个二值图像像素附近特定的区域进行逻辑运算得到相应的输出图像。图像形态学
48、处理效果主要取决于结构元素相关信息,比如:形状、大小。 给定二值矩阵图像I[i,j],结构元素T[i,j],运算的得到的矩阵图像为IMAG[i,j],运算表达式为. 膨胀: (2-11) 腐蚀: (2-12) 膨胀可以将视觉上细小的部分填充、放大,腐蚀可以将视觉上细小的部分缩小、消失。 形态学中开操作、闭操作是形态学膨胀、腐蚀运算的复合运算,先腐蚀后膨胀为开运算,其视觉效果为消除细小物体、可以在结构元素大小范围内分离物体和平滑较大物体边界的作用;先膨胀后腐蚀的过程为闭操作,其视觉效果为在结构元素大小的范围内细小空洞
49、开和闭运算数学表达式为: (2-13) (2-14) 结构元素的选择非常重要,对同一类型的形态学操作,选择不同的形态的结构元素会得到不同的结果。结构元素的大小会影响最终效果。如果结构元素太小,对噪声的滤波作用不明显;若结构元素太大,滤除噪声的同时又会对目标边界造成较大影响,故结构元素对形态学操作来说是关键。 本文采用矩形结构元素,其大小根据实际图像处理效果定。 膨胀、腐蚀操作流程图如图2.9所示。 图2.9 膨胀、腐蚀运算流程图 2.6 平滑滤波 2.6.1平滑滤波简介
50、 平滑滤波技术在本文中是指针对二值图像的噪声进行处理。平滑滤波技术可以在空域中进行,基本方法包括线性滤波、中值滤波、维纳滤波技术。 实际获得的图像在获取的过程中会受到噪声干扰。引起噪声的原因有CCD器件中的电子转移时产生的噪声、照相底片上感光材料因为曝光不均产生的噪声、传输通道中的干扰以及量化产生的噪声等。噪声源决定了噪声的分布特性及它和图像信号的关系。 接收端接收到的信息与源信息噪声关系有如表2.3所示。 表2.3按噪声与信息关系分类 加性 噪声 噪声与图像信号无关,含噪图像f(x,y)可表示 乘性 噪声 噪声与图像信号有关。这可以分为两种情况:一种:点噪声,即是某像素






