收藏 分销(赏)

自由手写体数字识别系统的设计和实现.doc

上传人:a199****6536 文档编号:2954771 上传时间:2024-06-12 格式:DOC 页数:10 大小:727.04KB
下载 相关 举报
自由手写体数字识别系统的设计和实现.doc_第1页
第1页 / 共10页
自由手写体数字识别系统的设计和实现.doc_第2页
第2页 / 共10页
自由手写体数字识别系统的设计和实现.doc_第3页
第3页 / 共10页
自由手写体数字识别系统的设计和实现.doc_第4页
第4页 / 共10页
自由手写体数字识别系统的设计和实现.doc_第5页
第5页 / 共10页
点击查看更多>>
资源描述

1、自由手写体数字识别系统设计和实现摘要:本文叙述并设计实现了一个脱机自由手写体数字识别系统。文中首先对待识别数字预处理进行了介绍,包含二值化、平滑滤波、规范化、细化等图像处理方法;其次,探讨了怎样提取数字字符结构特征和笔划特征,并具体地描述了知识库结构方法;最终采取了以知识库为基础模板匹配识别方法,并以MATLAB作为编程工具实现了含有友好图形用户界面自由手写体数字识别系统。试验结果表明,本方法含有较高识别率,并含有很好抗噪性能。关键词:手写体数字;预处理;模式识别;特征提取Abstrct: This paper describes and designs a free handwritten

2、number recognition system. Firstly,the pretreatment of the character to be recognized is introduced, including binarization, smoothing, normalization and thinning. Next, how to extract the structural features of the numbers is discussed, and we describe the constructing method of repository. Finally

3、, we use the method of template matching, based on repository, to recognize the digital number. Matlab is used as a program tool to realize this free handwritten digital recognition system with friendly graphical user interface. The experimental results show that the rate of the recognition system i

4、s high, and the proposed method is robust to noise.Keywords: handwritten number; pretreatment;pattern recognition; feature extraction 1 引言OCR(Optical Character Recognition)即光学字符识别技术,是经过扫描仪把印刷体或手写体文稿扫描成图像,然后识别成对应计算机可直接处理字符。OCR是模式识别一个分支,按字体分类关键分为印刷体识别和手写体识别两大类。对于印刷体识别又能够分成单一字体单一字号和多个字体多个字号几类。而手写体识别又可分

5、为受限手写体和不受限手写体两类;按识别方法可分为在线识别和脱机识别两类。字符识别处理信息可分为两大类:一类是文字信息,处理关键是用各国家、各民族文字(如:汉字,英文等)书写或印刷文本信息,现在在印刷体和联机手写方面技术已趋向成熟,并推出了很多应用系统;另一类是数据信息,关键是由阿拉伯数字及少许特殊符号组成多种编号和统计数据,如:邮政编码、统计报表、财务报表、银行票据等等,处理这类信息关键技术是手写数字识别。所以,手写数字识别研究有着重大现实意义,一旦研究成功并投入应用,将产生巨大社会和经济效益。在整个OCR领域中,最为困难就是脱机自由手写字符识别。到现在为止,尽管大家在脱机手写英文、汉字识别研

6、究中已取得很多可喜成就,但距离实用还有一定距离。而在手写数字识别这个方向上,经过多年研究,研究工作者已经开始把它向多种实际应用推广,为手写数据高速自动输入提供了一个处理方案。本文首先介绍了自由手写体数字识别基础原理,包含数字图像预处理、特征提取和模式识别基础原理和方法;其次介绍了;最终经过基于MATLAB试验结果,对本系统性能进行了分析。2 手写体数字识别基础原理本系统关键由手写体数字识别训练过程和识别过程组成,训练过程和识别过程均包含预处理、特征提取和模式识别三部分。系统组成图2.1所表示。识别过程训练过程 数据采集,预处理特征提取和选择分类识别 数据采集,预处理分类识别改善数据采集,预处理

7、改善分类识别待识对象训练样本人工干预特征提取和选择改善特征提取和选择正确率测试图2.1 系统步骤图下面分别介绍各部分工作基础原理。2.1 预处理预处理关键由二值化,平滑去噪,规范化,细化等组成。本文采取了基于阈值二值化算法,经过最大类间方差法即OTSU方法,统计图像灰度直方图选择全局阈值,然后进行二值化处理。其次,在二值化后利用均值滤波方法消除孤立点、线噪声,这么图中就只剩下手写体数字。在滤波中本文采取是3*3大小模板。平滑去噪后,对图像进行规范化处理。找出图像中数字边界,然后提取出数字把它居中放置在正方形方框中,再对此正方形图像进行线性插值缩放,使它变为统一规格大小图像,本文中归一化图像大小

8、是36*36。在提取特征之前,要对手写体数字进行细化。本文是采取基于数学形态学细化算法。细化可用两步腐蚀来实现:第一步是正常腐蚀,但它是有条件,也就是说,那些被标为可除去像素点并不立即消去;在第二步中,只将那些消除后并不破坏连通性点消除,不然保留。以上每一步全部是一个3*3邻域运算。细化是将一个曲线性数字细化为一条单像素宽线,从而图形化地显示出其拓扑性质。数字图像预处理前后效果比较以下图所表示。图2.2为数字“5”原始图像,图2.3为对图2.2预处理后结果图。类似地,图2.4为数字“6”原始图像,图2.5为对图2.4预处理后结果图。图2.2 原始图像图2.3 预处理后图像图2.4 原始图像 图

9、2.5 预处理后图像2.2 特征提取特征提取目标是从原始数据中抽取出用于区分不一样类型本质特征。不管是识别过程还是学习过程,全部要对研究对象固有、本质关键特征或属性进行量测并将结果数值化,形成特征矢量。通常能描述对象元素很多,为了节省资源,节省计算机存放空间、处理时间、特征提取费用,有时更是为了可行性,在确保满足分类识别正确率要求条件下,按某种准则尽可能选择对正确分类识别作用较大特征,使得用较少特征就能完成份类识别任务。这项工作表现为降低特征矢量维数或符号字符数。在本系统中采取对待识别数字图像进行行列扫描和数字起点结合方法提取特征。2.2.1 结构特征提取首先对经预处理后图像进行分割,图2.6

10、所表示。图2.6 图像分割对图像分割后,结构特征提取算法以下:(1) 对细化后数字图像取竖直三条直线,分别取在5/12,1/2,7/12处,记下这三条竖直直线和数字笔段交点数。(2) 再取水平三条直线,分别取在1/3,1/2,2/3处, 分别记下这三条水平直线和数字笔段交点数。(3) 再取对角两条直线, 分别记下这两条对角直线和数字笔段交点数。2.2.2 笔划特征提取经细化后数字图像其特征较为稳定,且笔划简单,所以对其抽取基础结构组件能反应数字本质特征,从而可快速有效地识别数字符,并达成很好分类效果。数字端点图2.7所表示。提取笔划特征算法以下:(1) 按从上到下,从左到右次序扫描预处理后图像

11、并选择黑像素点P;(2) 计算像素P8邻域之和N;(3) 若N=1,则像素P为端点,端点计数器加一;(4) 反复步骤(1)-(3),直到遍历整个图像。图2.7 数字端点2.2.3 数字特征向量说明依据上述特征提取方法,本系统中特征矢量由9个分量组成,其排列以下所表示:DATA= 竖直中线交点数,竖直5/12处,竖直7/12处,水平中线交点数,水平1/3处交点数,水平2/3处交点数,左对角线交点数,右对角线交点数,端点数 ;2.3 知识库建立因为本文采取是基于模式知识库识别方法,所以对字符结构特征分析和字符模型结构是一个十分关键步骤,图2.8就是对识别数字标准形态进行具体分析而结构模板。图2.8

12、 规范手写体数字形态DATA012,2,2,2,2,2,2,2,0;DATA111,0,0,1,1,1,1,1,2;DATA213,3,3,1,1,1,1,1,3;DATA313,2,3,1,1,1,2,2,3;DATA411,1,1,2,2,1,3,2,4;DATA513,3,3,1,1,1,2,2,4;DATA613,3,2,1,1,2,3,2,1;DATA712,2,2,1,1,1,1,1,2;DATA814,4,4,2,2,2,2,2,0;DATA913,3,3,1,2,1,3,1,1。因为本系统是对自由手写体进行识别, 所以要考虑数字书写体多变性。经过对图2.9所表示数字变体分析来对

13、知识库进行补充。图2.9 手写体数字变体DATA021,1,2,2,2,2,1,2,2;DATA223,2,2,1,1,1,1,3,2;DATA323,1,4,2,1,1,2,2,3;DATA421,2,2,3,3,1,2,2,2;DATA523,3,3,1,1,1,2,2,4;DATA623,1,3,1,1,2,2,2,2;DATA824,4,4,2,1,2,1,2,2;DATA923,2,3,2,1,1,3,1,3。最终得到知识库由上述两套模板所组成。2.4 本系统模式识别方法在此次设计过程中,我们选择了模板匹配识别方法。经过计算欧氏距离来衡量匹配程度。本系统中特征矢量有9个分量,其计算距

14、离公式以下: 公式(2.1)但在此次设计中我们计算距离时对上述公式进行了改善,对于可靠性较高端点数即最终一维特征值加大了权重,改善后距离计算公式以下: 公式(2.2)在识别过程,分别计算待识别图像特征值和知识库中两个模板距离,和10个数字逐一比较,距离最小对应数字就是最终识别结果。该算法含有特征提取和模板建立全部比较直观,时间复杂度低,易于实现等优点。其缺点是在建立知识库时需要进行大量训练,当知识库中模板增多时,特征矢量间距离会减小。3 MATLAB程序设计此次设计使用MATLAB语言实现该系统,其用户界面分别介绍以下。(1) 读入图像:读入图像用户界面图3.1所表示。图3.1 读入图像(2)

15、 对图像进行多种处理:选择对图像多种操作用户界面图3.2所表示,对图像取反用户界面图3.3所表示,对图像平滑去噪用户界面图3.4所表示,对图像进行二值化操作用户界面图3.5所表示,对图像进行规范化处理用户界面图3.6所表示,对图像进行细化操作用户界面图3.7所表示,图3.2 选择对图像多种操作 图3.3 图像取反图3.4 平滑去噪 图3.5 二值化图3.6 规范化图3.7 细化(3) 数字图像识别:对手写体数字进行识别结果显示界面图3.8所表示。图3.8识别结果显示在上述界面中, 系统可依据用户对识别结果正误选择,自动计算识别率, 识别率结果显示在图像界面上方。4 试验结果及分析在试验过程中我

16、们以两组样本作为训练样本对知识库参数进行调整,这两组训练样本分别为100个规范手写体样本和100个自由手写体样本,规范手写体样本训练结果如表4.1所表示,自由手写体样本训练结果如表4.2所表示。表4.1 规范手写体训练结果数字类别正识样本数误识样本数识别率0100100%1100100%29190%39190%49190%59190%6100100%7100100%8100100%99190%累计95595% 表4.2 自由手写体训练结果数字类别正识样本数误识样本数识别率0100100%1100100%28280%39190%49190%58280%6100100%7100100%810010

17、0%99190%累计93793%在测试试验中,我们以200个规范手写体和200个自由手写体共两组样本作为测试样本,识别试验结果分别如表4.3,4.4所表示。表4.3 规范手写体识别试验结果数字类别正识样本数误识样本数识别率0200100%1200100%217385%318290%418290%517385%618290%7200100%819195%918290%累计1851592.5%由上表能够看出,本系统对规范手写体有很好识别效果,识别率达成92.5%。表4.4 自由手写体识别结果数字类别正识样本数误识样本数识别率019195%1200100%216480%318290%418290%5

18、17385%618290%7200100%819195%917385%累计1821891由上表所表示,字符2和5误识率较高,常误识别为对方数字,对待识别数字要求严格,这是因为它们标准特征向量距离较小,需要经过增添标准库或参数调整对此情况进行改善。5 结论本文对自由手写体数字识别基础原理及方法作了介绍,并用MATLAB工具实现了自由手写体数字识别系统。试验结果表明,基于所用结构模型和知识库识别方法对规范手写体数字是可行,含有较高识别率及很好抗噪性能,也能够识别一定条件下自由手写体数字。为了提升识别率和可靠性,除了要增强对噪声滤除能力外,还要增大知识库,以处理细化中出现结构畸变问题,这些全部有待我

19、们深入研究。参考文件1 张平等.matlab基础和应用简明教程M. 北京:北京航空航天大学出版社, .2 飞思科技产品研发中心.matlab6.5辅助图像处理M. 北京:电子工业出版社, .3 章毓晋.图象处理和分析.北京:清华大学出版社M, .4 蔡炯熙.基于旋转不变性印刷体数字识别J.计算机应用, no.3,.5 郝红卫.手写体字符识别和集成D.北京:中国科学院声学研究所, 1998.6 马向辰.字符识别系统中图像预处理方法研究D.北京:北京科技大学, .7 林晓帆,丁晓青,吴佑寿.手写数字识别原理及应用J. .8 邹伟.高精度手写体数字识别算法研究及应用D. 北京:北京邮电大学, .9

20、陈荣保,陈翊.手写体数字识别D.合肥:合肥工业大学工业自动化研究所, .10 叶卫东,李冠英.自由手写体数字识别一个方法J. 现代计算机, no.10, 1998.11 侯继红, 徐军. 手写体数字识别技术研究J. 电子计算机和外部设备, no.5, 1999.12 王辛芳,施鹏飞. 基于压缩子结构特征手写体数字识别J.上海交通大学学报, no.5,.13 柳回春,马树元,吴平东,杨峰,曾兴生,毕路拯.基于结构特征手写体数字识别算法J. 计算机工程, no.11, .14 李珺.手写体数字识别方法研究J. 甘肃科技, no.8, .15 傅德胜,寿益禾.图形图像处理学M.南京:东南大学出版社,.16 孙兆林. MATLAB 6.X图像处理M. 北京:清华大学出版社,.17 J.P.Marques de Sa著,吴逸飞译.模式识别原理、方法及应用M.北京:清华大学出版社,.18 王沫然. MATLAB和科学计算(第2版)M. 北京:电子工业出版社,.

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服