收藏 分销(赏)

浅谈民国报纸数字资源建设质效提升——以国家图书馆为例.pdf

上传人:自信****多点 文档编号:706201 上传时间:2024-02-18 格式:PDF 页数:4 大小:991.07KB
下载 相关 举报
浅谈民国报纸数字资源建设质效提升——以国家图书馆为例.pdf_第1页
第1页 / 共4页
浅谈民国报纸数字资源建设质效提升——以国家图书馆为例.pdf_第2页
第2页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、数字与缩微影像DIGIITAL&MICROGRAPHIC IMAGING经验交流112023.3 数字与缩微影像摘 要:本文梳理了国家图书馆民国报纸数字化加工中的重点工作,从置标错误与转换错误两方面剖析了民国报纸数字化中文字识别常见问题,并对民国报纸数字化质效提升提出了相应的建议,以期后续能向读者提供更准确高效的民国报纸知识服务。关键词:民国报纸;OCR;数字化;质效提升;国家图书馆0引言国家图书馆在革命文献与民国时期文献保护计划“十四五”时期规划纲要中指出:未来将继续加强文献原生性和再生性保护与建设,在实现对文献科学有效保护的同时,提升文献的可视度与服务效能,对有价值的特色文献进行深度挖掘与

2、揭示。1 这意味着文献加工工作应该转向建设与规划文献内容的方向上来。在民国文献数字化加工中,民国报纸的加工最为复杂,因为其涉及对不同报纸的种类、字体与参差的印刷质量等信息的处理。许多专家学者在实践基础上归纳总结,形成了民国报纸数字化流程较为完整的经验介绍。肖红2-3从项目执行的角度,对于项目开展过程中,因报纸本身特殊性所产生的问题,进行了梳理并给出了解决方案;还针对项目质检环节,介绍了质检的方法,并分析了其中所涉及的问题。张玮4从数据资源的角度对于项目开展过程中的元数据与对象数据的常见问题进行了归纳,并提出了相应的解决方案。金彩虹5从选题、生成系统、数字化流程以及在数字化过程中的注意事项等方面

3、,阐述了将民国时期四川报纸缩微胶片进行数字化的方法。通过对于国家图书馆数字化文献的梳理发现,当前对于民国报纸数字化的文献介绍,大都是针对加工标准、加工流程、数据库建设以及特色主题、服务模式研究等方面,而缺少对民国报纸OCR(optical character recognition,光学字符识别)应用实践的总结与分析。本文剖析了民国报纸缩微胶片数字化项目,介绍了如何利用 OCR 文字识别技术提升质效,希望能对未来开展民国文献数字化工作提供帮助。1 民国报纸数字化加工中的重点工作当前对于民国报纸数据库资源建设的展现形式,多为对于报纸原貌的图像展现,即 PDF 格式全文数字化6,读者对于相关篇目内

4、容的检索只能通过图像浏览来实现。国家图书馆自 2014 年开始开展民国报纸缩微胶片数字化工作,通过对于元数据信息的采集以及对象数据的加工,最终采集信息包含报纸名称、记录标识号、版名、出版日期、卷期、版次、标题、作者、栏目等相关信息,实现了以具体篇目为单位的信息检索与浏览。该项功能的实现,需要 OCR 技术的支持。虽然中文图书与民国报纸数字化使用的 OCR 技术在流程上大致相同,均包括图像输入与处理、版面分析、字符切割与识别、版面恢复与成品输出等步骤。7但受民国报纸本身特殊性(排版、字体、文字清晰度等)的影响,其识别率较中文图书存在一定差距。如果能在图像处理过程中把握工作流程中的关键节点,就能够

5、有效提升识别率,具体操作详见如下分析。1.1图像输入与处理阶段进行 OCR 文字识别的第一步就是将符合项目规范的图像进行二值化处理后,在占用内存较小的前提下清晰展示报纸内容,同时也为后续进行识别减少色彩干扰。在该阶段,对于图像的纠偏,除了美观外,也能在一定程度上减少由于图像倾斜所引起的误识别。另外,现有的民国报纸经常有透字、粘连、断笔、印刷不清以及被标记的现象,对其进行处理时,还需要将不属于本篇目的的其他背景与噪声进行处理,以提升识别速度,为后续文字识别奠定基础。因此,相比于中文图书去噪算法,对报纸版面进行去噪处理的计算方法应更加详尽细致。浅谈民国报纸数字资源建设质效提升以国家图书馆为例曹鑫新

6、中国国家图书馆 北京 100081数字与缩微影像DIGIITAL&MICROGRAPHIC IMAGING经验交流12数字与缩微影像 2023.31.2版面分析阶段经过处理的图像进入版面分析阶段,需要对一版报纸中的每一篇目进行置标并标记,这种标记包括篇目序号、篇目框数、篇目范围、篇目类型与文本类型、识别顺序,篇目类型包括广告、正文、图片组、附图等。由于民国报纸的排版格式没有采用固定的文字方向,同一版报纸篇目的排列顺序有可能存在由“从右往左,从上到下”突变为“从左往右”的情况。这种排版的不确定性,使民国报纸的文字识别变得尤为复杂。因此,检查必填项的完备性与已框选标题或文字的相关性,成为版面分析工

7、作的一个重要步骤。1.3字符切割与识别阶段完成版面分析后就进入了后台切字与特征提取识别阶段。该阶段,对于报纸中的汉字,可依据结构特征进行分析比对,完成特征提取后,将提取出的文本与数据库中的标准字符进行匹配,以确定字符。传统的中文图书采取同种字体进行印刷,但是在民国报纸中,字体的使用较为复杂,同一版报纸会出现繁体字、简体字、异体字、手写体以及不同字号字体的综合使用。这涉及了字库的图片与设定字间距等因素,因此在算法的设计上相较于中文图书要求更加严格。1.4版面恢复与成品输出阶段传统的中文图书将纸质内容数字化时,只需对文字及图片进行原样识别,不存在相关板块的划分,原样著录即可。但是民国报纸在原样著录

8、原则不变的前提下,因为 XML 标签涉及标题文字、作者、篇目范围、标题范围等信息的编辑,所以相较于中文图书数字化,民国报纸的成品出现错误的几率更大一些。比如,完成同一篇目下的各个标记框后进行合成时,就需要关注如何能在排版不固定的情况下,准确、高效地整合同一篇目的信息,以避免出现篇目及标题置标错误的问题。在完整的成品数据输出之前,需要对已完成的数据进行机器识别与人工校对。因此,机器字库的完备与否,识别准确率的高低,工作人员的相关知识储备是否丰富等都是提升识别率的关键问题。2 民国报纸 OCR 常见问题与原因分析民国报纸在文字识别时存在着一些常见的置标与转换错误,笔者总结了在项目数据质检过程中发现

9、的文字识别问题,详见图 1。2.1置标错误在完成报纸的图像处理后,需要对于报纸进行版面分析与字符切割,这一步处理得准确与否关系着文字识别率的高低。标注的方式是对文章篇目范围、标题及标题文字、作者进行置标,标注的内容为篇目框数、文字顺序等。在实际项目应用过程中,置标错误通常分为多置标、少置标与未置标三种类型。2.1.1多置标在对于民国报纸数字化成品进行质检过程中,通常在栏目、标题、作者位置中出现多置标的现象。如图 2,图中“前任營業稅局長趙振華”应为正文内容,被误识别为标题内容。在部分篇目的小标题与正文字号一致的情况下,这种现象更为常见。图 2标题多置标示例依据项目加工细则,著录作者信息时要去掉

10、国籍地区及单位等信息,只著录作者姓名。如存在两位或两位以上作者时,除作者姓名外,则需要著录责任方式。若对加工细则把控不准确,则会出现作者信息的多置标或某个区域被重复置标等情况。2.1.2少置标 在文字识别中还会出现少识别的现象,比如篇目与某一专民国报纸 OCR 文字识别常见问题置标错误多置标少置标未置标形近字错误文字顺序错误字体转换错误符号及空格错误异体字手写字转换错误图 1民国报纸 OCR 文字识别常见问题数字与缩微影像DIGIITAL&MICROGRAPHIC IMAGING经验交流132023.3 数字与缩微影像题版块的文字信息相对应时,我们将它识别为栏目信息,如:教育、法律等。我们通常

11、还会根据栏目覆盖范围的大小,将多个栏目设置为父栏目与子栏目,并著录在栏目框之中,从而导致在实际识别中出现栏目识别不全的问题。由于民国报纸正文的开头没有统一的格式,如部分报纸会在正文开始前注明“地,日電”,这样当标题文字与正文文字字号大小一致时,也容易出现标题被误认为正文而导致标题被少识别的现象。如图 3 所示,“日内即動工昨日先往勘驗”应为标题内容,被误划入正文,因此造成了标题内容的少识别。民国报纸标题有时会出现两次甚至多次同一个字,这种情况需要加以辨别,如果重复文字是为了排版而出现,则不需要多做识别。少置标的问题,通常出现在多个作者的少识别以及作者著作方式的少识别等情况。此外由于文字的断笔而

12、被误识为噪点,也会造成文字的漏划少识别。图 3标题少置标示例2.1.3未置标 在篇目进行置标阶段,需要将篇目划分,并标注标题、副题、作者等信息,在识别过程中,易出现将独立篇目划分给其他文章的漏划,以及版面中篇目未圈划的现象。纵观以上错误类型,置标类错误是软件开发人员与参与加工人员对于加工细则把握存在偏差而造成的。软件开发人员对加工细则的更新了解不及时,在前期完成版面分析识别软件程序的开发后,没有根据项目开展情况,以及报纸实际版式识别情况,及时对算法做出调整;加工及校对人员对于排版、标题等信息不敏感,造成机器识别过程中产生一些共性问题。2.2转换错误在完成版面分析与字符切割后,进入特征提取与字符

13、识别阶段。该阶段对于已经进行置标的文字进行识别,即完成由图片文字向对应文本文字的转换。在识别过程中容易出现的错误有四种:形近字错误、文字顺序错误、字体转换错误、符号及空格错误。2.2.1形近字错误民国报纸中,经常出现形近字,如:“樂藥、門鬥”等,这些形近字在识别过程中有可能出错。2.2.2文字顺序错误民国报纸中文字顺序通常为从上到下,从右到左,在实际识别中,会出现文字顺序有误的情况,如图 4“足球赛”被识别为“赛球足”。图 4文字顺序识别错误示例2.2.3字体转换错误因民国报纸中涉及文字有繁体字与简体字、异体字以及手写体等,在识别时,需要根据报纸原样进行识别,如:“峰”与“峯”以及“敎”与“教

14、”等。手写体会受不同人书写风格不同的影响,对文字的对齐方式以及行间距的识别结果产生偏差。如图5,识别文字应为“苏芬”。图 5字体转换错误示例2.2.4符号及空格错误在进行文字识别时,为准确断句,对于相应位置的空格及符号也需要识别,如“”、“”、“”等。转换类错误的出现原因是字库的范围不够充分,不能够很好地区分形近字以及文字的字体;机器学习不够充分,不能够智能地判断词语关系,加工及校对人员对于繁体字、异体字、手写体等知识储备不足等。3 民国报纸 OCR 常见问题改进建议当 前 民 国 报 纸 数 字 化 中,OCR 文字识别的应用主要是靠机器切分,以人工作为辅助。在民国报纸中出现错误,主要原因为

15、软件开发人员与实际加工人员对于加工细则的把握存在偏差,字库范围不够充分以及机器学习不够充分等。针对以上问题,笔者提出以下两点建议。3.1 提升 OCR 识别率,降低人工成本加强机器学习,提高机器对于符合民国用语习惯的词语,或是民国时期使用但当今已停用的词语的识别率,以及词间关系的准确识别率。引入深度学习,对于图像处理、文本区域检测和识别方面进行优化,对于文本的文字方向与文字范围有更准确的判断;依据统计自然语言的处理方法,对民国常用词汇进行收集,形成民国报纸标题关键词信息数据库,在完成字符识别阶段后,自动提取已识别信息与数据库信息,将之进行对比,提供错误信息修正选项,供人工与原图像文字对比参考;

16、扩充项目字库,边建设边完善,形成针对民国文献可动态更新的字库。3.2 建立智能项目管理系统,促进共建共享项目的完成是一个资源与人数字与缩微影像DIGIITAL&MICROGRAPHIC IMAGING经验交流14数字与缩微影像 2023.3员动态统筹的过程,涉及到如数据质检方、数据加工单位、共建单位等内容。因此,构建一个动态而统一的项目管理系统,能够使数据的加工范围更广、效率更高。该系统在项目推进上能够实现对于人员的培训、数据流程的共享、数据修改的广播以及不同角色间的对话。在数据加工上,后期能够根据实际使用情况跟进,实现对于软件及算法的动态更新;对加工内容的多维筛选;根据进度动态调整抽检比率,

17、实现以适时抽检的方式督促质量提升。4结语在智慧图书馆时代,图书馆业务必须进行重新整合。文献的服务已从简单的浏览与检索,上升到知识组织与分享。民国报纸数字化项目的质效提升,使后续开展文献内容语义组织成为可能,图书馆将能为读者提供更加准确、高效的民国文献知识服务。参考文献1国家图书馆.革命文献与民国时期文献保护计划“十四五”时期规划纲要EB/OL.(2021-10-28).http:/ 2023 年全国公共图书馆缩微工作会议7 月 20 日至 21 日,由全国图书馆文献缩微复制中心主办、甘肃省图书馆承办的 2023 年全国公共图书馆缩微工作会议在兰州召开。国家图书馆副馆长霍瑞娟出席会议并讲话,甘肃

18、省文化和旅游厅党组成员、副厅长田学功致欢迎辞。来自全国 25家省级公共图书馆的馆领导、缩微部门负责同志及业务骨干共计 60 余人参加了会议。开幕式由甘肃省图书馆馆长肖学智主持。霍瑞娟在讲话中充分肯定了新时代背景下缩微技术的重要性,对图书馆文献缩微工作者切实履行职责,推动缩微事业发展提出了更高的期望。她表示,缩微技术在文献长期保存保护领域具有不可替代的作用,数模转换技术使文献加工效率和服务便捷程度得到了质的飞跃。因此,国家图书馆会继续坚持文献原件保存、缩微异质长期保存和数字化服务三者并驾齐驱。霍瑞娟强调,传承中华优秀传统文化是图书馆人的历史使命,保护珍贵文献,推动中华优秀传统文化迸发新优势、绽放

19、新光彩是缩微工作者肩负的责任。全国公共图书馆文献缩微事业需要广开思路,凝聚共识,探索机制,共谋发展。第一,要进一步优化工作机制,加强缩微中心的组织引领与各馆的协作效能;第二,要创新合作模式,加强缩微文献资源的活化利用;第三,要不断发掘缩微技术优势,保持图书馆缩微事业长效发展。会议期间,与会代表围绕“十四五”时期缩微工作情况进行了分组讨论,就缩微事业的技术发展、组织形式、协同方式、人才建设、全面保障等方面展开了深入交流。来自甘肃省图书馆、辽宁省图书馆和缩微中心的代表分别围绕工作实际与特色案例开展了专题分享。会议还听取了全国图书馆文献缩微复制中心章程修订要点说明、年度缩微中心工作总结和计划,并对年度缩微工作先进集体、先进管理者和先进个人进行了表彰。下一步,全国图书馆文献缩微复制中心将进一步探索技术、夯实业务、优化机制,统筹引领全国公共图书馆互相配合、通力协作,继续共同守护珍贵文献资源。全国图书馆文献缩微复制中心

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服