1、收稿日期:2022-12-19摇 摇 摇 摇 摇 摇 修回日期:2023-04-20基金项目:中国气象局山洪地质灾害防治气象保障工程项目(2019-04);贵州省气象局科技基金项目(234040990120)作者简介:支亚京(1990-),女,工程师,从事气象资料质量控制和档案数字化研究;通讯作者:汪摇 华(1974-),女,高级工程师(正高),从事气象信息系统规划和建设及大数据管理研究。基于支持向量机的气温自记纸图像数字化支亚京1,汤摇 宁1,吴兴洋1,汪摇 华1,胡兴炜1,张摇 军2(1.贵州省气象信息中心,贵州 贵阳 550002;2.重庆众仁科技有限公司,重庆 400021)摘摇 要:
2、气温自记迹线是记录气温连续变化过程的图像数据,气温自记纸图像数字化是完成纸质气温图像自记纸中字符和迹线信息的数字化处理,建立长序列历史精细化气温数据集。实现气温自记迹线提取和图像数字化,是解决纸质历史气温自记纸保护和应用的重要途径。将支持向量机(Support Vector Machine,SVM)和形态学的迹线识别算法集成于气温自记迹线数字化提取软件中,实现了气温自记迹线智能化跟踪提取、质量控制、检查修正以及产品生成。应用结果显示:与前期开发的降水自记迹线、气压自记迹线和 EL 电接风自记迹线数字化软件相比,该系统首次实现了形变矫正和时间记号线自动识别功能,在自记迹线发生扭曲、歪斜等情况不需
3、人工对自记纸图像重新扫描,可以通过自记纸本身微调自动订正和器差订正,经与 A 文件中人工整理的气温记录对比,能够满足气温自记纸迹线提取对数据质量和精度的要求。关键词:气温自记迹线;数字化;支持向量机;形态学;智能化跟踪提取;自动订正中图分类号:TP302;P416.2摇 摇 摇 摇 文献标识码:A摇 摇 摇 摇 摇 摇 文章编号:1673-629X(2023)10-0216-05doi:10.3969/j.issn.1673-629X.2023.10.033Digitization of Temperature Self-recording Paper Based onSupport Vect
4、or MachineZHI Ya-jing1,TANG Ning1,WU Xing-yang1,WANG Hua1,HU Xing-wei1,ZHANG Jun2(1.Meteorological Information Center of Guizhou Province,Guiyang 550002,China;2.Chongqing Zhongren Technology Co.,Ltd.,Chongqing 400021,China)Abstract:Temperature self-recording curves are the image data for recording t
5、he continuous change process of temperature.Thedigitization of temperature self-recording paper is to carry out the digital processing of characters and curves information in temperatureself-recording paper data,and to establish historical long-sequence temperature datasets.The realization of temper
6、ature recording traceextraction and image digitization is an important way to solve the protection and application of paper historical temperature recordingpaper.The recognition algorithm of curves based on support vector machine(SVM)and morphology is integrated into the temperatureself-recording tr
7、ace digital extraction software,realizing the intelligent tracking and extraction,quality control,inspection and correction,and product generation of temperature self-recording curves.The application results show that compared with the precipitation self-recording curves,pressure self-recording curv
8、es and EL electric wind self-recording curves digitalization software developed in the earlierstage,it firstly realizes the functions of deformation correction and time mark line automatic identification.When the self-recording traceis slightly distorted,skewed,etc.,without the need for manual re-sc
9、anning of the self recording paper image,the self-recording paperitself can be fine tuned for automatic correction and device error correction.Compared with the temperature records manually sorted outin file A,it can meet data quality and accuracy for curves extraction of temperature recording paper
10、.Key words:temperature self-recording curves;digitization;support vector machine;morphology;intelligent tracking and extraction;automatic correction0摇 引摇 言实时历史气象资料是开展天气预警预报、气候预测评估、科学研究的基础,对国家应对全球气候变化至关重要1-2。气象要素自记迹线是记录气象要素时间上连续变化的历史资料,中国气象要素自记观测从 20世纪 50 年代开始,包括气温、气压、相对湿度、降水、风第 33 卷摇 第 10 期2023 年 10
11、 月摇 摇 摇 摇 摇 摇 摇 摇 摇 摇计 算 机 技 术 与 发 展COMPUTER TECHNOLOGY AND DEVELOPMENT摇 摇 摇 摇 摇 摇 摇 摇 摇 摇Vol.33摇 No.10Oct.摇 2023等。在数字引领科技发展的趋势下,纸质历史气象要素自记资料数字化是解决其保护和应用的重要途径。近年来,随着图像处理技术、模式识别以及机器学习等技术的发展,2004 年,王伯民等研发的降水自记纸彩色扫描数字化3-5处理系统实现了降水曲线自动跟踪提取相关技术;2017 年,李亚丽等采用基于边缘检测法6-7开发了 EL 型电接风自记纸迹线提取软件系统,两大系统软件帮助全国各省先后
12、完成了降水自记纸、EL 型电接风自记纸数字化处理,建立了全国气象观测站降水、风的历史分钟、小时资料数据集;薛改萍等8利用全国推广软件完成了西藏风自记纸数字化工作,并对提取数据进行分析研究;张一博等9利用人机交互全国推广软件对提取和质量检查过程中的难点进行分析与处理;岑瑶10、贺美萍11、马宁等12研究了常规图像处理技术在气压自记纸和气温自记纸数字化处理方面的应用,实现了气压和气温自记纸曲线数据的提取。上述软件系统只有降水自记纸和 EL 电接风自记纸迹线提取软件在全国推广,但在自记纸出现轻微扭曲、歪斜等情况时,需要人工对自记纸图像重新扫描,不能实现自动订正,也未对仪器本身的系统器差进行订正。针对
13、以上问题,研发功能全面的气温自记迹线数字化软件十分必要。贵州省气象信息中心按照气温自记纸数字化技术标准,提出了基于 SVM 和形态学机器学习算法,以此技术开发了气温自记迹线数字化提取软件,实现了气温自记迹线智能化跟踪提取、质量控制、检查修正以及产品生成,极大提高了数字化工作效率和生产质量,节约了人工资源成本。该文主要介绍气温自记迹线数字化提取软件的设计、处理流程、主要功能、关键技术和评估结果分析。1摇 气温自记纸数字化提取软件介绍1.1摇 软件设计基本思路和目标基于 SVM 和形态学机器学习算法,构建图像识别技术,根据中国气象局提出的气温自记迹线提取技术规定,实现对气温自记迹线信息全面自动跟踪
14、、提取,系统智能,操作简单,自动输出气温自记迹线数字化成果,即标准化分钟、小时数据文件,为后期气压自记迹线、相对湿度自记迹线等图像档案的数字化工作奠定技术基础。1.2摇 软件系统结构气温自记纸数字化软件采用客户端离线加工,以关系型数据库 SQLite13为存储工具,运行在 PC 及其兼容环境上。主要功能包括批量预处理、检查修正和成品数据生成等模块,最终输出数字化成果提交国家局。气温自记迹线数字化提取软件结构如图 1 所示。1.A2.3.1.2.3.4.A1.2.3.4.图 1摇 气温自记迹线数字化提取软件结构1.3摇 系统主要功能软件系统包括:批量处理、检查修正、成品数据等模块。(1)A 文件
15、导入是用于导入 A 文件气温数据,根据 N 和 I 字段联合判断定时观测时次,供数字化自动识别和对比。其中,如果 A 文件中存在 I7,I8 或者 N9要素标识符,则默认有北京时 08、14、20 点三次定时观测,其他则为 02、08、14、20 点四次定时观测。且在1960 年 6 月(含 6 月)之前的定时观测时间差 1 小时,1960 年 6 月前为 01、07、13、19 时,其后为 02、08、14、20 时。(2)批量处理模块是对选择自记纸图像逐张迹线自动提取。第一步:加载图像列表,系统自动对图像的基本要素(文件名、日期是否连续、图像分辨率以及倾斜度等)进行检查;第二步:设置迹线、
16、网格的开始结束时间和观测值范围,用于创建气温自记纸的初始坐标系;第三步:批量自动提取,点击开始自动提取后,界面显示不同提取状态的文件数量,同时可以利用异常信息导出异常日期列表。(3)检查修正模块是对批量提取的迹线数据进行回放检查对比,手动修改提取有误的迹线数据,针对不同情况合理添加备注,并保存到迹线对应的 txt 文件。主要步骤包括:迹线矫正、时间记号线矫正、器差订正、A 文件气温对比。(4)成品数据模块是将经过检查修正的数据转换成标准数据进行输出,得到精细化小时、分钟气温数据。第一步:将数据库中同站号气温迹线提取数据进行合并,包括分钟小时数据、图片、txt 数据文件;第二步:将数据转换为标准
17、数据。(5)图像矫正模块是对台站异常数据如倾斜、扭曲的自记纸进行手动矫正,通过手动的上下、左右拉伸获取规范的自记纸图片,并替换原始异常图片。2摇 核心算法气温自记迹线自动识别提取原理主要包括以下三部分:边框识别、迹线识别和时间记号线识别。下面简单介绍边框识别和时间记号线识别原理,重点介绍基于支持向量机和形态学的迹线识别方法。712摇 第 10 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 支亚京等:基于支持向量机的气温自记纸图像数字化2.1摇 边框提取识别原理根据前期对贵州省多年多站的气温自记纸图像进行红色(R)通道、绿色(G)通道、蓝色(B)通道三个通道像素统计结果显示,R 通道像素值较大、
18、B 通道像素值较小的点对应了橘黄色表格线点,即对应边框线的像素点。根据边框线呈横向、竖向分布特征,软件设计采用横向和竖向投影方式确定各方向边框位置,图 2 中对应波峰位置分别对应竖向和横向表格线位置。图 2摇 横向竖向表格线位置2.2摇 时间记号线识别原理时间记号线是迹线开始结束时间,首先计算定时观测时次参考位置,在定时观测时次左右 15 分钟区间内识别竖直短竖线位置即为时间记号点位置,对每个小矩形框竖向投影,找到最小的列,再求与迹线的交点为准时间记号点。时间起始终止位置如图 3 所示。图 3摇 时间起始终止位置摇 摇 但是根据时间记号线平行于网格线的基本特征,位于表格上下两端的时间记号线竖向
19、投影往往存在一定偏差。为进一步矫正时间记号线精度,软件在准时间记号点左右两分钟范围内,再次进行竖向投影,找出投影最小列即为时间记号点所在列,再次重新计算与迹线的交点即为时间记号点。2.3摇 基于支持向量机和形态学的迹线自动识别方法基于支持向量机和形态学的气温自记纸迹线自动识别方法流程如图 4 所示。该方法第一步是去除图像大部分背景像素;第二步是将气温自记纸图像进行灰度化处理,形成灰度化像素值,然后采用对通道像素值进行伽马变换对比度拉伸,增强图像局部对比度用以扩大迹线点与表格线点和噪声点之间的差别,形成自95%RGBR-BSVM1图 4摇 气温自记纸迹线自动识别流程适应增强像素值;第三步是输入图
20、像中每个点的原始812摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷RGB 通道值、灰度值、自适应增强像素值和 R-B 通道值,由支持向量机模型分类器进行分类,并获得初步迹线像素值集合;第四步是采用形态学方法对 SVM 分类器识别结果进行形态噪声去除,确定最终迹线像素点。(1)去除图像背景像素。利用 Otsu 二值化方法14-15去除图像大部分背景像素,这种方法一方面减少数据计算量,提升计算速度;另一方面能够减少多余图像部分对算法本身的干扰。(2)气温自记纸
21、图像灰度化。由于最小均值法得到的灰度图像迹线和噪声像素间对比度较大,且迹线像素间的灰度方差较小,迹线像素点基本得以保留,因此,本软件中采用最小均值法将气温自记纸彩色图像转换为灰度图像,其计算公式如公式16-17(1)所示。fgray(x,y)=12mini(fi(x,y)+13移ifi(x,y)(1)式中,fi(x,y)分别表示 R、G、B 三个通道彩色分量图像,fgray(x,y)表示变换后的灰度图像。(3)增强图像局部对比度。由于局部对比度增强后,迹线像素点与噪声像素点更容易区分,为了有效抑制背景像素点对图像对比度的影响,本软件定义气温自记纸图像的局部对比度 C(x,y)如公式18-21(
22、2)所示。C(x,y)=fmax(x,y)-fmin(x,y)fmax(x,y)+fmin(x,y)(2)式中,fmax(x,y)和 fmin(x,y)分别表示图像在以(x,y)为中心的领域内的灰度最大值和最小值。(4)建立 SVM 分类器模型。分为以下两步:第一步是构建样本集;第二步是构建 SVM 分类器模型。(a)构建样本集。分类样本数据主要包括:表格点、迹线点、噪声点等对应的邻域像素 RGB 通道值、灰度值、自适应增强值和 R-B 通道值,构造 N*5 训练集、测试集。首先,收集山东、江西、宁夏、黑龙江、贵州、重庆等多省(1960 年-2003 年)气温自记纸图像进行步骤 1 步骤 3
23、的预处理;其次,形成 N*5 点序列,取 70%作为训练集,10%作为验证集,剩余 20%作为测试集。(b)构建 SVM 分类器模型。选择多项式核函数,将数据集映射到高维特征空间,利用 SVM 机器学习算法在训练集特征空间中找出迹线点和表格线点的最优分类超平面,形成判断迹线点和表格线点的分类函数;将验证集中的像素值集合输入分类函数进行参数调优;将测试集中的像素值集合输入调优后的分类函数,评价模型的准确性,并获取初始的迹线数据集合。(5)去除形态噪声。通过形态学方法对表格线和迹线的识别结果进行连通域形态特征检测,如每个连通域面积、线性度、周长面积比、与主连通域平均距离等,通过以上特征判断连通域是
24、否为噪声点,进一步去除图像中噪声数据,剩余像素点则为迹线点坐标。3摇 应用效果分析对国家局纸质资料数字化技术组下发的 54749、56079、50136、53619、57883 等5 站约2 750 张气温自记纸图像进行气温自记迹线数字化,其中各站资料时间分别为 1964 年 12 月-2007 年 10 月、1962 年 1 月-2004 年 11 月、1963 年 1 月-2004 年 11 月、1967 年 1月-2006 年 11 月、1966 年 1 月-2006 年 11 月。将 A文件记录的气温值视为基准值,迹线提取计算值与 A文件中记录的小时气温、日最高气温和日最低气温值进行对
25、比分析,计算其平均偏差,评估分析软件的迹线自动识别效率以及计算值的准确性,针对差异较大的进行原因分析。3.1摇 气温记录对比分析从表 1 可以看出,计算值与 A 文件数据对比呈偏大趋势,平均偏差在 0.07 益 0.64 益 之间。总体而言,小时计算值与原值的差异小于日极值气温计算值与原值的差异。表 1摇 日最高/日最低/定时气温对比站号平均偏差/益日最高日最低02 时08 时14 时20 时547490.330.430.140.280.130.11560790.50.360.10.150.10.17501360.480.540.210.480.170.43536190.350.640.140
26、.160.070.15578830.470.250.080.090.190.09摇 摇 分析差异较大的原因主要有以下几类:(1)有部分迹线已经设置为缺测了,统计与 A 文件记录误差的时候未排除这种情况,将其视为误差进行统计,这部分原因占 90%以上;(2)50136 站 1989 年 5 月命名错误引起较大误差;(3)A 极值日界为 20 点,实际小时中没有完整时间段,并不存在当日的日极值数据。3.2摇 迹线自动识别效率通过统计分析提取迹线节点人工修正情况,即以站、时间为单位统计修正率。修正率公式如式(3)所示,人工修正率计算结果如表 2 所示。修正率=修正节点数量/节点总数量摇 摇 摇(3)
27、表 2摇 软件的迹线人工修正率统计站号迹线文件数/个修正节点数/个总节点数/个修正率/%547497533 030188 0410.5560794983 477219 8031.6501364952 526254 336153619496437134 7960.3578834951 138174 0590.7912摇 第 10 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 支亚京等:基于支持向量机的气温自记纸图像数字化摇 摇由表 2 可以看出,自动识别人工修正率在 2%以下,表明软件的迹线自动识别效率高,减轻人工处理的工作量,在满足技术要求的前提下,提升了气温自记纸数字化效率。3.3摇 图像矫
28、正效果按照以站点为单位统计分析待数字化的气温自记纸图像中倾斜、扭曲、被挤压等异常图像个数、自动矫正的图像个数和人工手动矫正的图像个数,统计结果如表 3 所示。表 3摇 图像矫正个数统计站号迹线文件数/个异常图像数/张自动矫正数/张人工手动矫正数/张5474975322202560794981082501364951211153619496141225788349513112摇 摇 由表 3 可以看出,一是通过软件的图像矫正功能可以实现异常图像矫正率达到 100%,其中,通过软件自动矫正率为 80%以上,通过软件手动矫正率为 20%以下(表 2 中的人工修正 50%的工作量为软件人工手动矫正工作
29、);二是异常图像占比为 2%左右(站点资料保存较好、扫描图像较好的情况下),以贵州省为例,总的气温自记纸图像数约为 147.9 万张,预估异常图像个数为 29 580 张,如重新扫描需要耗费很多时间。通过以上表明该软件对于异常图像无需再重新人工扫描就可以实现图像迹线正常提取,帮助业务人员减少了大量时间,提高了工作效率。4摇 结束语该文简要介绍了气温自记纸数字化软件系统设计目标和思路、设计结构和功能,以及基于 SVM 和形态学算法的迹线提取算法,通过对比 A 文件数据差异、分析差异原因以及软件的迹线自动识别效率等,结果表明,一是 SVM 机器学习算法对小样本下的分类回归问题具有准确的识别率;二是
30、与前期开发的降水自记纸、EL 电接风自记纸数字化软件相比,实现了自记纸轻微扭曲、歪斜等情况不需人工对自记纸图像重新扫描,可以通过自记纸本身微调自动订正和器差订正,软件能够满足气温自记纸迹线提取对数据质量和精度的要求。但是对于纸张质量差、墨迹污染褪色以及图像污渍严重、字迹特别多的图像数字化仍需进一步研究。参考文献:1摇 吴国雄,林摇海,邹晓蕾,等.全球气候变化研究与科学数据J.地球科学进展,2014,29(1):15-22.2摇National Research Council.A national strategy for advancingclimate modelingM.Washingt
31、on DC:National Academy ofSciences,2012.3摇 刘摇樱,马摇浩,杨摇明,等.浙江省分钟降水自记纸信息化数据与人工读取数据的对比及适用性分析J.沙漠与绿洲气象,2019,13(4):128-134.4摇 王伯民.彩色扫描图形数字化处理技术的研究 气象历史档案拯救技术探索之一J.应用气象学报,2003,14(6):763-768.5摇 王伯民,吕勇平,张摇 强.降水自记纸彩色扫描数字化处理系统J.应用气象学报,2004,15(6):737-744.6摇 李亚丽,黄少平,鞠晓慧.基于边缘检测法的风自记纸图像数字化J.计算机技术与发展,2022,32(1):160-
32、164.7摇 张志强,宋海生.应用 Otsu 改进 Canny 算子的图像边缘检测方法J.计算机与数字工程,2014,42(1):122-128.8摇 薛改萍,次摇 珍,尼玛次仁.西藏风自记纸数字化建设成果J.西藏科技,2021(1):50-51.9摇 张一博,余清波,王程程,等.基于人机交互的高质量 EL 型风自记纸数字化方法及其在吉林省适用性探究J.气象灾害防御,2022,29(1):43-48.10 岑摇 瑶.图像处理技术在实现气压自记纸数字化方面的应用J.电子技术与软件工程,2020(2):133-134.11 贺美萍.内蒙古气象档案温度自记纸数字化处理工作技术浅析J.内蒙古气象,20
33、15(4):39-41.12 马摇 宁,曹摇 宁,马摇 蕾.数字图像处理技术在温度自记纸数字化识别中的应用J.信息系统工程,2014(7):74-75.13 格兰特艾伦,迈克欧文斯.SQLite 权威指南M.第 2版.北京:电子工业出版社,2012.14 谢旻旻,钟小莉.基于改进 OTSU 算法的多时相立体卫星图像分割J.计算机仿真,2022,39(7):228-232.15 OTSU N.A threshold selection method from gray-level histo鄄gramsJ.IEEE Transactions on Systems,Man,and Cybernet
34、鄄ics,1979,9(1):62-66.16 SAUVOLA J,PIETIKINEN M.Adaptive document image bi鄄narizationJ.Pattern Recognition,2000,33(2):225-236.17 WOLF C,JOLION J M.Extraction and recognition of artificialtext in multimedia documentsJ.Pattern Analysis and Appli鄄cations,2003,6(4):309-326.18 卢摇 迪,黄摇 鑫,柳长源,等.基于区域对比度增强的二值
35、化算法J.电子与信息学报,2017,39(1):240-244.19 HADJADJ Z,CHERIET M,MEZIANE A,et al.A new efficientbinarization method:application to degraded historical docu鄄ment imagesJ.Signal Image&Video Processing,2017,11(6):1155-1162.20 CHEN Y,WANG L.Broken and degraded document imagesbinarizationJ.Neurocomputing,2017,237:272-280.21 熊摇 炜,徐晶晶,赵诗云,等.基于支持向量机的低质量文档图像二值化J.计算机应用与软件,2018,35(2):218-223.022摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷