1、人工智能本栏目责任编辑:唐一东Computer Knowledge and Technology电脑知识与技术第19卷第1期(2023年1月)第19卷第1期(2023年1月)一种基于AIS数据的航迹预测半监督学习方法研究李昂欣1,崔良中2(1.海军91219部队,山东 青岛 266000;2.海军工程大学电子工程学院,湖北 武汉 430033)摘要:在对AIS数据结构进行分析基础上,开展AIS数据预处理。对比传统航迹预测方法,提出一种基于聚类和SVR的半监督学习法方法,该方法首先基于SVR对单一航迹回归模型得出目标航迹的回归预测结果,然后将回归预测结果带入聚类模型中,根据聚类的分类结果,用每一
2、个航迹类区概率来矫正预测结果。通过长航期、短航期和近海区三类航迹数据发现,该方法具有更好的预测精度。关键词:AIS数据;聚类算法;SVR;半监督学习;航迹预测中图分类号:TP311文献标识码:A文章编号:1009-3044(2023)01-0013-03开放科学(资源服务)标识码(OSID):1 概述航迹预测对船舶、飞行器未来某个时间所处位置的预测。传统的航迹预测主要采用船舶当前目标航向、航速外推的方法,然而航迹数据往往规模巨大,且受大气海洋环境、周边运动目标等诸多因素影响,不能达到很好的预测精度。为有效利用历史舰船自动识别系统(AutomaticIdentification System,A
3、IS)相关数据,提高航迹预测精度,提出一种先聚类,后回归的半监督学习方法,采用K-Means聚类算法对历史航迹数据进行有效分类,再采用支持向量回归模型(Support Vector Regression,SVR)对当前航迹按照聚类结果进行分类,从而有效提升航迹预测精度,对监控海上目标行动意图,维护我国海洋权益具有重要意义。2 AIS数据预处理AIS系统是一种助航系统,由岸基设施和船载设备共同组成,是一种新型的集网络技术、现代通信技术、计算机技术、电子信息显示技术为一体的数字助航系统和设备,对海上通信和事故定位有很大帮助1。AIS原始数据由甚高频通过网络以数字编码的方式进行广播,是一种离散而不容
4、易被人们理解的数据,对舰船轨迹进行挖掘和分析研究的基础与前提是将这些原始数据进行分析并转换成一种结构化的数据2,3。所有首先要对其各个组成部分进行解码处理,才能解析所需要的水上移动通信业务标识码(Maritime Mobile Service Identify,MMSI)、时刻(time)、航速(sog)、经度(lng)、纬度(lat)和航向(cog)等各类信息,如表1所示。表1 AIS航迹数据数据类别静态数据动态数据航次数据航行安全信息相关信息船名、呼号、MMSI、IMO、船舶类型、船长、船宽航速、经度、纬度、航向船舶状态、吃水、目的地航行警告、气象报告经解析后的AIS数据由于其来源多样和操
5、作人员有意或无意的错误,存在着数据格式不统一、数据质量差异大等问题,具体如下:1)重复。即连续两条数据完全一致,此类问题比较常见,处理方法比较简单,删除两条重复数据中的后一条即可。2)缺失。如某一行数据中某个属性数据为空等,对于缺失某些动态信息的数据,常用处理方法是利用三次样条插值进行填充。3)错误或异常。某些数据明显与客观事实不符,如航向超出0-3599、航速超出0-1022、相邻两条记录经度和纬度变化较大等(AIS航迹数据中航向、航速数值均为实际的10倍),此类数据都应该去除,否则会对实验结果产生不可忽视的影响。针对上述AIS数据原始问题,需要进行针对性的预处理,整个预处理过程如图1所示。
6、AIS数据解析去除存在质量问题的数据提取关键属性最小-最大规范化图1 AIS航迹数据预处理流程图收稿日期:2022-10-30作者简介:李昂欣(1980),四川成都人,工程师,学士,主要研究方向为通信工程、计算机应用技术;崔良中(1979),江苏盐城人,副教授,博士,主要研究方向为计算机应用技术。E-mail:http:/Tel:+86-551-65690963 65690964ISSN 1009-3044Computer Knowledge and Technology电脑知识与技术Vol.19,No.1,January202313DOI:10.14004/ki.ckt.2023.0021本
7、栏目责任编辑:唐一东人工智能Computer Knowledge and Technology电脑知识与技术第19卷第1期(2023年1月)第19卷第1期(2023年1月)3 航迹预测典型方法国内外许多研究者都对航迹预测问题进行过研究,其方法大致分为两种:基于传统统计理论的预测方法和基于深度学习的航迹预测方法。基于传统统计理论的航迹预测方法主要包括归分析预测方法、马尔科夫预测模型(Markov Model,HMM)、卡尔曼滤波模型(Kalman Filter,KF)和时间序列模型。林毅4提出了一种基于SVR回归的预测模型,回归预测是通过对历史数据进行研究,找出自变量与因变量两者间存在的关联性,
8、然后建立数学模型用于预测;吴志建5等人根据马尔可夫线性估计理论,构建误差协方差估计矩阵,建立了航迹质量预测模型,航迹序列是随机性、离散性的时间序列,符合马尔科夫链特征;乔少杰6等人利用卡尔曼滤波模型(KalmanFilter,KF)对轨迹进行预测,卡尔曼滤波模型是使用线性随机系统状态方程,将观测数据输入到系统中,然后通过最小均方误差估计准则对系统状态进行递推计算得到最佳估计。它不但可以对信号进行滤波和估计,还可以估计模型参数,因此卡尔曼滤波在航迹预测也得到了广泛的应用;时间序列模型的主要特点是它可以根据预测对象历史的动态变化趋势来揭示时间序列内部的本质规律,用于预测未来的发展,通常用于处理动态
9、随机的序列数据。基于深度学习的预测方法最直接的就是使用多层前反馈神经网络,也被叫作多层感知机(Multi-LayerPerceptron,MLP)。BP(Back Propagation)。具体的神经网络模型有基于BP神经网络的预测方法、基于船舶位置差值的预测、K-means聚类和BP神经网络的航迹预测模型。使用遗传优化算法与BP神经网络相结合的混合模型进行航迹预测,凭借遗传优化算法的全局搜索能力解决传统神经网络易陷入局部最优点的问题。李永等人7根据船舶航向的复杂特性以及船舶轨迹预测的精度和实时性的需求,从神经网络入手,提出了基于神经网络的船舶航迹预测方法,充分探索船舶时间序列数据背后的运动规
10、律,进而实现航迹预测。4 航迹预测的半监督学习方法基于聚类-SVR的航迹预测半监督学习模型是以K-Means聚类算法和SVR回归算法为基础,首先基于SVR对单一航迹回归模型得出目标航迹的回归预测结果,然后将回归预测结果带入聚类模型中,根据聚类的分类结果,用每一个航迹类区概率来矫正预测结果,得到被预测舰船目标未来时间的位置信息。基于聚类-SVR的航迹预测模型,航迹预测模型的建立可分为航迹聚类、航迹预测和综合预测模型三个步骤。4.1 基于K-Means的航迹聚类算法基于K-Means算法的航迹聚类方法,不同于传统的点距离计算,需要明确两条航线的距离计算方法,在此基础上,进行聚类分类8。1)航线距离
11、计算给定包含有限个航迹点的被预测航迹T,可以将其表示为由一组离散轨迹点组成的序列:T=(p1,p2,pn)其中,pi为航迹点。每一个航迹点pi可用一个三维特征向量进行表示:pi=(timei,lngi,lati)其中,timei、lngi和lati分别表示航迹点pi的系统时间、经度和纬度。如图 2 所示,假设存在两条航线,分别为定义为TP=(t1,x1,y1),(t2,x2,y2),(tm,xm,ym)和TQ=(t1,x1,y1),(t2,x2,y2),(tn,xn,yn),长度分别为 m 和 n,航迹中的每一个航迹点用三元组表示,该算法的思想是使用迭代的方法求出任意两条航迹的匹配路径,使得结
12、构化距离最小,可表示为:DTW(TP,TQ)=|m=0|n=0dist(TP1,TQ1)+min DTW(rest(TP),rest(TQ),DTW(rest(TP),TQ),DTW(TP,rest(TQ)m 0|n 0其 中:dist(TP1,TQ1)=(xTP1-xTQ1)2+(yTP1-yTQ1)2,rest(TP)表 示 除 第 一 个 点 之 后 的TP=(t2,x2,y2),(tm,xm,ym)。pTrajqTraj1pT2pT3pT4pT1qT2qT3qT4qT5qT6qT1l2l3l4l5l图2 子航迹段匹配2)航迹聚类方法由于基于K-Means航迹聚类模型是对历史所有航迹进行
13、聚类分析,将被预测航迹T进行分类时是根据相似性度量来确定的,很难出现完全相似的Tclai,所以对于被预测航迹T的分类是概率性分类,为了减小概率性对聚类结果的影响,首先,分别计算被预测航迹T与航迹聚类模型所得出的所有航迹类Tclai(i=1,2,k)的相似性度量DTW(T,Tclai)(i=1,2,k),设定阈值参数,表示当航迹T与Tclai的相似性度量大于时,认为T不属于Tclai类,Tclai类轨迹对T影响很小,可以忽略,反之则影响较大,最后得出对目标航迹T影响较大的航迹类的集合Tsimm。14人工智能本栏目责任编辑:唐一东Computer Knowledge and Technology电
14、脑知识与技术第19卷第1期(2023年1月)第19卷第1期(2023年1月)Tsimm=Tsimj|Tsimj=TclaiDTW(T,Tclai)DTW(T,Tclai),(i=1,2,k)Psimji为Tsimm航迹类中的第 i 个位置点,遍历Tsimm中每个航迹类,根据欧氏距离寻找每个航迹类与被预测航迹的末端位置点pn的最近位置点Psimjimin,此时pn和Psimjimin之间欧式距离为d(Pn,Psimjimin):d(Pn,Psimjimin)=Mini=1n(Pn-Psimji)2(j=1,2,m)其中Psimji表示有n个位置点组成的Tsimj航迹类中第i个位置点。令pn到Ts
15、imm中每个航迹类的最近位置的下一时刻位置方向的向量为?(Pn,Psimj),我们可以得到m条这样的向量,为每条向量赋予权值,被预测航迹 T 与Tsimj的相似性度量越小,T被分为Tsimj类的概率越大,相应权值越大,向量?(Pn,Psimj)赋予权值Nj为:Nj=i=1mDTW(T,Tsimi)-DTW(T,Tsimj)i=1mDTW(T,Tsimi)将m条向量进行矢量合成,最终得到聚类预测结果向量?NK-Means,以上过程如图3所示。图3 航迹预测模型过程其中n=4、m=2。给定包含有限个航迹点的被预测航迹T,可以将其表示为由一组离散轨迹点。4.2 基于SVR的航迹预测方法AIS航迹数据
16、是标准的时间序列数据,对于时间序列的SVM回归预测需要考虑在组建训练样本与预测样本时,必须保证数据的时间连续性26,其次还应该保障训练样本包含数据的所有组合模式,基于这两点 要 求,将 需 要 预 测 的 航 迹 数 据Ti=(t1,x1,y1),(t2,x2,y2),(tn,xn,yn)拆分成矩阵X,Y。将航迹Ti的n个航迹点数据按如下形式变换得到X,Y:X=|(t1,x1,y1)(t2,x2,y2)(tn-m,xn-m,yn-m)(t2,x2,y2)(t3,x3,y3)(tn-m+1,xn-m+1,yn-m+1)(tn,xn,yn)(tn+1,xn+1,yn+1)(tn-1,xn-1,yn
17、-1)Y=(tn+1,xn+1,yn+1)(tn+2,xn+2,yn+2)(tn,xn,yn)其中,X为训练样本,Y为训练样本的预测目标值,X中的每一列数据都与Y中的一个数据相互对应,训练样本矩阵X的维度是m (n-m),将X和Y分别代入公式中,设置风险系数C,不敏感因子,松弛变量,*和核函数K的类型,通过求解二次规划问题,得到预测模型f(x)=i=1m(i-)(x,xi)+b。其中x是训练样本矩阵中的列向量,xi是测试样本矩阵中的列向量。4.3 聚类-SVR的航迹综合预测采用基于向量夹角余弦固定权值组合预测的思想9,将聚类分析结果?NK-Means与回归预测结果?NSVR进行组合,设f?n为
18、被预测航迹在第n个位置点处的组合预测值。f?n=l1?NK-Means+l2?NSVR其中,l1为聚类分析算法的加权系数,l2为聚类分析算法的加权系数,l1和l2都是在区间0,1中的固定值。使用上述相同的方法,分别计算出被预测航迹T的前n-1个航迹点的聚类分析向量?NK-Meansp(p=1,2,n-1)和 回 归 预 测 分 析 向 量?NSVRp(p=1,2,n-1),为使预测准确,每一个航迹点的预测向量f?t(t=1,2,n-1)与真实值ft(t=1,2,n-1)的向量夹角最小,也就是最大化向量夹角的余弦值,综上所述建立l1和l2的方程:n-1=t=1n-1cos(l1?NK-Means
19、+l2?NSVR)ft+1)通过上式计算得出聚类分析和回归预测分析的加权系数l1和l2,根据上公式求得聚类-SVR航迹预测模型的最终预测结果f?n。5 预测精度分析与模型评估对于回归问题通常使用均方差作为评价指标,对于分类问题可使用精度、查准率(P),查全率(R),F1指标等作为评价指标。对于航迹预测,采用基于聚类-SVR的半监督学习,应当采用均方差作为评价指标。选取中国南海某海区的AIS数据集,使用训练-测试数据集划分,对比传统的线性回归模型、SVR模型和本文使用的聚类-SVR模型,在长航期、短航期和近海区三种不同航行条件下,应用三种学习方法得到误差率。其中,航迹预测的均方差e为:e=1ni
20、=1n(f(xi)-yi)2进一步计算误差率ER为:er=e/y(下转第23页)15人工智能本栏目责任编辑:唐一东Computer Knowledge and Technology电脑知识与技术第19卷第1期(2023年1月)第19卷第1期(2023年1月)见图5(b),只剩下一个唯一的瞄框,助益于疲劳判断与清晰的可视化。4 结束语本文围绕学生课堂疲劳状态设计并实现了一个监测与预警系统,主要应用了 YOLOv5 目标监测及dlib人脸面部检测框架,并引入Perclos指标进行疲劳状态判断,为了适应课堂检测,本文额外标注了1000张人脸面部瞄框数据,并引入非极大抑制NMS来提升系统性能。实验结果
21、表明,本系统实现了课堂疲劳状态监测与预警的相关功能。参考文献:1 张佐营,叶桂荀.驾驶疲劳监测技术研究综述J.汽车科技,2022(1):8-14.2 卢才武,丁宇,江松,等.融合心电特征提取的矿工疲劳状态识别研究J/OL.安全与环境学报.2022-11-10.https:/ 许小鹏.基于机器视觉的驾驶员疲劳检测方法研究D.镇江:江苏科技大学,2021.4 张博熠,者甜甜,赵新旭,等.基于眼嘴状态判别网络的疲劳驾驶检测J/OL.计算机工程.2022-08-30.https:/ Du G L,Zhang L L,Su K,et al.A multimodal fusion fatigue driv
22、ing detection method based on heart rate and PERCLOSJ.IEEE Transactions on Intelligent Transportation Systems,2022,23(11):21810-21820.6 Chang R C H,Wang C Y,Chen W T,et al.Drowsiness detectionsystem based on PERCLOS and facial physiological signalJ.Sensors(Basel,Switzerland),2022,22(14):5380.7 余永辉.基
23、于疫情下的高校网课教学实践探索与思考J.内江科技,2021,42(10):157-158.8 张秀再,邱野,张晨.改进YOLOv5s算法的地铁场景行人目标检测J/OL.激光与光电子学进展.2022-07-30.http:/ 邱天衡,王玲,王鹏,等.基于改进YOLOv5的目标检测算法研究J.计算机工程与应用,2022,58(13):63-73.10 李运遥.基于多源面部行为融合的驾驶疲劳检测方法研究与应用D.南京:南京财经大学,2020.【通联编辑:谢媛媛】(上接第15页)得到三种航行条件数据下短时间内航迹点的模型预测误差率如表2所示。表2 模型性能比较航行条件长航期短航期近海区平 均线性模型0
24、.0850.1630.2520.167SVR模型0.0680.1450.2090.141聚类-SVR模型0.0720.0950.1840.117可以发现:1)聚类-SVR学习方法在三种航行条件下具有平均最好的预测精度;2)聚类-SVR学习方法在近海区的预测精度最低,主要可能与近海区海洋环境复杂,船舶航迹规律性偏低有关;3)聚类-SVR学习方法在长航期下与SVR模型精度相当偏弱,由于长航期线性规律比较强,而本模型考虑聚类分类偏离,导致精度有一定降低。6 结束语为有效利用航迹历史数据,提高海区船舶航迹预测精度,研究设计了一种基于AIS数据的聚类-SVR半监督学习方法,该方法在运用历史AIS数据进行
25、聚类基础上,形成航行方向分类,再根据某单条航迹数据,进行SVR预测,并将预测结果按照聚类分类情况进行概率偏离优化,从而得到航迹预测点。该方法有效利用了海区历史AIS数据和当前单船舶历史航迹AIS数据,在长航期、短航期和近海区三种情况具有更好的预测精度。参考文献:1 李宾郎,段建丽,柴昱含.基于AIS的船舶航迹数据应用研究J.长江信息通信,2021,34(12):30-33.2 韩佳彤,李鹏宇.AIS数据的深入挖掘及拓展应用J.珠江水运,2021(18):39-40.3 陆思辰,陈卓然.利用AIS数据挖掘生成船舶航迹点方法研究J.舰船科学技术,2021,43(8):46-48.4 林毅.一种基于
26、SVR回归的机场航迹预测方法J.信息通信,2019,32(7):58-59.5 吴志建,方胜良,吴付祥.雷达对目标探测航迹质量建模与仿真J.系统仿真学报,2014,26(1):186-190.6 乔少杰,韩楠,朱新文,等.基于卡尔曼滤波的动态轨迹预测算法J.电子学报,2018,46(2):418-423.7 李永,成梦雅.LSTM船舶航迹预测模型J.计算机技术与发展,2021,31(9):149-154.8 肖潇,邵哲平,潘家财,等.基于AIS信息的船舶轨迹聚类模型及应用J.中国航海,2015,38(2):82-86.9 王英林,葛文,何文峰,等.基于向量夹角余弦及IOWGA算子的组合预测方法及应用J.勘察科学技术,2017(5):55-59.【通联编辑:唐一东】23