基于目标检测和迁移时间序列的教室人员检测.pdf

资源描述

1、近年来,随着国家对教育进行智能重构的不断重视1,人工智能在教育中拥有着巨大的研究空间和发展潜力,其中,教室的使用和分配问题影响着教育场地资源规划和建设等诸多方面.利用现有资源得到一个精准量化参考的方法,能够在节约人力物力的情况下合理布局,高效地进行教育建设.教室的使用和分配通常需要对教室内的人员进行目标检测,相比开放场合下的应用场景,教室内人员的目标检测有环境变化小、人员位置固定时间长的优势,但是也存在着人-人、人-物遮挡,不同教室的光照量差异和由于各种物品存在而导致的教室背景复杂多变,干扰较多的问题.同时,由于不同教室和不同学校之间视频捕获设备存在的图像压缩损耗、噪点等问题,数据来源差异性较

2、大,因此很难单独采用基于运动的目标检测方法对教室人员进行识别和统计.为了更好地进行教室人员目标检测,本文在YO L O算法的基础上进行了改进.一般将目标检测过程分为2个阶段:目标分类和目标位置坐标确定.在深度学习流行并拥有硬件支撑之前,常用的目标检测方法有如文献2 使用的方向梯度直方图算法(h i s t o g r a m o f o r i e n t e d g r a d i e n t,HOG)、文献3 使用的可变形组件模型(d e f o r m a b l e p a r t m o d e l,D PM)、文献4 使用的H a a r算法等,其中HOG利用图像的梯度数据反映目标

3、边缘,并通过梯度大小提取图像的特征,此算法中的不同尺度参数、梯度方向等均会对目标检测结果产生较大影响,抗干扰能力欠佳.D PM算法通过使用不同分辨率的滤波器进行特征提取,相比单一HOG效率有所提高,但其参数设计极为复杂且应对抖动、倾斜等稳定性较差.H a a r提出了积分图的概念,并将图像经过积分计算得到的结构划分为不同种类的基本形态进行识别,但由于其对明暗的敏感性,对于非正面人脸的识别效果较差.随着深度学习算法的不断发展,基于深度学习的行人检测算法取得了极大的进展.该类算法主要可以分为有先验框的两阶段方法和没有先验框的单阶段方法.两阶段方法中经典的算法有:文献5 提出的M a s k-R C

4、 NN算法和文献6 使用的F a s t e r R-C NN算法等.单阶段方法中最流行的则是由文献7 所提出的YO-L O算法,其中,单阶段算法由于其效率高、准确率高、便于训练的特点而处于主流地位.为了克服单阶段方法中不同尺度和不同难度样本偏差的问题,文献8 在YO L O算法思想的基础上提出了使用特征金字塔(f e a t u r e p y r a m i d n e t w o r k,F P N)的多尺度特征提取的改良方案.虽然经过多尺度图像特征融合后该算法明显提升了目标识别的准确率,但是其在处理带有时间序列的数据时忽略了流式数据的时间连续性.于是,本文结合现有的图像处理算法,利用对

5、教室视频捕捉设备能够获取到的流式数据进行时间序列的迁移,改进连续识别的算法规则,针对以监控设备为主的边缘端提出了基于目标检测的高性能教室人员目标检测算法.1 所提算法本文提出的算法由生成对抗网络(s u p e r r e s o l u t i o n GAN,S R GAN)、YO L O、NM S和T S M组成,算法的框架图如图1所示.334图1 基于目标检测和T S M的教室人员检测框架F i g.1 D i a g r a m o f c l a s s r o o m p e r s o n n e l d e t e c t i o n a l g o r i t h m b

6、a s e d o n o b j e c t d e t e c t i o n a n d T S M设在i时刻输入具有不同长宽的图像A,经过目标检测后得到人员位置数据.由图1可知算法的流程如下:首先,对输入图像A进行L e t t e r B o x放缩至模型使用的传入图像尺寸,获得相应的放缩图像A .当图像在放缩时长宽比不满足要求时将空出部分进行纯色填充以便于识别适配.其次,使用S R GAN进行图像清晰化处理得到高清图像A 用于进行后续处理.再次,利用改进后的Y O L O模型进行多尺度特征提取和分类回归,得到3种尺度下的检测结果,合并为W.然后,通过NM S方法对数据进行清洗,得到

7、当前源人数Ci.最终,通过T S M方法,使用之前的时间序列参考值得到修正人数C Ri,并将其存储于内存中,供下一帧使用.下面对所提算法的各个部分进行详细介绍.1.1 S R G A N算法由于在进行教室人员目标识别时,所采集的图像往往会受到光照和灯光等因素的印象,尤其是晚上采集的视频分辨率有所下降,因此本文采用文献9 提出的S R GAN算法对视频数据进行超分辨重建.S R GAN通过GAN来从低分辨率的图像(l o w r e s o l u t i o n,L R)生成高分辨率的图像(h i g h r e s o l u t i o n,HR),其总体效果如图2所示.a.模糊图片;b.

8、高清图片;c.S R G AN结果图2 S R G A N超分辨率效果F i g.2 V i s u a l i z a t i o n o f S R G A N434河北大学学报(自然科学版)第4 3卷第4期丛帅等:基于目标检测和迁移时间序列的教室人员检测 GAN由生成器(g e n e r a t o r,G)和判别器(d i s c r i m i n a t o r,D)2个部分组成.本文将训练GAN网络,从而获得一个最优的生成器用以生成高清图像.由于神经网络可抽象为通过输入得到输出的结构,可以将问题转化为得到一个最优的生成函数得以最好地使超分辨率结果接近真实情况,同时训练过程中需要

9、得到一个最优的判别函数以最好地鉴别出生成的图片质量.在G部分,首先使用双三次插值(b i c u b i c i n t e r p o l a t i o n)将低分辨率图像缩放至目标高分辨率大小,得到低分辨率图像IL R.然后,通过将L R输入卷积神经网络GG进行前向传播,经过数个残差网络提取特征,再通过渐进式上采样最终得到的对应HR图像.设G=W1:L;b1:L为L层的神经网络中对应的权重和偏置值,其受超分辨率结果与真实图像偏差所得到的损失函数约束和优化.设图像输入尺寸为1 2 81 2 83.每个残差结构中卷积核大小为77,步长为1,数量为6 4,其中的激活函数使用P R e L U激

10、活函数.同时,为了提高模型的训练效率,本文对于训练中的多幅图像IHRn(n=1,N)进行训练,从而可以获得G,即 G=a r g m i nG1NNn=1lS R(GG(IL Rn,IHRn).(1)在D部分,本文定义了鉴别器神经网络DD用以完成最大最小博弈过程,如式(2).m i nGm a xDIHRpt r a i n(IHR)l o gDD(IHR)+IL RP G(IHR)l o g(1-DD(G G(IL R),(2)其中,pt r a i n为图片数据的分布.神经网络DD为文献1 0 中给出的VG G网络,其卷积核大小为33,使用全连接网络和L e a k y R e L U激活

11、函数得到样本的真实概率.1.2 改进的Y O L O算法基于卷积神经网络的YO L O算法核心原理是将目标检测的问题转化为回归和分类的问题.不同于滑动窗口和区域划分类型的算法和模型,YO L O算法使用整张图进行训练和预测,因此能够通过更大的视野更好地区分整体和局部,从而避免因为背景(如墙、桌椅等)带来的影响,具有非常高的泛化性能.同时,其单阶段特征提取和识别的结构相比R C NN等两阶段算法省去了第一阶段生成预选框的操作,在效率上有大幅度地提升.模型的核心过程为:模型首先将图像切分为SS(不足使用纯色填充)的正方形图像,为每个小正方形预测B个预测框、置信度和C种分类可能性数值,最终得到SS(

12、B*5+C)个张量数据7.YO L O v 5是YO L O系列算法经过多次改进和迭代后的结果,本文在此基础上添加了注意力块,在目标识别上能够较好地确定目标.本文改进后的YO L O模型结构如图3所示.图3 改进Y O L O网络模型F i g.3 M o d e l o f i m p r o v e d Y O L O534 本文算法的骨干网络采用的是F o c u s+B o t t l e n e c k C S P卷积层,降低卷积维数,有效减少了重复的梯度学习,提升了YO L O网络的学习能力和学习效果.同时为了兼顾复杂背景下识别的准确率和效率问题,本文选用的注意力机制为挤压和激发网

13、络1 1(s q u e e z e a n d e x c i t a t i o n n e t w o r k,S E),其结构如图4所示.图4 S E网络结构F i g.4 A r c h i t e c t u r e o f S E由图4可知,S E网络将输入通过1次平均池化后进行全连接,然后经过R e L U函数进行激活后再次使用S i g m o i d函数进行激活.改进的YO L O算法多层次特征提取层部分使用特征金字塔网络8(f e a t u r e p y r a m i d n e t w o r k,F P N),生成特征金字塔,从而获得高级语义特征图,便于小目标检

14、测的同时保证大目标的检测准度;同时使用路径聚合网络1 2(p a t h a g g r e g a t i o n n e t w o r k,P AN)进行定位信息的补偿避免特征和定位的模糊.该算法预测层(h e a d)使用3个检测器,利用基于网格的锚点在不同尺度的特征图上进行目标检测过程,最终获取结果.YO L O模型中的激活函数使用带有负值的线性激活函数以保留部分特征,其公式为=x,x0,0.1x,o t h e r w i s e.(3)本文设置模型传入图像的大小为6 4 06 4 0,步长S为8.利用YO L O算法,能够快速获得目标检测的结果.在模型的训练过程中,本文标记有候选

15、框的位置为正例,没有候选框的位置为负例.由此定义预测中正例被预测为正例为T P,正例被预测为负例为FN,负例被预测为负例为TN,负例被预测为正例为F P.由此可以得到2个指标:精确度(P r e c i s i o n,P)和召回率(R e c a l l,R),其计算公式如式(4)和式(5).P=T PT P+F P,(4)R=T PT P+FN.(5)1.3 T S M算法对教室人员的计数由于其识别类型单一、基于时间而变化的特点和人员变动行为相对于捕获设备缓慢的特点,当因人员进出而出现运动目标时算法的检测人数会围绕真实值上下波动,然而在人员运动开始前和结束后均能得出准确值.由此可见,能够通

16、过一定区间内的时间序列进行合并迁移从而得出精确的目标检测值.本文基于迁移时间序列概念提出一种T S M算法,通过计算一定时间区间内的统计平均值忽略不必要的上下文信息,做到不消耗额外时间,并且能够有效进一步改善遮挡、运动情况下带来的统计精度不高的情况.T S M算法其计算公式最终的递推公式如式(6),赋值公式为在计算出R Ci后的公式(7).i-1k=0Ck+(b-i)Cib,ib,Ci-1+Ci-Ci-b-1b,ib,(6)Ci=R Ci,(7)其中,R Ci为i时刻经过T S M方法计算得出的修正值,Ck(ki)为第k帧经过重新赋值更新(Ck=R Ck)后的预测值,Ci为第i帧通过YO L

17、O进行目标检测识别得到的元数据,b为批处理帧的大小.本算法通过计634河北大学学报(自然科学版)第4 3卷第4期丛帅等:基于目标检测和迁移时间序列的教室人员检测算不断更新修正值,使用滑动窗口使数据平滑过渡,且不使用额外计算时间和额外的追踪数据.1.4 NM S算法采用改进的YO L O算法对采集到的视频流进行逐帧识别检测,由于模型可接受的图像尺寸常常与实际输入图像不同,且传统放缩将会造成图像畸变,本文采用如文献1 3 提出的L e t t e r B o x放缩.计算总体缩放比例r和长宽各自缩放比例的公式如下:r=m i nwn w wwo r i g i nhn e who r i g i

18、n .(8)非极大抑制1 4(n o n m a x i m u m s u p p r e s s i o n,NM S)是常用的过滤无效值的方法,其使用基于交并比(i n-t e r s e c t i o n o v e r u n i o n,I o U)阈值进行判断并去除低于阈值的候选项,I o U公式如式(9),其值为A、B交集的空间大小与A、B并集的空间大小之比.I o U=ABAB.(9)2 实验方法2.1 实验环境本实验在操作系统为W i n d o w s 1 1的工作站上运行,其核心配置为I n t e l C o r e i 7-1 0 7 0 0*1,N v i d

19、i a R T X 2 0 8 0 T i*1以及3 2 G的D D R 4运行内存.深度学习框架为P y t h o n 3.7.8和P y t o r c h 1.7.训练周期设置为7 0,批量训练大小为3 2,超分辨率部分的输出图像大小设置为6 4 06 4 0,目标检测部分设置检测输入大小设置为6 4 06 4 0,测试过程中置信度阈值设置为6 0%,I o U阈值设置为1 0%.2.2 实验数据实验所用的数据来自公开数据集B r a i n w a s h.实验数据来自B r a i n w a s h数据集,拍摄内容为标注完成的咖啡馆中出现的人群.该数据集包含3个部分,训练集共1

20、0 7 6 9张图像8 1 9 7 5个人头;验证集为5 0 0张图像3 3 1 8个人头;测试集共5 0 0张图像5 0 0 7个人头.2.3 评价指标和对比内容为了有效地评估该算法在不同质量数据源中识别的性能,客观评价指标采用5种不同的方法,如交并比(i n t e r s e c t i o n o v e r u n i o n,I o U)、精确度(P r e c i s i o n,P)、召回率(R e c a l l,R)、平均准确率(m e a n A v e r a g e P r e c i-s i o n,mA P)、F 1指标,并通过可视化对比展示结果的差异性.这5种指

21、标中,精确度、召回率、平均准确率和F1指标越高且交并比越低表明头部目标识别的效果越好,识别结果的数量和位置越准确,识别模型越稳定.本文同时对训练时的上述参数进行计算以比较不同模型间的收敛速度和识别性能偏差.其中,mA P的计算公式如式(1 0),F1指标计算公式如式(1 1).mA P=n-1i=1(ri+1-ri)Pi n t e r(ri+1)k,(1 0)F1-S c o r e=2PRP+R,(1 1)其中,Pi n t e r为P-R构成的曲线通过计算每个R值对应的P值.mA P用于计算在不同I o U置信度区间下模型的准确率特性,F1指标由调和级数导出,用于计算模型的稳定程度.两者

22、越大说明算法的性能越好.3 实验结果与分析首先对超分辨率部分进行采样前后清晰度比较测试,图5 a-b为经典的人像识别数据集B r a i nW a s h中选取的人群密集和稀疏时的典型图像.所得超清图像见图5 c-d,吊灯、人物部分能够发现本文的算法能够更清晰地表现图像,更符合人眼特性,进一步提升目标检测输入质量.具体细节举例见图5 e-h.734图5 B r a i n w a s h原始图像和超清处理比较F i g.5 C o m p a r i s o n o f s u p e r r e s o l u t i o n m e t h o d a n d B r a i n w a

23、s h o r i g i n a l i m a g e然后对超清前后图像传入本文的YO L O模型进行比较.图6 a-b为原始密集和稀疏人群图像识别结果,图6 c-d为超清后密集和稀疏人群图像识别结果.图6 B r a i n w a s h原始图像和超清识别结果比较F i g.6 C o m p a r i s o n o f d e t e c t i o n r e s u l t s o f s u p e r r e s o l u t i o n m e t h o d a n d B r a i n w a s h o r i g i n a l i m a g e834河北

24、大学学报(自然科学版)第4 3卷第4期丛帅等:基于目标检测和迁移时间序列的教室人员检测从实验结果中可以发现,融合结果中人员头部位置均定位准确,而在目标置信度上超清处理后的图像普遍高于原始图像.通过训练文献7 提出的YO L O算法、文献1 5 提出的R e t i n a N e t算法、文献1 6 提出的S S D算法,并和本文方法进行比较,原始图像和识别结果依次对应图7 a-e,图片选用B r a i n w a s h数据集中不同于图6中的另一图片.图7 B r a i n w a s h图像和各算法识别的识别效果F i g.7 D e t e c t i o n e f f e c

25、t s o f e a c h m e t h o d a n d B r a i n w a s h o r i g i n a l i m a g e在实验结果中可以发现,各种算法经过相同数据集训练后识别效果类似,能够发现本文的算法在平均置934信度上结果更佳,并且在定位框位置上更精准,克服了置信度偏差较大导致的潜在漏检或错检,对于处于移动状态的人员目标检测也能够取得较高准确率.同样,表1给出了各种目标检测算法的客观评价指标.由表1可知,本算法具有良好的客观评价标准.这也说明本算法不仅能够发掘源图像中潜在的目标细节信息,很好地避免环境光、复杂背景等的干扰,并且对于不同复杂程度和人员的图像识

26、别具有鲁棒性.表1 图7中各个算法效果基于B r a i n w a s h数据集的客观评价指标T a b.1 O b j e c t i v e e v a l u a t i o n i n d e x o f e a c h a l g o r i t h m i n F i g.7 b a s e d o n B r a i n w a s h d a t a s e t目标检测方法P/%R/%F1-S c o r e/%mA P/%ta v g/m sYO L O(YO L O v 5 s)9 5.6 99 6.8 39 6.2 56 9.6 51 3R e t i n a N e

27、t9 6.4 89 4.5 59 5.5 06 4.9 86 0S S D9 4.6 49 6.1 59 5.3 86 3.6 93 2本文方法(无高清)9 6.8 39 7.0 09 6.9 07 0.8 51 4.2本文方法(高清)9 7.0 79 7.5 29 7.2 97 1.0 11 8.9最后在连续的视频数据流应用场景中,为了比较T S M算法对于误差的有效修正,以及相比于文献1 7提出的D e e p-s o r t算法的优越性,本文通过录制教室人员从5人减少到1人时的视频数据,并通过使用不同方法进行修正和不进行修正的结果分析和比较.由表2中实验结果统计数据可见,由于T S M算

28、法不额外增加时间复杂度的特性,相比于基于图像本身内容的D e e p-s o r t算法能够更有效率且准确率相近.因此T S M算法能够在更短时间内得到较为准确的值,在教室环境下是一种比较好的高效修正算法.表2 修正算法的客观评价指标T a b.2 O b j e c t i v e e v a l u a t i o n i n d e x o f e a c h f i x i n g m e t h o d修正方法准确率/%平均置信度/%ta v g/m sN o n e-F i x8 7.4 48 1.9 91 8.9D e e p-s o r t8 8.7 58 4.6 32 3.0

29、本文方法8 8.9 38 4.2 51 9.2综合上述实验可见,本文所述教室人员目标检测方法各部分在实验中都具有最好的综合客观评价标准,所以综合看来本文所提出的目标检测规则是一种较好且值得推广的应用于教室人员识别检测中的方法.4 结语提出了一种基于目标检测和迁移时间序列的教室环境下人员检测方法.该方法有效地利用了超分辨率技术对于图像细节的补充以及单阶段方法对于特征提取和分类回归的高效性.同时,通过加入注意力机制网络增加了原目标检测模型的准确度,又基于教室简单环境和人员行为的特点提出T S M方法,进而弥补了由于人员移动和模糊、重叠导致的识别不准确问题,使得检测能力进一步增强,优于文中单独使用的

30、目标检测和效率相对较低的D e e p-s o r t算法.综合上述实验表明,该方法具有更好的精准性和高效性,在教室环境下进行人员目标检测更优于目前比较流行的目标检测算法.参考文献:1 蔡宝来.教育信息化2.0时代的课堂变革:实质、理念及场景J.海南师范大学学报(社会科学版),2 0 1 9,3 2(4):8 2-8 8.D O I:1 0.1 6 0 6 1/j.c n k i.c n 4 6-1 0 7 6/c.2 0 1 9.0 4.0 1 1.044河北大学学报(自然科学版)第4 3卷第4期丛帅等:基于目标检测和迁移时间序列的教室人员检测2 童莹,沈越泓,魏以民.基于旋转主方向梯

31、度直方图特征的判别稀疏图映射算法J.物理学报,2 0 1 9,6 8(1 9):9 5-1 1 0.D O I:1 0.7 4 9 8/a p s.6 8.2 0 1 9 0 2 2 4.3 洪志恒,陈明,秦玉芳,等.基于可变形部件模型的渔船安全监控系统J.计算机应用与软件,2 0 1 8,3 5(2):1 8 8-1 9 3.D O I:1 0.3 9 6 9/j.i s s n.1 0 0 0-3 8 6 x.2 0 1 8.0 2.0 3 5.4 程耀瑜,丰婧,李树军,等.一种基于H a a r和肤色分割算法的人脸检测J.兵器装备工程学报,2 0 2 1,4 2(1):2 5 4-2 5

32、 8.D O I:1 0.1 1 8 0 9/b q z b g c x b 2 0 2 1.0 1.0 4 6.5 HE K M,G K I O X A R I G,D O L L A R P,e t a l.M a s k R-C NNJ.I E E E T r a n s P a t t e r n A n a l M a c h I n t e l l,2 0 2 0,4 2(2):3 8 6-3 9 7.D O I:1 0.1 1 0 9/T P AM I.2 0 1 8.2 8 4 4 1 7 5.6 薛超,于宏志,王景彬.基于卷积神经网络的级联人脸检测J.中国安防,2 0 1 7

33、(1 1):8 8-9 1.D O I:1 0.3 9 6 9/j.i s s n.1 6 7 3-7 8 7 3.2 0 1 7.1 1.0 2 1.7 R E DMON J,D I VVA L A S,G I R S H I C K R,e t a l.Y o u o n l y l o o k o n c e:u n i f i e d,r e a l-t i m e o b j e c t d e t e c t i o nC/2 0 1 6 I E E E C o n f e r e n c e o n C o m p u t e r V i s i o n a n d P a t

34、t e r n R e c o g n i t i o n(C V P R),2 0 1 6,L a s V e g a s,NV,U S A.I E E E,2 0 1 6:7 7 9-7 8 8.D O I:1 0.1 1 0 9/C V P R.2 0 1 6.9 1.8 L I N T Y,D O L L R P,G I R S H I C K R,e t a l.F e a t u r e p y r a m i d n e t w o r k s f o r o b j e c t d e t e c t i o nC/2 0 1 7 I E E E C o n f e r e n c e o n C o m p u t e r V i s i o n a n d P a t t e r n R e c o g n i t i o n(C V P R),H o n o l u l u,H I,U S A,I E E E,2 0 1 7:9 3 6-9 4 4.D O I:1 0.1 1 0 9/C V P R.2 0 1 7.1 0 6.9 L E D I G C,THE I S L,HU S Z R

展开阅读全文