收藏 分销(赏)

基于改进YOLOv5的课堂人脸表情检测.pdf

上传人:自信****多点 文档编号:4103083 上传时间:2024-07-30 格式:PDF 页数:7 大小:1.92MB
下载 相关 举报
基于改进YOLOv5的课堂人脸表情检测.pdf_第1页
第1页 / 共7页
基于改进YOLOv5的课堂人脸表情检测.pdf_第2页
第2页 / 共7页
基于改进YOLOv5的课堂人脸表情检测.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 收稿日期:2023-11-28基金项目:本文系北京市自然基金项目-北京市教委科技计划重点项目(KZ202010015021)、北京市高教学会教改(22150223021)研究成果。通信作者:王佳第 32 卷 第 3 期Vol.32 No.3北 京 印 刷 学 院 学 报Journal of Beijing Institute of Graphic Communication2024 年 3 月Mar.2024基于改进 YOLOv5 的课堂人脸表情检测马 森,王 佳,李 旸,曹少中(北京印刷学院 信息工程学院,北京 102600)摘 要:针对课堂场景下,学生的面部表情“多目标”“小目标”的检测

2、效果较差,出现误检、漏检等现象,本文提出一种改进 YOLOv5 的课堂人脸表情检测算法 YOLOv5-SWIN。首先,使用 Swin Transformer 作为模型的主干特征提取网络,增强全局信息感知,进一步增强目标的语义信息;其次,引入 CBAM 注意力机制融合到特征提取网络中,以便更好地提高检测精度;最后,使用 NWD 损失函数,使得模型有效地降低对“小目标”检测的敏感性,进而提升模型的鲁棒性。在自主搭建的大规模课堂场景下利用学生人脸表情数据集进行实验,实验结果表明该方法能够快速、准确地识别学生的面部表情,改进后的模型在自建数据集上准确率提升 4%,达到 82.1%。关键词:人脸表情;Y

3、OLOv5;NWD;Swin Transformer中图分类号:TP3文献标识码:A文章编号:1004-8626(2024)03-0038-07 近些年来,随着互联网技术、大数据、云技术和AI(人工智能)等新兴技术的发展,基于深度学习的 AI 算法愈发成熟,人脸表情识别也成为当前深度学习领域的研究热点。人脸表情是人类表达内心情感最普遍的信号之一,11868 年,世界著名心理学家 A.Mehrabian 研究发现,人类在进行情感表达时,主要由三部分组成。2其中语言占比只有7%,声音占比38%,人脸表情有着高达55%的表达情感占比,可见人脸表情对于人们日常交流中的情感传递有着非常重要的作用。美国心

4、理学家 Ek-man 经研究将人类的情感归类,有愤怒、高兴、惊讶、悲伤、厌恶、恐惧 6 类,每种表情都可以反映出其内在的心理活动,通过面部表情可以准确识别人的心理情绪。3目前来说,学校课堂教学方式还是多以班级为单位,由于存在学生的个体差异,每个学生的学习状态都不相同,这样老师就不能及时了解到每个学生的课堂学习状态,更无法照顾得到所有学生的学习情况,学生听课流露的表情能够有效反映出学生的听课效果,是非常重要的评价标准。4借助基于深度学习的目标检测算法,通过检测学习者的面部表情获取听课状态,用以提高教学质量已经成为一种必然趋势。5目前目标检测领域的研究方向以传统的目标检测算法和如今主流的基于深度学

5、习的目标检测算法这两类为主。前者存在精度不高,处理速度慢的弊端,在处理复杂场景和小目标时,往往存在较高的误检和漏检率。这主要是由于传统算法使用的特征提取方法对目标的表达能力有限,难以准确地捕捉目标的细节和上下文信息。随着 2012 年AlexNet 的提出,卷积神经网络(CNN)作为热点出现在大家视野中,应用到目标检测方向带来了历史性的突破。6-7以 CNN 为基础可以更好地提取特征,算法的鲁棒性好,检测网络收敛的速度更快,同时算法模型的泛化能力也更强。基于深度学习的目标检测算法主要分为两大类,一类是以由 Gir-shick 等先后提出了以 R-CNN、Fast R-CNN、Faster R-

6、CNN 等为代表的两阶段目标检测算法,8-10R-CNN 使用 Selective Search 算法从输入图像中生成多个候选框,即为可能包含目标物体的区域,对于每个候选框,R-CNN 将其区域从原始图像中提取出来,并通过卷积神经网络提取特征,提取的特征被输入 SVM 分类器中,以确定该候选框内是否包含目标物体,并将其分为目标类别的概率,同时,R-CNN 还进行边界框回归,通过对候选框进行微调,以更准确地框出目标物体的位置,最后进行NMS 操作,即非极大值抑制,得到最终的结果。R-CNN 提高了目标的检测准确率,检测精度高,但是特征提取过程花费时间太长、数据量大的问题导致算法效率较低。于是,R

7、edmon 等提出了 YOLO(You Only Look Once)目标检测算法,11作为单阶段的代表,其原理不需要生成候选框,而是直接对目标进行分类和回归操作,随后基于 YOLO 改进的YOLOv3、YOLOv4、YOLOv5 对模型进行了优化,从而提 高 了 目 标 检 测 算 法 的 检 测 速 度 和 检 测精度。12-13在 YOLO 系列算法发展的同时 Transformer 模型也经历了不断的迭代,14Transformer 是一种基于自注意力机制的编、解码器,是自然语言处理领域的主流模型。2020 年 Dosovitskiy 等人提出的ViT 使 Transformer 进入

8、了计算机视觉领域,15应用于图像分类、识别等任务中,相比 CNN,Trans-former 有着上下文感知能力,Transformer 中的自注意力机制能够将每个位置的表示与其他位置进行关联,可以获得全局特征。随后 Liu 等人提出了Swin Transformer 模型,16通过滑动窗口机制可以有效地降低模型的计算量和更好地实现窗口间交互信息,以便获得全局的语义信息。为了解决课堂场景下,“多目标”“小目标”的学生人脸表情识别准确率较低,教室摄像头的位置摆放带来的学生面部不全面、遮挡导致的误检、漏检等问题,本文提出一种基于改进 YOLOv5-s 的课堂人脸表情检测方法,以提高学生人脸表情的检测

9、精度。1 相关理论YOLOv5 目标检测算法主要由输入端、骨干网络、特征融合以及输出端四部分组成,按照模型的权重、参数量的不同,发布了大小为 s、m、l、x 的 4个版本,本文采用最小的 YOLOv5-s 版本进行改进。输入端主要对图像数据进行预处理操作,如Mosaic 数据增强技术,通过随机选择四张图片进行拼接,可以增加数据的多样性,有助于提高模型的目标检测效果,可以在不增加显存的情况下提高batch 大小,从而更好地利用 GPU 的计算资源,还可以对不同图像进行混合,使模型更好地泛化到新场景和数据分布上,提高模型的性能。YOLOv5-s 以 CSPDarknet 为主干网络,用于提取特征,

10、主要由 Focus、CSP 和 SPP 模块三个部分构成。其中,Focus 模块作为骨干网络的一部分,用于处理输入图像。它通过使用类似于空洞卷积(dilated convolution)的方式,将输入特征图进行下采样。这种下采样方式使得模型能够同时感知到局部细节和全局信息,从而提高了目标检测的准确性。接下来由 CSP 和 SPP 模块负责增加网络的深度,以 实 现 更 强 大 的 特 征 提 取 能 力。相 较 于YOLOv4 的 Darknet 减少了模型的大小及计算量,提升了模型的检测精度。特征融合模块继续沿用了 YOLOv4 的多尺度特征融合方式,通过自顶向下和自底向上的方式语义信息和路

11、径聚合结构来传递定位信息,提高了特征层之间的交互性,对提取到的有效特征层信息进行交互融合,从而进一步提高模型的检测性能。输出端中的损失包括分类和回归两部分,YOLOv5 模型的损失函数为 CIOU Loss,在目标检测后的处理过程中,使用 NMS 筛选预测框,提高识别目标的准确率。2 改进的 YOLOv5-s 算法原始的 YOLOv5-s 算法网络在课堂场景下,学生相对位置很集中,学生的人脸表情比较密集且目标比较小,容易出现误检和漏检等情况。为了进一步提高 YOLOv5-s 算法在课堂学生表情检测中的性能,本文引入基于滑窗操作的多头自注意力机制。Swin Transformer 模块作为主干特

12、征提取网络,替换原始的 CSPDarknet,这样可以使模型学习到更多全局特征信息以及局部特征信息之间的联系。改进后的模型结构如图 1 所示。图 1 改进的 YOLOv5-Swin 算法结构93第 3 期马 森,王 佳,李 旸,等:基于改进 YOLOv5 的课堂人脸表情检测2.1 主干网络改进针对数据集中“多目标”“小目标”容易导致学习不充分的问题,本文将 Swin Transformer 模块集成到 YOLOv5-s 算法中作为 backbone,Swin Trans-former 的网络结构如图 2 所示,其工作原理为将输入尺寸为 HW3 的图像送入 patch partition 层,将

13、图像的每 44 的像素打包成一个 patch,并沿着通道方向进行拉伸,图像的维度变为 H/4W/448,然后通过 linear embeding 层对图像每个像素的通道做线性变换,图像的维度变为 H/4W/4C,送入多个组合的 Swin Transformer Block 中,每个组合的 Swin Transformer Block 通过 patch embeding 层进行图像的下采样,将 22 的相邻像素合并为一个 patch 做 concat 处理,使特征图的尺寸减小一半,最后再通过一个 layer normalization 层进行归一化。图 2 Swin Transformer 网络

14、结构Swin Transformer Block 包含两个子模块,分别引入了基于窗口的多头自注意力机制 W-MSA 和具有窗口间信息交互的滑动窗口自注意力机制SW-MSA。另外每个子模块中还有两个归一化(LN)层和一个 MLP 层,模块之间通过残差连接。其结构如图 3 所示。基于窗口的多头自注意力机制的计算过程如下:Attention(Q,K,V)=softmaxQKTdk+B()V(1)其中,Attention 表示注意力,Q,K,V 分别为查询、键和值的向量,d 为特征图的通道数,B 代表像素间的相对位置偏差,引入 B 可以保持各个像素间的位置信息,使得结构能够更好地提取特征。同时,基于窗

15、口的方式进行局部计算,大大降低了模型的计算量。而 SW-MSA 模块通过滑动窗口还可以实现不同窗口间的信息交互,以便获取到全局特征。图 3 Swin Transformer Block2.2 CBAM 注意力机制由于模型训练过程中,特征图的宽高比、通道数会在不同阶段缩放,这样会使特征图中产生一些冗余特征,较多的冗余特征会影响模型训练的准确率,而且还会增加网络的计算量,浪费机器计算资源。所以,为了在神经网络中更好地提取目标图像的特征,注意力机制是可以作为一种提高神经网络特征表达能力的机制,通俗来说就是用来告诉神经网络需要格外关注的特征信息。本节中所使用的是 CBAM(Convolutional

16、Block Attention Module)注意力机制,它融合了通道和空间的注意力两个模型,实现了通道注意力与空间注意力的双机制,所增加的计算消耗也可以忽略不计,有助于提高模型训练中提取特征的能力。其网络结构如图 4 所示。图 4 CBAM 网络结构通道注意力模型 CAM,如图 5 所示,对上层得04北 京 印 刷 学 院 学 报2024 年到的输入特征信息按照宽、高的平均最大池化和平均最大池化,然后传输到共享 MLP 中,通过组合各个通道获取通道注意力的权重,然后再进行归一化处理,获得通道注意力的特征图。数学表达式如下:Mc(F)=(MLP(AvgPool(F)+MLP(MaxPool(F

17、)=W1W0Fcavg()()+W1W0(Fcmax)()()(2)图 5 CAM 注意力模块 空间注意力 SAM,如图 6 所示,将上述 CAM得到的特征图作为输入先进行最大池化和平均池化,得到两个大小为 HW1 的特征图,然后按通道进行拼接,再经过一个 77 的卷积操作降维到HW1,最后利用 sigmoid 激活函数归一化得到空间注意力的特征图。其数学公式如下:Ms(F)=f77(AvgPool(F);MaxPool(F)()=f77Fsavg;Fsmax()()(3)图 6 SAM 注意力模块2.3 损失函数的改进基于 IoU 来度量小目标的位置偏差非常敏感,会导致很多预测框的 IoU

18、低于预先定义的阈值,出现漏检、误检等现象,并且在用于基于锚框的检测器中时会大大降低检测性能。为了缓解这一现象,文献18提出了一种使用 Wasserstein 距离进行微小物体检测的新评估指标。该距离计算公式如下:NWD(Na,Nb)=exp-W22Na,Nb()C()(4)其中,C 为常数,Na、Nb分别为边界框 A=(cxa,cya,wa,ha)和 B=(cxb,cyb,wb,hb)建立的高斯分布,经过计算得到距离度量 W22(Na,Nb),具体计算方法如公式(5)所示:W22=cxa,cya,wa2,ha2T,cxb,cyb,wb2,hb2T()22(5)与 IoU 相比,NWD 对于检测

19、小目标的尺度不敏感,同样能够测量出两个边界框重叠程度较小或者非重叠边界框之间的相似度。因此,结合课堂场景下,学生表情“多目标”“小目标”的情况,使用NWDLoss 检测性能可以出现明显提升。3 实验3.1 实验环境本文实验在 Windows11 系统下,CPU 为 Intel Xeon Silver4210,主频2.2GHz,内存为32G,GPU 为NVIDIA GeForce RTX 3090,显存大小 24GB,Py-thon3.8,CUDA 版本为 11.3,使用 Pytorch1.8.1 深度学习框架进行训练。本文使用了原始 YOLOv5 算法在 coco 数据集上获得的预训练模型 Y

20、OLOv5-s 权重,用于初始化主干网络部分的权重,来加快算法模型的训练速度。为了保证实验数据的可靠性,本实验总共训练200 个 epoch,前 50 个 epoch 为冻结训练,后 150 个为解冻训练,训练参数设置如下:图像尺寸调整为640640;batch _size 大小设置为 4,学习率为1e-2,预测框的置信度阈值设置为 0.01,IoU_NMS阈值设置为 0.3。经上述实验配置所得到的实验数据如图 7、图 8 所示。3.2 数据集介绍本文实验采用自建的数据集以及公开的目标14第 3 期马 森,王 佳,李 旸,等:基于改进 YOLOv5 的课堂人脸表情检测图 7 Loss 曲线图图

21、 8 实验结果 mAP检测数据集 VOC2007 进行算法模型的训练。自建数据集为某学校智慧课堂在课程中的录像,大约四十名学生的课堂,通过视频拆帧截取一共 112233张图像,大小约为 12.7G。并使用 lebalimg 为截取到的图像中的人脸表情进行标注,生成标签的 xml文件,所以还需要对数据进行预处理,将标签转化为 VOC 格式的文件,进行模型网络训练。人脸表情数据集的标签主要分为四类 happy、disgust、con-fused、other 等,数据集按 9 1 的比例划分训练集和测试集。3.3 评价指标为了评估改进的 YOLOv5-SWIN 算法对课堂人脸表情识别的检测效果,本文

22、使用了精确率(Precision)表示所有预测为正样本的结果中,预测正确的比率、召回率(Recall)表示所有正样本中被正确预测的比率、平均精确率(AP)为某一种类别的平均精确度、mAP 则是所有类别的 AP 值的平均值作为评价指标。计算公式如下:Precision=TPTP+FP(6)Recall=TPTP+FN(7)AP=1nni=1Pi(8)mAP=APN(9)3.4 实验结果为了验证本文提出的 YOLOv5-SWIN 算法的有效性,本文对比了 YOLOv3、YOLOv4、YOLOv5、YOLOv8、YOLOX-s 这几个模型,分别在自建课堂表情图像数据集上进行实验,其对比实验的结果的准

23、确率如表 1 所示。表 1 对比实验结果算法模型mAP 0.5/%YOLOv335.2YOLOv456.1YOLOv5-s78.1YOLOX-s72.4YOLOv8-s66.0YOLOv5-SWIN82.1从表 1 中可以看出,在自建数据集上,本文提出的模型的检测精度最高,mAP 值达到 82.1%,相较于同位 YOLO 系列的算法 YOLOv3、YOLOv4、YOLOv5-s、YOLOv8-s 分别提升了 46.9、26、4 和16.1 个百分点,与旷视科技提出的 YOLOX-s 相比提升 9.7 个百分点。以上数据表明本文所提出的模型对于人脸表情检测性能更好,可以应用于现实中课堂场景下检测

24、学生表情,反映听课状态。该模型用于线下课堂场景中的效果如图 9 所示。图 9 模拟线下课堂场景检测为了验证各个功能模块的有效性,在自建的数据集上进行了消融实验。消融实验结果如表 224北 京 印 刷 学 院 学 报2024 年所示。表 2 消融实验结果算法模型PRmAP0.5/%mAP0.50.95/%YOLOv575.874.278.164YOLOv5+Swin Transformer78.575.981.565YOLOv5+CBAM77.576.680.165.1YOLOv5+NWD78.976.881.161.6YOLOv5+Swin Transformer+CBAM 78.676.28

25、1.165.3YOLOv5+Swin Transformer+NWD76.978.281.965.2YOLOv5+CBAM+NWD77.676.981.165.3YOLOv5+Swin Transformer+CBAM+NWD78.178.282.165.2如表 2 所示,主干特征提取网络使用 Swin Transformer 替换后,增强了网络的提取特征的能力,精度有明显提升,精确度提升了 2.3 个百分点,mAP 值提升了 2 个百分点;当在主干网络后面加入 CBAM 注意力机制后,使模型可以更好地特征融合,网络性能提升了 2 个百分点左右;增加 NWD损失函数之后,模型对于“小目标”特征

26、的检测能力增强了,原模型在自建数据集的性能指标都有涨点。综合所有对模型的改进,相比于原模型,准确率、召回率、mAP 值分别提升了 1.9、4、3 个百分点。综上所述,本文改进的算法优于原 YOLOv5-s算法。4 结语针对课堂人脸表情识别这种“多目标”“小目标”识别准确度很低,并且出现误检、漏检等现象的问题,本文提出了一个更加完善的 YOLOv5-SWIN 算法模型。采用 Swin transformer 结构来代替 CSPDarknet 结构作为主干特征提取网络,能够有效地加强特征提取能力,获得全局的特征信息;加入 CBAM 注意力机制对特征融合结构进行改进,提高了算法模型的性能;使用 NW

27、D 损失函数提升模型对小目标的检测性能。在自建学生表情数据集上进行实验,结果表明,本文提出的改进后的算法检测精度 mAP 可达 82.1%,在一定程度上提升了人脸表情检测的效果。参考文献:1 Ruan D,Yan Y,Lai S,et al.Feature decomposition and recon-struction learning for effective facial expression recognitionJ.2021:7660-7669.2Mehrabiana.Communication without wordsJ.Psychology to-day,1968(4):5

28、3-56.3Ekman P,Friesen W V.Constants across cultures in the face and emotionJ.Journal of Personality and Social Psychology,1971,17:124-129.4 王信,汪友生.基于深度学习与传统机器学习的人脸表情识别综述J.应用科技,2018(1):65-72.5毕洪波,洪庆成,谢春丽,等.基于深度学习的课堂表情识别研究J.中国信息技术教育,2022(5):91-95.6Krizhevsky A,Sutskever I,Hinton G E.2012 AlexNetJ.Adv.

29、Neural Inf.Process.Syst,2012:1-9.7Fukushima K.Neocognitron:A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in positionJ.Biological Cybernetics,1980(4):193-202.8Girshick R,Donahue J,Darrell T,et al.Rich feature hierar-chies for accurate object detecti

30、on and semantic segmentationCProceedings of the IEEE conference on computer vision and pattern recognition.2014:580-587.9 Girshick R.Fast R-CNNCProceedings of the IEEE interna-tional conference on computer vision.2015:1440-1448.10 Ren S,He K,Girshick R,et al.Faster R-CNN:Towards real-time object det

31、ection with region proposal networksCAd-vances in neural information processing systems,2015:91-99.11 Redmon J,Divvala S,Girshick R,et al.You only look once:u-nified,real-time object detection C IEEE Conference on Computer Vision and Pattern Recognition,2015:779-788.12 Redmon J,Farhadi A.YOLOv3:An i

32、ncremental improvementJ.arXiv preprint arXiv:1804.02767,2018.13 Bochkovskiy A,Wang C Y,Liao H.YOLOv4:Optimal Speed and Accuracy of Object DetectionJ.arXiv preprint arXiv:2004.10934,2020.14 Vaswani A,Shazeer N,Parmar N,et al.Attention is all you needJ.Advances in Neural Infomation Processing Systems,

33、2017,30:5998-6008.15 Dosovitskiy A,Beyer L,Kolesnikov A,et al.An image is worth 16 x16 words:transformers for image recognition at scaleEB/OL.(2021-06-03)2022-10-14.https:/arxiv.org/pdf/2010.11929.pdf.16 Liu Z,Lin Y T,Cao Y,et al.Swin Transformer:hierarchical vi-sion transformer using shifted window

34、sCProceedings of 2021 IEEE/CVF International Conference on Computer Vision(IC-CV),Montreal,Oct 10-17,2021.New York:IEEE,2021:9992-10002.17 Woo S,Park J,Lee J Y,et al.Cbam:Convolutional block at-tention moduleCProceedings of the European conference on computer vision(ECCV),2018.18 Wang J,Xu C,Yang W,

35、et al.A normalized Gaussian Wasser-stein distance for tiny object detectionJ.arXiv preprint arXiv:2110.13389,2021.34第 3 期马 森,王 佳,李 旸,等:基于改进 YOLOv5 的课堂人脸表情检测Classroom Face Expression Detection Based on Improved YOLOv5MA Sen,WANG Jia,LI Yang,CAO Shaozhong(School of Information and Engineering,Beijing

36、Institute of Graphic Communication,Beijing 102600,China)Abstract:For the classroom scenario,the detection effect of students facial expression“multi-target”and“small target”is poor,and the phenomenon of misdetection and omission occurs.In this paper,we propose YOLOv5-SWIN,a classroom facial expressi

37、on detection algorithm that improves YOLOv5.Firstly,we use the Swin Transformer as the backbone feature extraction network of the model to enhance the global information perception and further enhance the semantic information of the target.Secondly,we introduce the CBAM attention mechanism to be int

38、egrated into the feature extraction network in order to better improve the detection accuracy.Finally,by using the NWD loss function,the model effectively reduces the sensitivity to the detection of“small targets”,thus improving the robustness of the model.Experiments are conducted on a large-scale

39、dataset of students facial expressions in a self-constructed classroom scenario,and the experimental results show that the method can quickly and accurately recognize students facial expressions,and the accuracy of the improved model on the self-constructed dataset is increased by 4%,reaching 82.1%.

40、Key words:facial expressions;YOLOv5;NWD;Swin Transformer(责任编辑:周宇)(上接第 31 页)Research on Printing Defect Detection of Flexible Packaging Based on Improved Faster-RCNN AlgorithmMaxim,GUO Rong(Intelligent Manufacturing Laboratory,Beijing Institute of Graphic Communication,Beijing 102600,China)Abstract:T

41、his paper proposes an improved Faster-RCNN algorithm for defect detection,and the original VGG16 network is replaced by a residual network(ResNet-50)with smaller computation and deeper network depth for the characteristics of missing prints in flexible packaging,which can extract rich features.In or

42、der to make the convolutional neural network adaptive attention,the CBAM self-attention mechanism module was added to the residual network of ResNet-50.For datasets,the collected images are enhanced by rotation,translation,brightness adjustment,noise addition,cutout,and other operations to avoid unb

43、alanced data samples and improve the robustness of the model.The results show that the precision of improved Faster-RCNN model is 12%higher than the unimproved Faster-RCNN model,and the mAP reaches 92.95%.Prove the effectiveness of the improved model,save a lot of labor costs,and improve the production efficiency of the enterprise.Key words:Faster-RCNN;leakage;target detection(责任编辑:周宇)44北 京 印 刷 学 院 学 报2024 年

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服