改进YOLO5Face的小鼠行为实时分析方法研究.pdf

资源描述

1、第 47 卷第 4 期燕山大学学报Vol.47 No.42023 年 7 月Journal of Yanshan UniversityJuly 2023 文章编号:1007-791X(2023)04-0359-11改进 YOLO5Face 的小鼠行为实时分析方法研究胡春海,姜昊,刘斌(燕山大学河北省测试计量技术及仪器重点实验室,河北秦皇岛 066004)收稿日期:2023-02-28 责任编辑:唐学庆基金项目:河北省自然科学基金资助项目(F2019203511)作者简介:胡春海(1966-),男,黑龙江林甸人,博士,教授,博士生导师,主要研究方向为视觉检测、基于图像的行为分析,微纳形

2、变测量,Email:fred-hu 。摘要:传统的动物行为分析方法大部分是采取离线的形式,不能做到实时分析。为了解决此问题,本文提出了一种改进 YOLO5Face 的小鼠行为实时分析方法。本方法分为两个步骤:首先是小鼠关键点实时检测,然后是小鼠行为实时识别。针对小鼠关键点实时检测,在深度学习网络 YOLO5Face 的基础上改进:新增了一个更小的检测头来检测更小尺度的物体;主干网络中加入 YOLOv8 的 C2f 模块,让模型获得了更加丰富的梯度流信息,大大缩短了训练时间,提高了关键点检测精度;引入 GSConv 和 Slim-neck,减轻模型的复杂度同时提升精度。结果表明:模型对鼻尖、左

3、耳、右耳、尾基关键点检测的平均 PCK 指标达到了97.5%,推理速度为79 f/s,精度和实时帧率均高于 DeepLabCut 模型的性能。针对小鼠行为实时识别:利用上述改进的关键点检测模型获得小鼠关键点坐标,再将体态特征与运动特征相结合构造行为识别数据集,使用机器学习方法 SVM 进行行为分类。模型对梳洗、直立、静止、行走四种基本行为的平均识别准确率达到了 91.93%。将关键点检测代码与行为识别代码拼接,整个代码运行的实时帧率可以达到 35 f/s。关键词:小鼠行为识别;关键点检测;实时性;改进 YOLO5Face中图分类号:TP391.41 文献标识码:A DOI:10.3969/j.

4、issn.1007-791X.2023.04.0090 引言动物行为学的发展已经深刻地改变了人类的思维方式,它不仅探索了动物的学习、认知过程,而且还深刻地影响着心理学、教育学等领域1-2。动物的行为不仅仅是一种表达情感的方式,而且更多地反映了它们的内在特征,它们的行为受到基因、环境等多种因素的影响,并且反映出它们的整体性格。通过对动物的行为学研究,我们可以深入了解它们的自然状态,并且可以通过在特殊的环境中观察它们的行为,来探索它们的神经系统、心理机制以及对药物的反应3。实验动物行为分析在神经生理学、行为药理学等神经科学领域能够反映实验动物整体状态4。小鼠和人类同为哺乳动物,基因组与人类非常相

5、似,相似度高达98%。一些特定的行为信息可以对人类医学研究有所帮助,为其他生物学研究提供重要的参考和依据5-6。自新冠肺炎疫情爆发后,无论国际还是国内检测试剂及抗体疫苗研制都依赖于动物实验7。以小白鼠为实验对象,将计算机视觉技术、视频分析技术和行为识别相结合,实现小鼠探索过程中动作识别和检测,可以更好地帮助研究人员理解和分析动物行为,对促进相关学科的发展具有重要意义8。随着人工观察、传感检测和视频跟踪技术的发展,动物行为分析方法取得了巨大的进步。机器学习与计算机视觉在实验动物行为分析领域发展迅速,在一定程度上实现了自动化与定量化。近年来,利用先进的数字图像处理技术,可以实时追踪和预测动物的行为

6、,从而更好地掌握它们的运动轨迹、运动距离、速度等信息,这已经成为一种先进的研究方法。然而,这种方法仅仅局限于通过观察动物的运动参数来间接分析它们的行为特征,忽略了它们本身的体态变化。事实上,行为360 燕山大学学报2023是由体态和体态的变化(包括位置)组成的,而体态可以反映出更多的心理因素。因此,准确地识别动物的体态,并对它们的行为进行详细描述,已经成为动物行为学,尤其是啮齿目动物行为研究的一个重要方向。本研究利用实验小鼠运动中不同动作的行为特征特点,从体态和运动两个方面描述小鼠的行为。基于视频记录行为的图像分析是最常见也是最广泛的使用方法9-12,但是由于缺乏实时的行为特征变量分析和反馈调

7、节,大多数小鼠研究仍然存在一定的局限性13。尽管实验人员可以通过离线视频来观察小鼠的行为,但他们仍然必须不断检测和评估其各种行为特征,以便及早发现问题,并及时采取有效的措施来改善研究结果。现有的小鼠行为实时分析方法具有一些问题,比如需要依赖于强大的 GPU 才能达到实时性14,不适用于大多数动物行为实验场景;或者是特征提取过程满足实时性但是再加上行为识别后就不满足实时性。还有的小鼠行为实时分析方法难以识别小鼠身体各个部位15-16,只能将小鼠看作质心或者识别出身体局部进行处理,对小鼠体态特征的构造和行为特征细化是不利的。本研究针对实时性问题提出一种改进YOLO5Fa

8、ce 的小鼠行为实时分析方法。首先通过改进的深度学习关键点检测网络实时获得小鼠身上的四个关键点,然后通过实时检测到的关键点坐标提取体态特征与运动特征,最后放入机器学习实时分类模型进行行为分类。1 小鼠关键点实时检测1.1 YOLO5Face 介绍 YOLO5Face17的优势分以下两点论述。1)YOLO5Face 模型架构 YOLO5Face 的模型架构如图 1 所示。YOLO5Face 相对 YOLOv5 具体改动为:a)Stem 模块替代了 YOLOv5 网络中原有的Focus 模块,在性能没有下降的同时,提高了网络的泛化能力,降低了计算复杂度。b)YOLO5Face 网络对

9、 SPP 模块进行更新,使用更小的 kernel。将原 YOLOv5 用的(5,9,13)的SPP kernel 改成(3,5,7)的 SPP kernel,使网络更适合人脸检测而且提高了检测精度。c)YOLO5Face 网络在原 YOLOv5 的基础上添加了一个 stride=64 的 P6 输出块,P6 输出块的特征图大小为 1010,可以提高对大人脸的检测性能。之前的人脸检测模型的重点基本放在检测小人脸上,YOLO5Face 通过提高对大人脸的检测效果从而提升整个网络模型的检测性能。d)YOLO5Face 网络提出在人脸检测问题中,一些目标检测的数据增广方法不太适合使用,比如上下翻转和

10、Mosaic 数据增广。不使用上下翻转时,模型检测性能可以提高。不使用 Mosaic 数据增广时,对小人脸的检测性能变好,但是对中尺度和大尺度人脸来说检测性能一般。导致这种情况发生的原因,可能是由于 WiderFace 数据集中的小人脸数据相对较多,不使用 Mosaic 数据增广提高了对小人脸的检测性能从而提高了整体的检测性能。另外随机裁剪有助于提高性能。e)YOLO5Face 的可移植性比较强,从服务器到嵌入式或者移动设备可以根据需要设计不同深度和宽度的网络模型。2)Wing-Loss YOLO5Face 是在 YOLOv5 的基础上进行改进的。YOLOv5 只是一种基于深度学习的实时目标检

11、测模型,不具备关键点检测功能。YOLO5Face在 YOLOv5 网络的基础上添加了 5 个人脸关键点回归的代码,对于关键点回归问题使用的损失函数是 Wing-loss,其计算公式为wing(x)=wln(1+|x|/e)xw|x|-C其他。(1)Wing-loss 是一个分段复合损失函数,在训练刚开始误差比较大的时候用 L1 损失,在训练的后期误差相对比较小的时候,用一个具有偏移量的对数函数。这 5 个人脸关键点回归损失称为lossL,在 YOLOv5 原本的损失函数 lossO中加上lossL,构成总的损失函数 loss(s),loss(s)=lossO+LlossL,(2)其中,L是关键

12、点回归损失函数的权重因子。第 4 期胡春海等改进 YOLO5Face 的小鼠行为实时分析方法研究361 图 1 YOLO5Face 的模型架构Fig.1 The model architecture of YOLO5Face1.2 改进 YOLO5Face 本研究的关键点检测算法之所以建立在YOLO5Face 之上,是因为 YOLO5Face 关键点检测模型相对以往的基于热力图回归的关键点检测模型更加轻量化,计算量更小,满足本研究要求的实时性要求和精度要求。不选择更新的 YOLOv6/7/8 是因为它们只有目标检测功能没有关键点检测功能,YOLO5Face 是既有目标检测又有关键点检测。本

13、研究通过改进 YOLO5Face 提出一种可以适用于动物行为学实验中的小鼠关键点检测方法,主要工作有以下几点:1)新增了一个更小的检测头来检测更小尺度的物体。原 YOLO5Face 中设定的 4 个检测头,分别对应的特征图大小是 8080、4040、2020、1010。其中特征图大小为 1010 的检测头是 YOLO5Face相对于 YOLOv5 添加的用来提高大目标的检测性能。而对于旷场实验场景,小鼠相对于整个旷场是一个小目标,如图 2 所示。故去掉特征图大小为 1010 的检测大目标的检测头,添加一个特征图大小为 160160 的检测小目标的检测头,用来提高小目标的检测准确率,网络结构如图

14、 3 所示。2)主干网络中加入 YOLOv8 的 C2f 模块18。C2f 模块参考了 C3 模块以及 ELAN 的思想进行设计,如图 4 所示,让模型获得了更加丰富的梯度流信息,大大缩短了训练时间,而且提高了关键点检测精度。图 2 旷场实验图像Fig.2 Open field experiment image3)采用 GSConv 和 Slim-neck 技术,可以降低模型的复杂度,同时提升精度19。为了同时兼顾精度和检测帧率,采用标准卷积、深度可分离卷积和 shuffle 混合卷积进行组合构建为一个新的卷积层:GSConv(结构如图 5 所示)。该方法使卷积计算的输出尽可能接近 SC,降低

15、了计算量。对于轻量级模型,在搭建网络结构的时候可以直接用 GSConv 层替换原始的卷积层,无需额外操作即可获得显著的精度增益。362 燕山大学学报2023GSConv 可以加快模型预测的速度。图 3 改进的 YOLO5Face 的模型架构Fig.3 Improved model architecture for YOLO5Face图 4 C2f 模块结构图Fig.4 The structure of the C2f module图 5 GSConv 模块结构Fig.5 The structure of the GSConv moduleGSbottleneck 是由两个 GSConv 模块和

16、一个DWConv 模块组成,输入分为两个部分,一个部分导入两个 GSConv 模块,另一个部分输入一个DWConv 模块,最后将这两部分的输出加起来,如图 6(a)所示。VoVGSCSPC(跨级部分网络)模块是在 GSbottleneck 的基础上使用一次性聚合方法设计而成的,如图 6(b)所示。图 6 VoVGSCSPC 模块结构Fig.6 The structure of the VoVGSCSPC module第 4 期胡春海等改进 YOLO5Face 的小鼠行为实时分析方法研究363 1.3 小鼠关键点检测数据集通过分析小鼠行为的动作特点,并结合旷场实验20中运动参数和行为参数测

17、量的需要,确定以小鼠的鼻尖、左耳、右耳和尾根作为关键点并构造姿态骨架,如图 7 所示。小鼠关键点检测数据集的构建,通过对实验场景平台(如图 8 所示)获取的视频进行处理,将视频打成图片,使用 labelme进行标注(如图 9 所示),依次标注包围小鼠的框、鼻尖、左耳、右耳、尾基。之所以要标注框,是因为使用的关键点检测算法 YOLO5Face 是基于YOLOv5 算法的,YOLOv5 的数据集是需要标注目标框的。最后制作好的数据集包含 1 000 张图片,800 张训练,100 张验证,100 张测试。YOLO5Face原代码预测的关键点数量是 5 个,本研究中只用到 4 个

18、关键点,所以需要对 YOLO5Face 代码进行修改,使其预测 4 个关键点坐标。图 7 小鼠关键点骨架图Fig.7 Skeleton diagram of mouse key points1.4 关键点检测评价标准为了客观合理评价改进的 YOLO5face 模型在小鼠关键点检测任务上的性能,本文采用 PCK(Percentage of Correct Keypoints)作为小鼠关键点检测准确度的评价标准。PCK21定义为正确估计出关键点的比例,计算检测的小鼠关键点与其对应的真值间的归一化距离小于设定阈值的比例。PCK 指标计算公式为PCKki=pdpiddefp Tk()p1,(3)式中

19、,i 表示小鼠关键点的标签序列号,k 表示第 k个阈值,Tk表示人工设定的阈值,Tk0:0.01:0.5,p 表示小鼠图像序号,dpi表示第 p 幅图像中标签序列号为 i 的姿态关键点预测值与人工标注真值的像素距离,ddefp为数据集中第 p 幅图像的尺度因子。小鼠两只耳朵的位置相对稳定,不会因为姿态的不同出现较大的变化,适合作为尺度因子。所以本文采用每幅图中检测的左耳坐标到右耳坐标的欧式长度作为归一化参考距离。表示如果条件成立则为 1,否则为 0。PCKkmean是对所有关键点计算取平均:PCKkmean=pidpiddefp Tk()pi1。(4)另外使用帧速和模型大小对模型进行评价,帧速

20、表示模型每秒能处理多少帧图像,即模型实时帧率,单位是 f/s;模型大小指保存的模型大小,单位是 MB。帧速越高表示模型实时性能越好,模型大小越小表示模型越轻量化。图 8 实验场景平台Fig.8 Experimental platform364 燕山大学学报2023图 9 Labelme 标注数据集Fig.9 The dataset annotated by Labelme1.5 消融实验为了验证上述添加的改进模块对关键点检测精度的有效性,进行消融实验结果如表 1 所示。消融实验得出结论:同时加入 C2f、smaller head 和GSConv_Slim-neck,训练得到最佳模型,测试集精

21、度相对于 Baseline 提高了 2.25%,从 95.25%提升到 97.5%。注:表中同名但是末尾带有()的模型,表示训练了更长时间。表 1 消融实验结果Tab.1 Ablation results模型PCK/%鼻尖左耳右耳尾基平均帧速/(f/s)模型大小/MB训练时间/hBaseline(YOLO5Face)93959310095.25109.8914.06.40Baseline+C2f()9792959995.75121.9516.56.67Baseline+C2f9395959694.75114.9416.52.27Baseline+C2f+smaller head95929499

22、95.0080.0018.11.84Baseline+C2f+GSConv _Slim-neck9694949995.7595.2416.02.27Baseline+C2f+smaller head+GSConv _Slim-neck()8190929790.0080.6517.64.75Baseline+C2f+smaller head+GSConv _Slim-neck98959710097.5079.3717.62.311.6 不同模型间的实验结果与分析为了保持实验结果的客观一致性,实验环境统一使用如下配置:CPU:Intel Core i7-12700H 2.70 GHz;GPU:N

23、VIDIA GeForce RTX 3080 Ti;内存:16G;操作系统:Windows 11。在获得最佳的权重之后,与基于深度学习的动物姿态估计方法 DeepLabCut22进行实验结果对比,结果如表 2 所示。从 PCK 指标、帧速和模型大小三方面进行评价。结论:本文模型在精度上相对于DeepLabCut有2%的提升,帧速是DeepLabCut 的 3 倍,模型大小是 DeepLabCut 的1/5。本文算法在实时关键点检测问题上已经完全胜任。表 2 不同模型的比较结果Tab.2 The results of the comparison of different models

24、模型PCK/%鼻尖左耳右耳尾基平均帧速/(f/s)模型大小/MBDeepLabCut9099989595.526.50 92.8Ours98959710097.579.3717.62 小鼠行为实时识别2.1 小鼠行为识别数据集本文的小鼠行为识别数据集由经验丰富的观察员进行数据标注,行为是一个过程,由一系列连续帧组成,包括行为的开始、中间和结束过程,单独一张图片是很难判断这是什么行为,所以在数据标注时一个行为的所有过程都要被标注。结合旷场实验中的具体要求,本文将小鼠行为分为梳洗、直立、静止和行走四种,每类行为标注 500 张,其中训练集和测试集的比例是 7 3,数据集一共2 000 张,训练集

25、 1 400 张,测试集 600 张。根据研究23,动物行为学指标可以划分为两第 4 期胡春海等改进 YOLO5Face 的小鼠行为实时分析方法研究365 大类:运动特征和体态特征。通过结合多种行为学指标来识别小鼠的行为,可以更加准确、全面地评估其行为特征,因此本研究将同时考虑这两类行为指标。运动特征是反映小鼠行走等行为的显著指标。本文的小鼠关键点检测模型能同时检测到小鼠身体的 4 个关键点分别为鼻尖、左耳、右耳和尾基,另外取左耳关键点和右耳关键点连线中心点作为第 5 个点。小鼠的运动特征就是分别计算这5 个点的帧间运动距离。帧间运动特征反映了上下帧之间小鼠行为的连续性。以往,基于运动参数

26、的行为学指标假设小鼠被视为一个质点,并以其身体区域的质心来描述它的位置。本文中使用5 个关键点坐标,即是将小鼠的身体部位看作多个目标,每个目标的运动距离都作为一个运动特征,这样做的目的是细分小鼠的运动特征,在一些只有身体部分区域发生变化的行为发生时(比如直立行为,尾基基本没有运动距离,但是鼻尖有大幅度的运动距离)能够作为一个显著特征进行行为识别。运动距离指的是小鼠在连续两帧间移动的距离,计算方法如下:Dk(i+1,i)=(xki+1-xki)2+(yki+1-yki)2,(5)式中,xki+1,yki+1和 xki,yki分别表示相邻两帧中小鼠的第 k 个关键点的坐标。小鼠的两耳中心点、鼻尖、

27、左耳、右耳和尾基分别对应第 0 到 k 个关键点。体态特征是根据小鼠骨架模型(如图 7 所示)来计算的。鼻尖、左耳、右耳及尾基 4 个关键点构成四点骨架,骨架的每一条边作为一个向量,图中共有 5 个向量。计算所有向量的长度、两两之间的夹角以及围成的四边形面积作为体态特征。总结:数据以视频序列输入小鼠关键点检测模型进行预测小鼠关键点在图像中的位置,利用关键点检测模型输出小鼠关键点的坐标进行计算行为运动特征和体态特征共 27 个特征建立行为识别数据集(特征 1 到特征 27 分别表示根据小鼠骨架计算的距离、角度、面积以及帧间位移特征)。共 2 000 个数据展示其中一部分,最后一列是标签,如表 3

28、所示。表 3 行为识别数据集(部分)Tab.3 Behavior recognition dataset(part)特征 1特征 2特征 3特征 4特征 27行为标签18.110 7721.213 2085.702 9824.207 442.236 07梳洗15.524 1720.024 9880.411 4422.627 421.000 00梳洗19.313 2122.360 6885.422 4826.627 053.162 28梳洗83.216 580.865 070.710 422.139 322.000 00直立81.154 170.872 300.662 362.138 431.

29、000 00直立83.024 090.879 370.702 422.171 873.000 00直立76.485 291.127 960.769 412.223 171.000 00静止76.485 291.137 860.757 762.234 700.000 00静止80.062 481.057 010.687 222.188 361.000 00静止99.327 740.802 350.444 111.922 247.071 07行走104.04 330.822 420.447 521.975 694.472 14行走102.142 100.833 030.437 341.979 16

30、6.708 20行走2.2 行为分类模型2.2.1 SVM 模型 SVM24是一种二分类模型,它通过寻找特征空间中间隔最大的分离超平面来实现对数据的有效二分类。加了核函数之后,SVM 变成一个非线性模型。因为本文要构造一个实时模型,而 SVM模型计算量小,故决定在此基础上设计一个实时分类模型。366 燕山大学学报20232.2.2 SVM 实时分类为了实现实时性,将 SVM 训练和测试的代码分开。SVM 运行时间如表 4 所示。训练加测试的总时间是 1.418 s,约等于 0.705 f/s。这个结果远远达不到实时性,因为这还仅仅是行为分类的帧数,如果再加上小鼠关键点检测需要的时间,总帧数连

31、 0.705 f/s 都达不到。但是从结果中看到SVM 训练完成得到权重之后,跑测试集的时间只有 0.029 s,约等于 34.72 f/s,这个帧率完全满足实时性。故使用 SVM 进行行为识别的时候进行如下设计:调用 SVM 时,先进行判断,如果没有已经训练好的权重不存在,就进行训练然后将权重保存下来,然后去预测;后面再调用 SVM 时每次进行判断,如果已经存在训练好的权重,加载此权重去预测,省去每次都要训练的时间。表 4 SVM 运行时间Tab.4 SVM run timeSVM 不同阶段耗时/s训练+推理1.418推理0.029 在本文自建的小鼠行为识别数据集上 SVM的测试结果(如表

32、5)可看出,核函数选择为高斯径向基函数时,SVM 分类模型识别率最高,因此核函数选择为 RBF 进行下一步操作。测试集平均精度为 91.93%,梳洗、直立、静止以及行走行为的测试集精度分别为 96.89%、86.88%、94.67%、89.29%,如表 6 所示。表 5 不同核函数 SVM 训练模型识别率Tab.5 Recognition rate of SVM training models with different kernel functions核函数测试集识别率高斯径向基函数核0.919 3多项式核0.905 6Sigmoid 核0.825 0表 6 SVM 分类结果Ta

33、b.6 SVM classification result行为类别准确率召回率F1梳洗0.968 90.987 30.978 1直立0.868 80.837 30.852 8静止0.946 70.953 00.949 8行走0.892 90.903 60.898 2平均准确率0.919 30.920 30.919 72.2.3 机器学习算法对比实验结果及分析机器学习常用的分类算法除了 SVM 还包括决策树、随机森林、朴素贝叶斯分类器、KNN、逻辑回归分类、集成算法(AdaBoost、GBDT、XGBoost、LightGBM)。下面用这 9 种机器学习算法在本文自建的小鼠行为识别数据集上进行

34、对比实验,分类结果如表 7 所示。表 7 行为识别实验的对比实验结果Tab.7 Comparison of experimental results of behavior recognition experiments方法不同行为准确率梳洗直立静止行走平均准确率预测时间/s关键点+行为识别帧率/(f/s)SVM0.968 90.868 80.946 70.892 90.919 30.028 835决策树0.928 10.807 90.926 20.819 80.870 50.014 1随机森林0.981 00.846 60.954 80.858 90.910 30.033 428AdaBoo

35、st0.807 50.587 60.939 70.711 30.761 50.708 9GBDT0.981 10.868 40.967 10.835 20.913 00.020 435XGBoost0.968 80.867 90.973 70.851 20.915 40.003 019LightGBM0.963 00.880 80.973 70.833 30.912 70.005 020KNN0.948 40.817 50.778 40.839 50.845 90.113 1朴素贝叶斯分类器0.871 20.743 40.803 50.700 00.779 50.001 0逻辑回归分类0.90

36、6 70.689 40.802 60.704 50.775 80.001 0 从平均准确率来看,SVM、随机森林、GBDT、XGBoost、LightGBM 基本在同一水平,准确率比较高,其他的算法精度比较低。从预测时间来看,上述几个算法中 LightGBM 只有 0.005 s,相当于第 4 期胡春海等改进 YOLO5Face 的小鼠行为实时分析方法研究367 200 f/s;XGBoost 更是只有 0.003 s,相当于333 f/s。单从这个结果上来看,如果将小鼠行为实时识别模型中的行为分类算法使用这两个算法中的一个,实时性就能大幅度提高。于是本文使用 XGBoost 和

37、 LightGBM 算法都搭建了小鼠行为实时识别模型,使用 XGBoost 的模型帧速只有19 f/s,使用 LightGBM 的模型帧速只有 20 f/s,均达不到 SVM 的 35 f/s。这里特意说明,使用XGBoost、LightGBM 进行小鼠行为实时识别的时候,都是将训练和测试过程分开的,如果检测到已经训练好的权重,就直接加载进行模型推理。XGBoost、LightGBM 只能跑到 19 f/s、20 f/s 的原因应该是模型比较复杂,加载的慢,虽然推理的快,但是加载慢同样会使整体实时性下降。接下来将平均准确率比较高的几个算法都以同样的测试方法放进小鼠行为实时识别模型,测得随

38、机森林是28 f/s,GBDT 是 35 f/s。SVM 和 GBDT 在帧率都是 35 f/s 的前提下,SVM 的准确率以 0.63%的微弱优势胜过 GBDT。综上所述,在本研究实验场景下 SVM 的性能超过其他机器学习算法,所以小鼠行为实时识别模型基于 SVM 搭建。2.3 小鼠行为实时识别流程小鼠行为实时识别就是将小鼠关键点检测模型与基于 SVM 的小鼠行为实时识别模型拼接在一起,行为识别流程图如图 10 所示。摄像头实时获得小鼠图像,关键点检测模型实时获得小鼠的鼻尖、左耳、右耳和尾基的坐标,并保留上一帧的这 4 个点的坐标(第一帧帧间运动距离为 0)。然后利用当前帧和上一帧的坐标计

39、算运动特征和体态特征共 27 个特征。SVM 根据小鼠行为识别数据集已经训练好的权重,只运行推理过程,对获得的特征进行实时分类,完成小鼠行为实时识别流程。完成的小鼠实时行为识别截图如图 11 所示,左上角显示的“Pred”指的是预测的当前帧的行为,“FPS”指的是实时帧率,下面的数字“18.34”指的是两耳中心点相对于上一帧的运动距离。图 10 行为识别流程图Fig.10 Behavior recognition process3 结论针对当前大部分动物行为分析方法由于计算量大、模型复杂导致不能做到实时分析的问题,本文提出了一种改进 YOLO5Face 的小鼠行为实时分析方法。本文提出的方法

40、分为两个步骤:小鼠关键点实时检测和小鼠行为实时识别。针对小鼠关键点实时检测,在深度学习网络 YOLO5Face 的基础上改进,新增了一个更小的检测头、加入 C2f 模块以及引入 GSConv 和 Slim-neck,改进后的模型测试集精度达到了 97.5%,推理速度为 79 f/s,精度和实时帧率均高于 DeepLabCut 模型的性能。针对368 燕山大学学报2023小鼠行为实时识别:在本文改进的关键点检测模型的基础上,将体态特征与运动特征相结合构建小鼠行为识别数据集,使用训练和推理过程分开的机器学习算法 SVM 进行实时行为分类,对梳洗、直立、静止、行走四种基本行为的平均识别准确率达到了

41、91.93%。将关键点检测代码与行为识别代码拼接之后,整个模型运行的实时帧率可以达到 35 f/s。图 11 小鼠实时行为识别Fig.11 Mouse real-time behavior recognition参考文献 1 CRISPIM-JUNIOR C F DE AZEVEDO F M MARINO-NETO J.What is my rat doing Behavior understanding of laboratory animals J.Pattern Recognition Letters 2017 94 134-143.2 KANDEL E R SCHWARTZ J H J

42、ESSELL T M et al.Principles of neural science M.New York McGraw-hill 2000.3 WHISHAW I Q GHARBAWIE O A CLARK B J et al.The exploratory behavior of rats in an open environment optimizes security J.Behavioural Brain Research 2006 171 2 230-239.4 尚玉昌.动物行为学讲座一第一讲动物行为学概论 J.生物学杂志 1986 2 34-38.SHANG Y C.L

43、ecture of ethology 1 Introduction to ethology J.Chinese Journal of Biology 1986 2 34-38.5 INSEL T R.The challenge of translation in social neuroscience a review of oxytocin vasopressin and affiliative behavior J.Neuron 2010 65 6 768-779.6 BAKER M.Technology feature inside the minds of mice and men J

44、.Nature 2011 475 7354 123-128.7 王勋王鹏飞.应对新冠病毒突变株的疫苗研究进展 J.张江科技评论 2021 29 6 35-37.WANG X WANG P F.Research progress of vaccine against novel coronavirus mutant strains J.Zhang Jiang Sci Tech Review 2021 29 6 35-37.8 张宏霞吕静薇张北月等.一种大小鼠明暗箱图像分析处理系统的研制 J.中国比较医学杂志 2018 28 4 43-49.ZHANG H X L J W ZHANG B

45、Y et al.Development of an image analysis and processing system for light and dark box in rats and mice J.Chinese Journal of Comparative Medicine 2018 28 4 43-49.9 BEANE G GEUTHER B Q SPROULE T J et al.Video based phenotyping platform for the laboratory mouse EB/OL.2023-02-09 2023-02-28.https/www.bio

46、rxiv.org/content/10.1101/2022.01.13.476229v2.10 GLATFELTER G C CHOJNACKI M R MCGRIFF S A et al.Automated computer software assessment of 5-hydroxytryptamine 2A receptor-mediated head twitch responses from video recordings of mice J.ACS Pharmacology&Translational Science 2022 5 5 321-330.11 WINTERS C

47、 GORSSEN W OSSORIO-SALAZAR V A et al.Automated procedure to assess pup retrieval in laboratory mice J.Scientific Reports 2022 12 1 1663.12 SUN J J RYOU S GOLDSHMID R H et al.Self-supervised keypoint discovery in behavioral videos C/Proceedings of the IEEE/CVF Conference on Computer Vision and Patter

48、n Recognition New Orleans USA 2022 2171-2180.13 张玉楼.基于机器视觉的动物交互行为与认知状态分析系统 D.深圳中国科学院大学中国科学院深圳先进技术研究院 2020.ZHANG Y L.Animal Interaction behavior and cognitive state analysis system based on machine vision D.Shenzhen University of Chinese Academy of Sciences Shenzhen Institutes of Advanced Technolog

49、y Chinese Academy of Sciences 2020.14 GRAVING J M CHAE D NAIK H et al.DeepPoseKit a software toolkit for fast and robust animal pose estimation using deep learning J.Elife 2019 8 e47994.15 GERS A CRUZ R DE CHAUMONT F et al.Deep learning-based system for real-time behavior recognition and closed-loop

50、 control of behavioral mazes using depth sensing EB/OL.2022-02-24 2023-02-28.https/www.biorxiv.org/content/10.1101/2022.02.22.481410v1.16 MENEZES R DE MIRANDA A MAIA H.PyMiceTracking an open-source toolbox for real-time behavioral neuroscience experiments C/Proceedings of the IEEE/CVF Conference on

展开阅读全文