1、ISSN 1006 7167CN 31 1707/TESEACH AND EXPLOATION IN LABOATOY第 42 卷 第 2 期Vol42 No22023 年 2 月Feb 2023DOI:10 19927/j cnki syyt 2023 02 021户外智能随从机器人系统设计邓开连,朱华章,燕帅(东华大学 信息科学与技术学院,上海 201620)摘要:设计了一款基于计算机视觉的随从机器人。与常规智能小车相比,该智能机器人实现了多个神经网络协同工作,能够跟随主人在户外移动,并且按照主人做出的指令执行相应的动作,具备人脸识别、基于行为识别的摔倒检测等功能。该智能机器人使用 Fac
2、eNet 进行面部特征提取;采用 YOLOV4+DeepSort 组合实现用户跟踪;基于 BlazePose 设计了手势命令;设计并训练了基于 LSTM 的行为识别网络。实验结果表明,在对人体行走、坐下、摔倒 3 类动作分类的准确率分别达到了93.6%、96.7%和 97.8%,能够有效地检测摔倒姿势。系统在达到预测的准确性同时占用更少的运算资源,将模型部署在搭载了拥有 512 个 CUDA 核心的 VoltaTMGPU 的 JetsonNX 上,运行帧率达到了 15 帧/s 以上,具有良好的实时性。关键词:户外跟随;智能机器人;系统设计中图分类号:TP 391文献标志码:A文章编号:1006
3、 7167(2023)02 0098 05Design of Intelligent Follower obot Used OutdoorDENG Kailian,ZHU Huazhang,YAN Shuai(College of Information Science and Technology,Donghua University,Shanghai 201620,China)Abstract:This paper designs a follower robot based on computer vision Compared with the conventional intelli
4、gent car,this intelligent robot realizes the cooperative work of multiple neural networks It can follow the owner to move outdoorand perform corresponding actions according to the instructions delivered by the owner It is equipped with the functionsof face recognition,falling detection based on beha
5、vior recognition,etc FaceNet is used for facial feature extraction;YOLOV4+DeepSort combination is used to achieve user tracking Gesture commands are designed based on BlazePose;and a LSTM-based behavior recognition networkis designed and trained The experimental results show that in theclassificatio
6、n of human walking,sitting and falling,the accuracy rates reached 93.6%,96.7%and 97.8%,respectively It can effectively detect falling postures The system can achieve a high accuracy of prediction whileoccupying less computing resources,the frame rate of running on JetsonNX with VoltaTMGPU which has
7、512 CUDA coreinside reaches more than 15 frames per second,which has good real-time performanceKey words:outdoor follow;intelligent robot;system design收稿日期:2022-07-11基金项目:2021 年 度 国 家 级 大 学 生 创 新 创 业 训 练 计 划 项 目(G180910418);2021 年中国纺织工业联合会高等教育教学改革研究项目(2021BKJGLX140);上海市高等教育学会 2021 年度规划研究项目(Z2-10)作者简
8、介:邓开连(1984 ),男,安徽六安人,高级实验师,主要从事嵌入式系统设计与应用、人工智能、实验教学研究与管理等。Tel:13818519931;E-mail:dengkailian dhu edu cn通信作者:燕帅(1988 ),男,安徽阜阳人,实验师,主要从事现代电子技术与系统、电路与电子技术类实验、实验教学管理与创新等研究实践。Tel:13671618266;E-mail:Sammyan dhu edu cn0引言随从机器人控制系统,适合在各个服务于人的环境中工作。根据机器人工作的空间,可以分为固定机器人和移动机器人。固定机器人如生产车间流水线上生产零部件的自动化生产机械臂;移动机器
9、人如苏黎世联邦理工学院研发的四足机器人 ANYmal 可以穿越复杂的山林环境1。文献 2 中的 OS 系统为各个模块提供了通信框架,便利了机器人开发。刘小军等3 第 2 期邓开连,等:户外智能随从机器人系统设计设计了基于 OS 开发平台实现人体骨架和物体的识别、同步定位与地图构建等功能的家庭服务机器人。陈智拓等4 设计了以 NI myIO 为核心处理器以LabVIEW 图形化系统,用于陪伴空巢老人,实现跟随、日常生活提醒、语音交互、音频播放、异常情况通信报警等基本的陪伴功能。唐文宇5 在路径规划中选取了全路径覆盖算法,配合激光雷达运用片分割策略动态分割区域,能够支持户外工作的机器人,路径规划十
10、个重要的课题;李晶6 在四轮驱动四轮独立机器人转向 AGV 的研究上,采用分布式计算,模块化设计和代码可重复的 OS 操作系统开发了自动导航 AGV 的应用。在机器人的设计上,Kalburgi 等7 仿照蝗虫运动的生理特征设计了基于 OS 的四足行走机器人。在机器人的追踪功能上,Panda 等8 将通用目标跟踪器和对象检测模块与目标重新识别模块融合在一起,有效地解决了目标由于长时间的遮挡或目标的运动模糊而丢失;Xue 等9 提出了一种基于密集连接和注意力的 YOLO(DCA-YOLO)的第一人称视角下的多人跟踪算法。本文提出了一款多神经网络协调工作的机器人,用户能够通过视觉感知向机器人发送运动
11、的控制命令,该机器人能够准确识别、追踪用户,可通过视觉实现跟随用户移动,时刻监视用户的运动状态,检测用户是否摔倒或遇到其他危险。1系统设计1.1随从机器人硬件结构图 1 所示为随从机器人系统框图,其主要有图像传感模块、Jetson Nx 神经网络计算模块、Arduino 运算控制模块、电动机及电动机驱动模块等组成。随从机器人的工作过程为 Web 摄像头收集到图像信息后通过 USB 接口传输到 Jetson Nx 用以进行图像处理,计算出用户位置后通过 USB 串口传输到下位机 Arduino,Arduino 控制舵机及轮毂电动机使得机器人和 Web 摄像头始终跟随和朝向用户。机器人的实物模型如
12、图 2所示。图 1随从机器人系统整体框图Jetson Nx 为边缘计算设计的一款嵌入式开发板,具有优秀的计算能力和充足的内存,为搭载多个神经网络以及支持其相互间协调工作提供了保障,能够满足户外跟随的实时性要求。图 2随从机器人实物模型图 3 所示为 Arduino UNO 核心板实物图,其处理器核心是 MEGA328,存储器为 W25Q64,同时具有 14路数字输入/输出口(其中 6 路可作为 PWM 输出),6路模拟输入,1 个 16 MHz 晶体振荡器,1 个 USB 口,1个电源插座,1 个 ICSP header 和 1 个复位按钮。为配合 Aruino 对电动机进行控制,采用了开拓者
13、电动机控制板驱动板,其实物如图4 所示。提供6 路 PWM 控制输出用以控制伺服电动机,6 路传感器结构和 6 路总线接口,7 V 电源输入接口。图 3Arduino 最小系统实物图图 4开拓者电动机驱动板实物1.2Jetson Nx 算法流程设计Jetson Nx 工作流程如图5 所示,激活程序,摄像头接受图像信息。其将 Facenet 识别到的人脸特征与数据库中的人脸信息进行对比,找出相近的数据及其所属的姓名。得出姓名与程序中预设的人脸对比,直到识别的人脸特征与数据库中主人的人脸信息相近。当身份识别成功后,程序跳出人脸识别循环并进入预选模式,通过手势的命令来选取 3 种工作模式。工作模式
14、1手势控制机器人运动,不同的手势代表 不 同 的 命 令,摄 像 头 传 来 图 像 信 息,使 用BlazePose 处理获得关节节点,不同关节节点之间的位置关系表示不同手势。上位机识别到命令后将命令信息通过 USB 串口传输到下位机当中,下位机控制电动机控制直流电动机转动轮子达成相应命令。工作模式2自动跟随模式,通过跟踪器 DeepSort与检测器 YOLO V4 识别主人位置,通过超声波测距模块获得距离主人距离来判断当前机器人应停止还是前进。在距离主人近距离内不做位置移动,但保持控制舵机使摄像头对准主人;若主人远离,则驱动直流电动机进行跟踪。在此期间,持续调用融合 BlazePose-9
15、9第 42 卷LSTM 网络识别主人行为,在主人摔倒时发出警报。工作模式 3取消机器人自动能力,采用手柄操作机器人位移。每个模式在完成工作后,都要进行一次退出模式命令的判断。当前模式工作结束将会回到模式选择的大循环当中。此外,在工作模式选择的时候,可以选择让机器人睡眠待机。在主人尝试唤醒机器人后,机器人会重新回到任务起始点,并捕捉主人脸部信息进行验证解锁。图 5Jetson Nx 算法工作流程2神经网络模型原理2.1人脸解锁Kazemi 等10 提出了使用多个回归器级联成的级联分类结构,通过该级联分类器可以获得人脸的图像区域,将图像区域截取并输入 FaceNet 网络。面部编码采用了 Schr
16、off 等11 设计的卷积神经网络的结构 FaceNet,每张含有人脸信息的图片经过编码输出 128 个向量,对比请求解锁人的面部特征向量和数据库中用户的特征向量,计算出两向量间的距离,其距离小于一定阈值的时候将其判定为用户本人,允许解锁。2.2用户追踪目标追踪算法中不仅要实现目标的检测,还要实现对目标的持续追踪。本文目标追踪算法是目标检测模型和目标追踪模型的结合,采用 YOLO V4 实现目标检测12,采 用 DeepSort 算 法 实 现 目 标 追 踪13。DeepSort 使用卡尔曼滤波算法和匈牙利算法实现多目标追踪,并加入了 eID 特征网络提取外观信息,使得目标在遮挡或者离开视野
17、后再次出现能够被追踪。2.3姿态识别BlazePose 为嵌入式移动终端设计的轻量级神经网络架构14,使用了热图、回归共同预测关键点。BlazePose 的输出数据有 33 个关节点的空间坐标和置信度,在此基础上,通过对比相关的关节点的不同空间坐标位置关系可以判断当前用户下达的手势命令,进而执行相关的动作。选取 BlazePose 预测出的其中 1 个关节点坐标作为机器人跟踪坐标,并将其通过 USB 串口发送给下位机 Arduino,控制电动机工作。2.4融合 BlazePose-LSTM 行为识别网络在传统的行为识别网络中,大致分为 GCN 行为识别和 CNN 行为识别两种。文献 15 中提
18、出的双流卷积网络,采用双通道的方法进行二流卷积,分别在空间域和时域上进行特征提取,最后对双通道的特征进行融合再送入分类器分类。文献 16 中提出的 3D 卷积网络,将时间上连续的多帧图像在深度上连接在一起作为网络的输入数据,通过卷积、池化操作来使视频的时空特征同步压缩。LSTM 是在 NN 的基础上提出的,弥补了其历史信息传递的局限性。将连续 30 帧 BlazePose 的 33 4个输出数据作为 LSTM 的输入,通过合理构建、训练、优化得到了性能较为良好的融合 BlazePose-LSTM 模型,如图 6 所示。图 6融合 BlazePose-LSTM 模型001第 2 期邓开连,等:户
19、外智能随从机器人系统设计3实验与分析3.1待机和激活在解除待机状态后将会进入人脸识别解锁环节,如图 7 所示,仅当解锁者为预设定主人并且连续 10 帧识别成功后方可拥有随从机器人使用权限。图 8 所示为“自动进入模式”选择环节,在模式选择环节中有 5个可选项:0 为待机;1 为解锁;2 为姿态识别手势命令;3 为用户追踪和行为识别;4 为退出程序。通过向机器人展示竖起来的手指个数来表示选择工作的模式,当系统连续 20 次识别到相同的手指数量时,进入指定工作模式。图 7人脸识别解锁图 8“自动进入模式”选择3.2手势命令图 9 所示为选择进入“手势命令识别”模式。图10 所示为机器人开始进行命令
20、识别,详细的命令指令如表 1 所列。图 9“进入手势命令识别”模式选择表 1手势命令表L_Han_PolaLeft_H_Bone_Wrist_Dir_Han_Pola命令ne停止Hand_DownPo退出当前模式PoLeftHand_LeftHand_ightPoNe原地左转原地右转ightHand_LeftPoNe前进后退Hand_ightPoNe左平移右平移图 10“手势命令识别”模式3.3追踪和行为识别图 11 所示为选择进入工作模式 3。当机器人进入工作模式 3“追踪和行为识别”后,将会使用人脸识别算法确定主人的位置。此时,图像信息分别输入Yolov4 模型和 Facenet 模型,其
21、输出分别得到类别“人”目标(Object)在图像中的坐标和用户脸部在图像中的坐标,匹配离用户脸部最近的类别“人”目标,将这目标当作主人(Master)。图 11机器人命令识别如图 12 所示为“用户追踪”测试,当主人的朝向、位置发生变化后我们仍能持续追踪主人(如图 13,即使在主人摔倒后仍能跟踪),并且将主人所在区域的图像作为融合 BlazePose-LSTM 网络的输入数据,成功预测出主人的行为信息(walk)。图 13 所示为“摔倒”对行为识别模型的实际测试效果。当主人在摔倒的瞬间,左上角输出显示行走“walk”,这是当前累计的 30帧数据中大部分是输入行走时捕捉的数据。当过了10 帧左右
22、,模型输出了摔倒“fall_down”。(a)正面(b)背面图 12“用户追踪”测试(a)摔倒瞬间(b)摔倒后爬起图 13“摔倒”测试此外,当出现主人 ID 丢失或者失去主人同步追踪超过一定时间时,机器人会重新执行人脸识别,匹配主人 ID。4结语本文构建了多神经网络协调工作的随从机器人系101第 42 卷统,试验结果表明,各个算法能够协调工作,预测准确度满足随从机器人的设计需求。采用轻量化神经网络模型,运算速度块,占用计算资源少,满足嵌入式移动终端的需求。机器人在实际的应用中还有更大的拓展空间,os 系统为机器人在开发过程中新功能设计构造了良好的数据结构。嵌入式终端的计算性能终究还是有限的,其
23、版本或功能的更新也受到终端的物理限制。采用云端计算的方式能够有效地突破这些限制,在信息传输延迟较低的同时能够提供更加强大的计算性能。硬件物理性能的提升将会给神经网络的算法复杂化拓展更大的提升空间,进而增加模型预测的准确度。参考文献(eferences):1Jun H,Feng G Mechanism,actuation,perception,and control ofhighly dynamic multilegged robots:a reviewJ Chinese Journal ofMechanical Engineering,2020,33(5):130-1592Zhu D,Cao
24、X,Sun B,et al Biologically inspired self-organizingmap applied to task assignment and path planning of an AUV system J IEEE Transactions on Cognitive and Developmental Systems,2017,10(2):304-3133刘小军,温宏愿,周军,等 基于双控制器的家庭服务机器人实验系统设计J 实验室研究与探索,2021,40(3):75-804陈智拓,张军,高辉,等 基于 NI myIO 的家庭陪伴机器人设计J 实验室研究与探索,
25、2021,40(2):139-144,1635唐文宇 基于 OS 的全路径覆盖机器人的系统设计与实现 D 武汉:华中科技大学,20196李晶 基于 OS 的 AGV 自动导航控制系统开发D 武汉:华中科技大学,20177Kalburgi V,James P M,Sreedharan P Control system design forfour-legged walking robot with insect type leg using OSJ Materials Today:Proceedings,2021,46:5092-50978Panda P,Barczyk M Blending o
26、f learning-based tracking and objectdetection for monocular camera-based target followingJ IFAC-PapersOnLine,2021,54(9):743-7489Xue Y J,Ju ZMultiple pedestrian tracking under first-personperspective using deep neural network and social force optimization J Optik,2021,240:166981 10Kazemi V,Sullivan J
27、One millisecond face alignment with anensemble of regression trees C Proceedings of the IEEEConference on Computer Vision and Pattern ecognition s l :IEEE,2014:1867-1874 11Schroff F,KalenichenkoD,PhilbinJFacenet:Aunifiedembedding for face recognition and clusteringCProceedings ofthe IEEE Conference
28、on Computer Vision and Pattern ecognition s l :IEEE,2015:815-823 12Wu D,Lv S,Jiang M,et al Using channel pruning-based YOLOv4 deep learning algorithm for the real-time and accurate detection ofapple flowers in natural environmentsJ Computers and Electronicsin Agriculture,2020,178:105742 13Wojke N,Be
29、wley A,Paulus D Simple online and realtime trackingwith a deep association metricCIEEE International Conferenceon Image Processing(ICIP)s l :IEEE,2017:3645-3649 14Mroz S,Baddour N,McGuirk C,et al Comparing the quality ofhuman poseestimationwithBlazePoseorOpenPose C International Conference on Bio-En
30、gineering for Smart Technologies(BioSMAT)s l :IEEE,2021:1-4 15Feichtenhofer C,Pinz A,Zisserman A Convolutional two-streamnetwork fusion for video action recognitionCProceedings of theIEEE Conference on Computer Vision and Pattern ecognition sl :IEEE,2016:1933-1941 16Tran D,Bourdev L,Fergus,et alLear
31、ning spatiotemporalfeatures with 3 d convolutional networksCProceedings of theIEEE International Conference on Computer Vision s l :IEEE,2015:4489-4497(上接第 56 页)6王恒宜,汪飞小 电 容 应 用 下 的 三角 形 联 结 级 联 H 桥STATCOM 建模和最优控制器设计J 电气工程学报,2021,16(3):25-327曹坚成 多电平变换器理论及其应用技术J 科学与财富,2014(5):788魏静 低容值级联 H 桥 STATCOM
32、直流侧电压波动分析及控制策略研究D 徐州:中国矿业大学,20209刘桂英,邓明锋,粟时平,等 H 桥级联 STATCOM 直流侧电压控制新方法J 电力系统及其自动化学报,2015,27(10):48-55 10Chen H,Wu P,Le C,et al A flexible DC voltage balancing controlbased on the power flow management for star-connected cascaded H-Bridge converterJ IEEE Transactions on Industry Applications,2016,52
33、(6):4946-4954 11彭啸宇 电网不平衡工况级联 H 桥 STATCOM 的控制策略研究 D 徐州:中国矿业大学,2020 12陆道荣 星形级联 H 桥 STATCOM 关键技术研究D 南京:南京航空航天大学,2018 13Lu D,Zhu J,Wang J,et al A simple zero-sequence-voltage-basedcluster voltage balancing control and the negative sequence currentcompensation region identification for star-connected cascaded H-Bridge statcom J IEEE Transactions on Power Electronics,2018,33(10):8376-8387 14夏玲芳,马灿,荣鼎慧,等 不平衡下小容值级联 STATCOM 直流电压控制J 电力电子技术,2021,55(2):32-35名人名言一个人追求的目标越高,他的才力就发展得越快,对社会就越有益。高尔基201