1、基于车载毫米波雷达动态手势识别网络董连飞,马志雄,朱西产(同济大学 汽车学院 智能汽车研究所,上海201804)摘 要:基于 Transformer 提出一种车载毫米波雷达手势识别方法,可用于车内人员进行人机交互.毫米波雷达信号不受车内光照变化影响,同时能够保证乘客隐私.首先,毫米波雷达采样信号经过二维傅里叶变换和滤波获得距离多普勒(RDM)和距离角度图(RAM);然后,将连续多帧 RDM 和 RAM 经过三维卷积网络后进行特征融合与拼接得到特征向量,利用 Transformer 模块进行位置和序列编码;最后通过全连接层获得手势概率分布向量.采集了基于实际路况和多种干扰环境下的雷达数据制作了手
2、势识别分类的数据集,实验结果表明该方法可以有效的检测与识别多种典型手势,识别准确率可以达到 97.14%以上.关键词:动态手势识别;三维卷积神经网络;毫米波雷达中图分类号:TN95 文献标志码:A 文章编号:1001-0645(2023)05-0493-06DOI:10.15918/j.tbit1001-0645.2022.102Dynamic Gesture Recognition Network Based on VehicularMillimeter Wave RadarDONG Lianfei,MA Zhixiong,ZHU Xichan(Intelligent Vehicle Res
3、earch Institute,School of Automotive Studies,Tongji University,Shanghai 201804,China)Abstract:A Transformer based millimeter wave radar gesture recognition method was proposed for human-com-puter interaction of vehicle occupants.The millimeter wave radar signal was designed to be not affected by the
4、change of light inside the vehicle,and at the same time to ensure the privacy of passengers.Firstly,the milli-meter wave radar sampled signal was carried through two-dimensional Fourier transform and filtering to obtaindistance-Doppler(RDM)and distance-angle maps(RAM).Then,consecutive multi-frame RD
5、M and RAM werefused and stitched after three-dimensional convolutional networks to obtain feature vectors.And a Transformermodule was used to perform position and sequence encoding.Finally,the gesture probability distribution vectorwas obtained through the fully connected layer.A data set for gestur
6、e recognition classification was collectedbased on the actual road conditions and radar data under a variety of interference environments.The experiment-al results show that the method can effectively detect and recognize a variety of typical hand gestures,and the re-cognition accuracy can reach mor
7、e than 97.14%.Key words:dynamic gesture recognition;three-dimension convolutional neural network;millimeter wave radar 车载软件和车载智慧屏等智能座舱部件的快速发展和应用,一方面给驾车出行增加了更多智能化和趣味化体验,另一方面也增加了人机交互的频率容易造成驾驶员分心.手势识别作为一种有效的人机交互方式也是目前研究的热点.通过手势动作这种非接触式交互可以快速实现音乐切换、空调开关等简单功能,同时不会分散司机过多注意力,有助于提高出行安全降低事故概率1.随着深度学习的广泛应用,基于
8、计算机视觉的手势识别研究取得巨大进展2.循环神经网络3和长短期记忆网络4被应用于手势识别任务,这些网络架构可以对动态手势的时间和序列特征进行建模.收稿日期:2022 04 28基金项目:国家重点研发计划项目(2021YFB2501201)作者简介:董连飞(1984),男,博士生,E-mail:.通信作者:马志雄(1978),男,讲师,E-mail:.第 43 卷第 5 期北 京 理 工 大 学 学 报Vol.43No.52023 年 5 月Transactions of Beijing Institute of TechnologyMay 2023DHINGRA 等在三维卷积神经网络(3DCN
9、N)模型中应用了注意机制,学习了不同尺度的特征,获得了良好的分类结果5然而,这些方法对光照变化条件比较敏感,不能在低能见度条件下工作,无法满足车载应用的需求.王粉花等6提出基于 YOLO 算法的手势识别方法提升了在肤色和光线明暗不一的背景下检测精度和速度.强彦等7提出了小波变换和双边滤波的图像去噪声方法,来应对光照变化、车载环境和摄像头成像质量的影响.针对复杂动态背景下手势分割提取效果差、图像识别率低等问题,强彦团队8研究了多特征融合的快速手势识别方法,进一步提升手势识别的准确率.毫米波雷达可以通过发射电磁波并接收手势运动的回波来进行识别,因此可以不受光照影响,这是与图像手势识别相比的巨大优势
10、.同时毫米波雷达不需要采集车内图像信息,可以保护车内人员的隐私.因此,基于毫米波雷达的动态手势分类越来越受到人们的关注9.KIM 等10利用 24GHz 雷达并训练卷积神经网络对三种手势的频谱特征进行识别实现预测分类.ZHANG 等11提出了一种毫米波雷达手势识别系统,采用 3DCNN 结合 LSTM 进行端到端训练,实现不同的动态手势识别.最近,Transformer 网络在自然语言处理、计算机视觉等任务都取得较大的成功.ANDREA 等12通过引入 Transformer 自我注意力机制,对视频手势进行序列建模,并在手势识别数据集上取得较好的效果.文中针对车内复杂的光照和动态干扰场景,提出
11、用于毫米波雷达信息的手势识别方法,数据处理流程图如图 1 所示.首先,设计典型的手势进行车内环境的数据采集获得雷达原始信号;然后,对雷达信号进行预处理和噪声滤波获得距离多普勒特征图和距离角度特征图,并制作特征分类数据集;接着,利用深度学习方法提取各种手势动作特征并提出基于 Transformer 的动态手势分类网络.最后,在数据集训练获得最优的手势分类网络模型并进行结果分析.数据滤波距离FFT多普勒FFTRDMs通道FFTRAMs中频信号原始数据采集数字信号处理动态手势识别分类结果预测分类网络数据采样混频发射天线接收天线电磁波特征数据集X1X2Xn1Xn111222n1p1npsW11WspY
12、1Y1Ys图 1 动态手势识别算法数据处理流程图Fig.1 Data processing flow chart of dynamic gesture recognition algorithm 1 动态手势识别网络模型文中提出的动态手势识别网络如图 2 所示,主要由网络输入,特征提取,时间序列编码和分类预测4 部分组成.网络输入特征提取时间序列时间序列距离-角度图RAMN 距离-多普勒图RDM特征融合模块特征图输入最大池化层特征图拼接线性层输出3DCNN13DCNN2时间序列分析Transformer编码器层归一化前馈网络层归一化多头注意力位置编码手势分类结果向左向右接近远离手势概率预测全链
13、接向上向下IhwmIhwmV KQ图 2 动态手势识别网络框架图Fig.2 Framework diagram of dynamic gesture recognition network494北 京 理 工 大 学 学 报第 43 卷 1.1 数据输入整个手势识别的框架可以定义为一个函数关系::R2mwhc Rn(1)R2mwhcRn式中:表示整个网络特征提取和编码过程.表示每次到网络的输入帧;2 为每次输入为 RAM 和RDM 两种模态数据;m 为特征图的数量(文中取 m=8);w 和 h 分别为特征图的宽度和高度,这里对于 RAM图大小为 9696,RDM 特征图大小为 2424;c 为
14、通道数,一般图像具有 3 个通道表示 3 种不同颜色,这里数值含义为雷达回波强度值,所以只有单通道即c=1.对于,n 为手势的类别,这里 n=6.由连续 m 张特征图组成了实际输入网络的 1 帧记为 I,整个输入可以组成数据集 S.1.2 特征提取特征提取层主要经过两个 3DCNN 主干网络进行空间特征提取,如图 3 所示.卷积层可以表示为Conv3D(in,out,k,s),各个参数含义依次为输入通道数,输出通道数,卷积核大小和步长且每个卷积层后面一次包含批归一化层和 ReLU 激活函数层;最大池化层可以表示为 Maxpooling(p,q),p 为为池化核大小,q 为步长,其中池化层并不在
15、时间维度进行.IRAM序列经过 3DCNN1 得到(32,8,12,12)的特征图记为 RAF,IRDM序列经过 3DCNN2 得到(32,8,6,6)的特征图记为RDF.在特征融合模块,两个特征张量首先经过最大池化后得到均为(32,8)的二维张量 RAF1和 RDF1,将两个张量进行拼接得到 F1,然后经过线性层得到(8,64)的二维张量作为 Transformer 层的输入记为 SF.整个过程记为RAF1=MaxPooling(RAF)RDF1=MaxPooling(RDF)F1=concat(RAF1,RDF1)SF=Linear(F1)(2)其中在 Linear()为输入输出均为 64
16、 的线性层.1.3 时间序列分析此过程原始的 Transformer 编码器用来进行时序特征提取如图 4 所示.由于不同帧之间有着严格的顺序关系,在进行 3D 卷积时并没有破坏前后的时序特征关系,因此需要对输入序列特征的位置进行编码.Transformer编码器层归一化线性层线性层线性层线性层线性层线性层多头特征联结归一化点乘注意力ReLU前馈网络层归一化多头注意力特征向量输入位置编码VKQV01 7KhQ图 4 Transformer 编码模块Fig.4 Transformer encoding module 在 Transformer 编码前使用位置编码PE(O,2i)=sin(O/1 0
17、002i/dm)PE(O,2i+1)=cos(O/1 0002i/dm)(3)式中:PE 表示位置编码,通过不同频率的正余弦函数生成.O 为所处的位置,i 为相应的维度,dm为每一帧特征图经过 3D 卷积后特征向量的长度,即 64.后面处理过程沿用了经典的 Transformer 编码过程13,主要包含多头注意力层和前馈网络层,这里不再赘述.最终得到的编码向量经过一个两层全连接进行手势类别预测,并采用 softmax 函数实现最终的概率预测.最终输出为 N 维的向量 Y,其中概率最大值对应的手势类是网络的预测输出结果.Y:y1,y2,yN(4)2 数据采集与预处理 2.1 数据采集为了获取真实
18、场景中的数据集,搭建了如图 5所示的数据采集系统,对车内人员手势交互的实时数据进行采集.在数据采集过程中考虑汽车在加速、减速、怠速、匀速与转弯等各种场景产生的震动以 RAM输入(8,96,96,1)RAM输出(32,8,12,12)3D卷积(1,8,3,1)最大池化(2,2)3D卷积(8,16,3,1)3D卷积(16,32,3,1)3D卷积(32,32,3,1)最大池化(2,2)最大池化(2,2)3DCNN1RDM输入(8,24,24,1)RDM输出(32,8,6,6)3D卷积(1,4,3,1)3D卷积(4,8,3,1)3D卷积(8,16,3,1)3D卷积(16,32,3,1)3D卷积(32,
19、32,3,1)最大池化(2,2)最大池化(2,2)3DCNN2图 3 3DCNN 层Fig.3 3DCNN layer第 5 期董连飞等:基于车载毫米波雷达动态手势识别网络495及对人员的惯性影响;同时也考虑了各个时间段,车内光照强弱的变化.车内环境比实验室更为复杂,车内人员数量变化,同时也要避免车内人员换挡、转身等非指令动态被误识别.同时,车内外的其他环境噪声的动态变化也会对数据采集造成干扰.数据采集的硬件平台为德州仪器 IWR6843AOP.该雷达载频为 60 Hz 带宽为 3.2 GHz,同时具有较小的设计尺寸便于嵌入车内座舱.雷达的设计参数如表 1 所示:文中共设计 6 种常见的动态手
20、势,所有手势动作采集实验中满足以下要求:所有手势动作连续且需要被完整采集.手势动作速度适中:动作时间范围 1.5 s2 s;手势速度范围 0.2 m/s0.6 m/s;距离雷达径向距离0.2 m1 m.手势在动作开始和结束有短暂停顿.每个手势动作在不同场景下分别采集 100 个有效的数据样本,最终得到 600 个动态手势数据序列.2.2 数据预处理数据采集完成后需要对雷达原始数据进行处理获得雷达特征图数据集.雷达的发射信号和接收信号通过混频可以得到中频信号,IWR6843 可以直接输出雷达的中频信号.对中频信号进行快时间维进行傅里叶变换(FFT)得到一维距离特征,在此基础上对慢时间维进行 FF
21、T 变换可以得初始 RDM;在距离特征基础上做通道 FFT 变换可以得到初始 RAM,如图 6 所示.但是,此时的雷达数据中包含了大量无用的背景噪声,这并不利于模型的迁移应用,为此我们采用背景模型差法进行去背景操作.最后,为了便于进行神经网络的训练,将所有特征图进行标准化,使得数据分布均值为 0 方差为 1.图 6 中展示了向左摆动和靠近雷达两种不同手势的雷达特征图举例,从图中可以看出不同运动模式对应雷达的特征具有显著差异,可以有效地进行手势特征的识别.0.540.45804804840040800.90速度/(ms1)速度/(ms1)方位角/()80404080方位角/()方位角/()480
22、48方位角/()数值距离/m强度/dB0.54强度/dB0.540.200.20.543 0002 5002 0001 50068420数值564231068 10440200.450.90距离/m00.450.90距离/m00.450.90距离/m00.450.90距离/m00.450.90距离/m00.450.90距离/m00.450.90距离/m0强度/dB3 0002 5002 0001 500强度/dB81012 1046420数值34210数值5643210RDM特征图处理前后RAM特征图处理前后接近摆动向左摆动(a)相对雷达向左摆动的手势特征图处理RDM特征图处理前后RAM特征图
23、处理前后(b)相对雷达靠近摆动的手势特征图处理速度/(ms1)0.540.200.20.540.54速度/(ms1)0.540表 1 TI-IWR6843AOP 雷达参数Tab.1 TI-IWR6843AOP radar Parameters雷达参数数值雷达载频/GHz60扫描带宽/GHz3.2天线数3发4收Chirps数96最大径向距离/m2.4距离分辨率/m0.046 9最大径向速度/(ms1)0.712 0速度分辨率/(ms1)0.044 5角度范围/()8080 笔记本电脑数据采集控制指令图 5 数据采集系统Fig.5 Data acquisition system496北 京 理 工
24、 大 学 学 报第 43 卷0.540.45804804840040800.90速度/(ms1)速度/(ms1)方位角/()80404080方位角/()方位角/()48048方位角/()数值距离/m强度/dB0.54强度/dB0.540.200.20.543 0002 5002 0001 50068420数值564231068 10440200.450.90距离/m00.450.90距离/m00.450.90距离/m00.450.90距离/m00.450.90距离/m00.450.90距离/m00.450.90距离/m0强度/dB3 0002 5002 0001 500强度/dB81012 1
25、046420数值34210数值5643210RDM特征图处理前后RAM特征图处理前后接近摆动向左摆动(a)相对雷达向左摆动的手势特征图处理RDM特征图处理前后RAM特征图处理前后(b)相对雷达靠近摆动的手势特征图处理速度/(ms1)0.540.200.20.540.54速度/(ms1)0.540图 6 两种手势的 RDM 和 RAM 特征图处理前后Fig.6 RDM and RAM feature maps of two gestures before and after processing 3 实验与结果分析 3.1 训练过程采集数据样本按照上一节方法进行预处理,每个连续的手势序列提取连续
26、 8 帧的 RAM 和 RDM 序列,所以最终得到样本集数量为 4 800 帧。将数据按照 73 比例随机分成训练集和测试集.采用多分类任务中的交叉熵损失作为损失函数.网络算法框架基于 PyTorch1.9,并采用 SGD 优化器进行端到端网络训练,批大小设置为 8,初始学习率为 0.001,权重衰减为 0.000 1,共计训练 100 个周期.网络采用硬件服务器主要参数 GPU:NVIDIAGTX1080Ti-11G*4,CPU:Interl(R)Xeon(R)E5-2630 v42.20 GHz,内存:128 G,系统:Ubuntu18.04.3.2 对比实验结果分析本实验为多分类任务,将
27、所有类别的平均分类准确率作为评价指标.为了验证算法的有效性,与其他几种手势识别网络进行对照,如表 2 所示.从表 2 中可以看出,文中提出的算法达到了最高的平均分类精度 97.14%,远好于传统的 HMM 算法.仅采用 3DCNN 网络的分类准确率只有 93.34%,当加入 LSTM 和 Transformer 模块手势分类精度明显提高.在 3DCNN 中添加 Transformer 模块要比 LSTM模块分类准确率也增加 1.1%,证明了 Transformer 模块的时序和空间编码方式在本次分类任务中要优于LSTM 网络.为了对比各种手势识别的准确率,绘制每种类别的分类准确率的混淆矩阵如图
28、 7 所示.从混淆矩阵可以看出,向左和向右存在较多误识别,分类准确率只有 0.96 和 0.95;而向上、向下、靠近和远离的手势分类准确率都高于 0.97.从整体来看,整个网络的分类准确率没有太大偏差,具体较稳定的动态手势的识别能力.表 2 对比实验结果Tab.2 Comparison results between proposed and othermethod 方法平均分类准确率/%HMM88.953DCNN93.343DCNN+LSTM96.04文中算法97.14 预测值真实值向左向左向右向右向下向下向上向上接近接近远离远离1.00.960.0300.01000.020.950.030
29、00000.980.0100000.020.98000.010000.970.0200000.010.980.80.60.40.20.0图 7 动态手势分类结果混淆矩阵Fig.7 Confusion matrix of dynamic gesture classification results第 5 期董连飞等:基于车载毫米波雷达动态手势识别网络497 4 结束语设计了基于毫米波雷达数据的动态手势识别的数据处理流程,通过数据采集、预处理、网络训练和测试验证来证明了该方案的有效性.提出了针对毫米波雷达特征图的 3DCNN+Transformer 的动态手势分类网络,在实际采集的数据集上具有 9
30、7.14%的分类准确率,满足了动态手势分类任务的需求.与图像手势识别方法相比,文中设计的车载毫米波雷达的手势识别系统具有全天候识别和乘客隐私保护的优点,可以为今后智能座舱的人机交互设计提供参考.参考文献:杜铮.基于手势识别的车载HUD人机交互系统研究D.河北:河北科技大学,2019.DU Zheng.Research on vehicle-based HUD human-computerinteraction system based on gesture recognitionD.Hebei:Hebei University of Science and Technology,2019.(i
31、n Chinese)1 OUDAH M,Al-NAJI A,CHAHL J.Hand gesture recognitionbased on computer vision:a review of techniquesJ.Journal ofImaging,2020,6(8):73.2 HU Y,WONG Y,WEI W,et al.A novel attention-basedhybrid cnn-rnn architecture for semg-based gesturerecognitionJ.PloS One,2018,13(10):e0206049.3 Zhang L,Zhu G.
32、Mei L,et al.Attention in convolutional lstmfor gesture recognitionJ.Advances in Neural InformationProcessing Systems,2018:1953 1962.4 DHINGRA N,KUNZ A.Res3ATN-Deep 3D ResidualAttention Network for Hand Gesture Recognition inVideosC/Pro-ceedings of the 2019 International Conferenceon 3D Vision(3DV),Q
33、C,Canada:s.n.,2019:491 501.5 王粉花,黄超,赵波,等.基于YOLO算法的手势识别J.北京理工大学学报,2020,40(8):873 879.WANG Fenhua,HUANG Chao,ZHAO Bo,et al.Gesture 6 recognition based on YOLO algorithmJ.Transactions ofBeijing institute of Technology,2020,40(8):873 879.(inChinese)强彦,张晓慧.车载手势识别中基于小波变换和双边滤波的图像去噪方法J.北京理工大学学报,2017,37(4):3
34、76 380.QIANG Yan,ZHANG Xiaohui.Image denoising method basedon wavelet transform and bilateral filter in vehicle gesturerecognitionJ.Transactions of Beijing institute of Technology,2017,37(4):376 380.(in Chinese)7 强彦,董林佳,赵涓涓,等.基于栈式稀疏自编码多特征融合的快速手势识别方法J.北京理工大学学报自然版,2019,39(6):638 643.QIANG Yan,DONG Lin
35、jia,ZHAO Juanjuan,et al.A fastgesture recognition method based on stacked sparseautoencoders multi-feature fusionJ.Transactions of Beijinginstitute of Technology,2019,39(6):638 643.(in Chinese)8 YANG L,LI G.Sparsity aware dynamic gesture classificationusing dual-band radarC/Proceedings of 2018 19thI
36、nternational Radar Symposium (IRS).S.l.:IEEE,2018:1 6.9 KIM Y,TOOMAJIAN B.Application of Doppler radar forthe recognition of hand gestures using optimized deepconvolutional neural networksC/Proceedings of the 201711th European Conference on Antennas and Propagation(EUCAP),Paris,France:s.n.,2017:1258
37、 1260.10 ZHANG Z,TIAN Z.,ZHOU M.Latern:dynamic continuoushand gesture recognition using FMCW radar sensorJ.IEEESensors Journal.2018,18,3278 3289.doi:10.1109/JSEN.2018.2808688.11 TRAN D,BOURDEV L D,FERGUS R,et al.C3D:genericfeatures for video analysisJ.Eprint Arxiv,2014,2(7):8.12 LEI W,JIANG X,XU L,et al.Continuous gesture recognitionbased on time sequence fusion using mimo radar sensor anddeep learningJ.Electronics,2020,9(5):869.13(责任编辑:孙竹凤)498北 京 理 工 大 学 学 报第 43 卷