收藏 分销(赏)

基于超声波信号的行为识别方法.pdf

上传人:自信****多点 文档编号:2197713 上传时间:2024-05-22 格式:PDF 页数:5 大小:2.44MB
下载 相关 举报
基于超声波信号的行为识别方法.pdf_第1页
第1页 / 共5页
基于超声波信号的行为识别方法.pdf_第2页
第2页 / 共5页
基于超声波信号的行为识别方法.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、计算机时代 2023年 第12期0 引言20世纪4050年代,随着计算机及人工智能技术的诞生,模式识别的概念也应运而生。研究者发现,计算机网所具有的存储和计算能力将给模式识别技术带来革新。行为识别技术也逐渐成为计算机视觉领域关注的重点1。目前已有的针对于无接触式行为识别的研究,国内外已有的技术多基于计算机视觉、光学和雷达探测等技术。基于光学的识别系统功耗大、容易受到光学噪声的影响且不易与计算机设备进行信息传递;基于雷达技术的识别系统,雷达传感器可能会使用相同或者相似的电磁波频率,有可能降低捕获信号的质量,环境噪声的干扰会进一步导致性能的下降4。国内基于计算机视觉的行为识别主要利用摄像头等实时设

2、备拍摄图像或者视频,经过一定的预处理后通过深度学习或机器学习算法进行目标检测或分类识别,这对适用场所要求较高并且不利于用户隐私的保护。同时,分析摄像头所拍摄视频的算法能耗高、数据存储和运算量大,对硬件和网络环境要求较高,同时容易受到环境物体的遮挡,大大限制了该技术的推广5,并不适合小规模行为识别的应用。本文提出并实现的基于超声波的行为识别技术是使用超声波作为发射声源,采集经过人体行为动作反射的连续行为音频,经过一定处理后得到相应的频DOI:10.16644/33-1094/tp.2023.12.035基于超声波信号的行为识别方法杨飏1,张雪2(1.中国海洋大学信息科学与工程学部,山东 青岛 2

3、66404;2.武汉大学信息管理学院)摘要:作为近年来计算机视觉领域的研究热点,国内的行为识别技术主要依靠于不同场合的摄像头拍摄视频和图像进行分类识别、目标检测等相关视觉处理。因此,为了减少行为识别的消耗以及保护用户隐私,提出并实现了一种基于多普勒效应的行为识别技术,主要技术过程包括生成超声波信号、音频转换与降噪、连续音频切割、进行傅里叶变换以及卷积神经网络分类识别,行为识别的准确率可以达到 96.32%并且具备一定的泛化性能,应用前景广泛。关键词:超声波;多普勒效应;卷积神经网络;行为识别中图分类号:TP1.4文献标识码:A文章编号:1006-8228(2023)12-162-05Behav

4、ior recognition method based on ultrasonic signalsYang Yang1,Zhang Xue2(1.Ocean University of China,Faculty of Information Science and Engineering,Qingdao,Shandong 266404,China;2.Wuhan University,School of Information Management Wuhan University)Abstract:As a research hotspot in the field of compute

5、r vision in recent years,the behavior recognition technology used in Chinamainly relies on the video and images captured by cameras for relevant visual processing such as classification,recognition andtarget detection.In order to reduce the consumption of behavior recognition and protect user privac

6、y,a behavior recognitiontechnology based on Doppler effect is proposed and implemented.The main technical process includes generating ultrasonic signal,audio conversion,noise reduction,continuous audio cutting,Fourier transform,and CNN classification and recognition.The accuracyof behavior recogniti

7、on can reach 96.32%.It has certain generalization performance and broad application prospects.Key words:ultrasonic wave;Doppler effect;convolutional neural network(CNN);behavior recognition收稿日期:2023-10-10作者简介:杨飏(2003-),女,浙江温州人,本科在读,主要研究方向:计算机科学与技术。162Computer Era No.12 2023谱分析,通过深度学习算法进行识别分类,整个过程不受光

8、线强度的干扰,对所需设备的要求不会太高,且在不使用摄像头等设备侵犯被测试者隐私的情况下对被测试者的状态进行识别和监督,算法所需能耗少、数据存储量小、运算速度快,特定情景下具有高效性能。1 基本原理1.1 多普勒效应多普勒效应产生于波源和观察者之间的相对运动,可以简单概括为当观察者接近发射源时,声波的波长缩短导致频率上升,当远离发射源时产生相反的效果,波长增大频率下降。假设波源以频率f发送正弦信号,观察者接收到的频率为f,多普勒效应如公式所示。f=()v v0v vsf其中,f为发射频率,f为接收到的频率,v为超声波在介质中的行进速度,v0是接收者相对于发射源的速度,接收者向发射源运动为正值,远

9、离取负;vs为发射源的移动速度,移向接收者取负,远离取正。1.2 短时傅里叶变换短时傅里叶变换,能够通过对信号加窗将时域分解为无数个等长的近似稳定的片段。短时傅里叶变换的表达式如公式所示,将窗函数h(x)位移到某一时间点t处与原始信号x(t)相乘就可以得到截取后的信号片段,再进行傅里叶变换就可以得到第一个片段序列的频谱分布STFT(t,f)。STFT(t,f)=-x()h(-t)e-j2fd1.3 窗函数简述非平稳信号的特征成分与平稳信号有很大的不同,其特征会随着时间的变化而变化。在对时域信号进行短时傅里叶变换时,我们只能在每个窗函数长度的范围内对原信号进行观察,也就是对时域信号进行加窗函数截

10、断。常用的窗函数有矩形窗、三角窗、汉宁窗、海明窗和高斯窗等,矩形窗和三角窗比较局限,对特征分析要求较高时一般选择汉宁窗或者海明窗。1.4 机器学习与深度学习机器学习是人工智能的一个子集,其任务是利用计算机程序从训练数据中提取一定的规律在未知的测试集上进行预测并输出测试结果。机器学习可以概括为从大量的数据集上学习出模型,也就是学习算法,在面对未知数据集时,这个模型会反馈出一定的判断,多次学习可以使模型更加完善,对于新数据的预测也会更加准确。深度学习作为人工智能领域的重要技术手段,它在人脸识别、自然语言处理、自动驾驶等领域被广泛应用4。与传统的机器学习将原始数据进行多次转换,之后输入到预测函数中得

11、到预测结果的过程不同,深度学习在分配权重时可以使嵌套的概念变得更具象。2 技术实现步骤本文技术实现部分的代码主要为 Python 语言,Python拥有功能十分齐全的标准库,可以很好地满足实验过程中各部分的实现需求。技术总体流程为超声波信号的生成、音频处理、傅里叶频谱的生成和架构模型及处理数据集。起初由电脑麦克风发射已生成的超声波信号,利用手机收集反射的音频,转换为固定格式并去除噪声,根据振幅大于阈值部分的频偏程度进行音频切割,分出不同的动作频谱片段,利用短时傅里叶变换STFT将该信号由时域转为频域进行频谱成分的分析,最后由深度学习卷积神经网络进行动作的识别分类。程序流程图如图1所示,本章技术

12、实现的具体过程也会以图示顺序进行展开介绍。图1技术实现流程2.1 超声波信号的生成为了避免人类声音、环境中的嘈杂声等干扰声音的影响,进一步提高识别的准确性,上述预设超声波信号的信号频率不同于人类声音、环境中的嘈杂声等干扰声音的频率,具体的信号频率值可以根据实际情况调整、设置。在数字信号处理中,对声波信号的特性比较重要的参数有声道数、采样频率和采样字节长度等,采样字节长度设为2字节即16比特,可以使采样后的音频达到CD标准。2.2 音频处理为了便于进行信号处理,在收集一定数量的音频163计算机时代 2023年 第12期后,需要将信号进行格式的转换,将mp4格式的音频利用终端命令行ffmpeg命令

13、转换为wav格式。为了使下一步根据频偏进行音频切割的准确率进一步提升,在这个过程中我们将连续音频音频中的噪声部分抹除,这个过程需要用到Python自带的音频处理库Librosa。首先对连续音频进行快速傅里叶变换,产生复数数组。利用振幅数组进行傅里叶逆变换并保存滤波后的音频文件,重塑数组维度时只保留数据的实部并以Fortran顺序存储在内存中。图2展示了原始和降噪的傅里叶变换频域图像,可以看到高分贝的低频噪声已经被去除。接下来需要切割音频来尽量保证每一个完整的动作可以被划分到一帧中。标记所有动作片段的起始时间和结束时间,利用Python自带的Pydub库以毫秒为单位截取此段时间的音频。依此对原始

14、连续音频进行切割,分为动作帧和静止帧,便于后续进行深度学习。图3为连续音频切割频谱示意图,白色线条即为需要切割的地方,可以看到以0.5秒为单位切割可以达到不错的效果。图3 音频切割示意图2.3 傅里叶频谱的生成首先读出切割过后的wav文件,每个音频包含一个完整的动作片段。利用getparams()获取音频文件的相关参数。之后对数据进行短时傅里叶变换。由于本文中此技术采用汉宁窗作为窗函数,而 Signal 的stft函数参数Window默认即为hann,因此不必修改。我们处理的信号为正弦信号而非脉冲信号,为获得较高的频率分辨率我们选取汉宁窗长度 nperseg 为4096,零填充 fft 的长度

15、设为采样频率的一半,即24000,这样转换出的短时傅里叶频谱特征较明显,便于之后的深度卷积神经网络学习,同时返回采样频率序列、时间序列和stft序列。图4为几个不同动作的频谱图,可以看出特征有明显的不同。(a)起立动作(b)举手动作图2降噪前后对比164Computer Era No.12 2023(c)静止动作(d)晃动动作图4不同动作的傅里叶频谱2.4 架构模型及处理数据集根据以上技术结构和模型架构,用cnn卷积神经网络识别图像一般需要的步骤总结如下:卷积层初步提取特征;激活层将特征映射到高维非线性区间;池化层减少参数、提取主要特征;全连接层将各部分特征汇总;产生分类器,进行预测识别。本实

16、验在模型架构选择方面针对激活函数和池化方式的组合进行了比对。组合方式共有四种,分别为 ReLU+Max,Sigmoid+Max,ReLU+Average 以及Sigmoid+Average,我们可以看出,采用 ReLU+MaxPooling 能够在最短的轮次中提取到最有效的数据特征。图5不同组合准确率比较本文使用自定义的cnn网络模型对采集的数据集进行训练。相对于其他神经网络,卷积神经网络对于图片处理有着更好的表现,可以在原始像素点上人工抽取特征的同时极大的降低参数的数量,防止过拟合。本文所采用的神经网络模型架构如图6所示。图6CNN模型架构图利用PIL包的Image处理图片再通过Pytorc

17、h的数据迭代器 DataLoader 对上一步得到的 Dataset 进行shuffle以及mini-batch操作,将训练集和测试集划分成一个个小的数据集,便于后续进行训练和测试。最后定义自己的卷积神经网络cnn模型。本文采用四层卷积结构进行特征抽取,由于此技术针对频谱图象,因此使用nn.Conv2d二维卷积。网络设置完成后进行前向传播获得预测值,以便进行后续的反向传播参数更新过程。数据训练与测试:使用联想电脑和华为手机,让设备与测试者之间保持正常情况下的使用距离,测试环境为宿舍,一般情况下较为安静,存在的少量低频噪声对 20kHz 超声波的影响很小。由于此技术主要应用于使用私人电脑在安静环

18、境下的行为识别,因此我们没有在极端嘈杂的环境下收集数据集和测试集。实验共采集训练数据集975份,其中打瞌睡、打响指、静止、说话动作各100份,拍手动作125份,晃动、举手和起立动作各150份。每一轮训练过程如下:初始化模型。选择优化器以及优化算法,本文选择Adam优化器,学习率设为最常见的0.001,即1e3。选择损失函数,多分类任务通常选择交叉熵函数 CrossEntropyLoss(),因为图像分类过程中使用交叉熵损失函数可以提升模型的泛化性以及分类的准确率6。对每一个 batch 里的数据,将它们转成能被GPU计算的类型。进行梯度清零、前向传播、计算误差、反向传播、更新参数的操作。由于卷

19、积神经网络参数较多,且需要大量样本,此处device选择GPU而不是CPU。之后便进行测试,共采集测试样例300份,其中打响指、静止、拍手、说话动作各25份,打瞌睡、晃动、举手和起立动作各50份,将模型预测的标签与动作实际标签做比对,得出各动作准确率和总体测试准确率,以及画出训练损失率图165计算机时代 2023年 第12期像和混淆矩阵便于后续分析。经过测试,本技术模型准确率可达到96%以上,总准确率结果和各动作准确率结果如图7所示。训练50轮次和100轮次的损失率曲线图如图8所示。图7实验结果(a)50轮loss(b)100轮loss图850/100轮损失率折线图除了以上标准以外,泛化能力也

20、是神经网络常用的性能测试指标。泛化能力是指已建成的神经网络对于新样本的适应能力。我们将新收集的动作只放在测试集中而不放在训练集中,观察自定义的卷积神经网络是否能够将其识别为与之最相似的起立动作。结果表明测试准确率仍在95%以上,说明即使对于新收集的测试集,神经网络也可将其泛化为与之相似度最高的动作类别,证明实验所用的卷积神经网络具有良好的泛化性能。同时由于本网络采用的优化器为Adam,而Adam类优化器通常收敛速度很快,所以训练损失率可能会更低,但是泛化性能相对于SGD优化器而言比较差,所以如果追求泛化能力,可以将优化器换为SGD,此外正则化、Dropout等数据增强也可以为搜索最优解时增加随

21、机性,通过避免局部最优来提高神经网络的泛化性能。从以上结果分析可以看出,本技术对于正常测试环境下的行为识别准确率较高,并且具备一定的泛化能力。该结果证明,本文所展示的技术能够在环境允许的情况下实现较为精准的识别率。3 结束语人机交互的方式随着计算机技术的发展和用户需求的增加不断丰富,不再仅仅局限于计算机视觉等技术,基于声波的行为识别的优点逐渐被发现。本文在无接触的情境下设计并实现了一个基于多普勒效应的行为识别技术,测试者与预设的超声波信号进行无接触交互,对麦克风接收的连续音频进行音频切割和噪声去除,使用短时傅里叶变换算法提取信号特征并重点分析 19.9kHz20.1kHz区间内的频率特征,采用

22、基于卷积神经网络的深度学习技术实现对对行为动作的高效识别。实验表明,该技术的行为识别准确率达96.32%,可以实现在没有实时设备的情况下对一些基本行为的识别分类。与其他行为识别方法相比,利用超声波的行为识别技术所需要的存储空间小、运算速度快并且对环境不会产生污染。参考文献(References):1 史鑫.基于视觉的深度学习行为识别算法研究D.北京:北方工业大学,2021.2 朱杰.基于卷积神经网络的人体行为识别研究D,北京:北京邮电大学,2021.3 许丞.基于卷积神经网络的钢琴音频信号识别算法J.自动化与仪器仪表,2021(12):12-15.4 张晨光.基于超声波多普勒效应的手势识别研究

23、D.桂林:桂林理工大学,2021.5Bi-XiaoWu,Chen-GuangYang,Jun-PeiZhong.Research on Transfer Learningof Vision-basedGestureRecognitionJ.InternationalJournalofAutomationandComputing,2021,18(3):422-431.6 叶建龙,胡新海.基于卷积神经网络的图像识别算法研究J.安阳师范学院学报,2021(5):14-18.2 钟红,骆勇,石志强,等.便携式近红外光谱仪的僵蚕快速检验应用研究J.安徽医药,2022,26(12):2399-2402,2

24、548.3 张升盛.基于近红外光谱技术对中药水牛角质量控制的研究D.贵阳:贵州师范大学,2022.4 厉博文,石子薇,李菁,等.金银花药材与粉末近红外光谱特征的比较研究J.河北中医药学报,2022,37(4):37-40.5 周聪,王慧,杨健,等.基于高光谱成像技术的中药栀子产地识别J.中国中药杂志,2022,47(22):6027-6033.6 黄志伟,郭拓,黄文静,等.近红外光谱技术在名贵中药材质量评价中的研究进展J.中草药,2022,53(20):6328-6336.7 胡杨,李先芝,刘洋,等.近红外光谱技术在中药质量监控中的研究进展J.安徽农业科学,2022,50(1):8-11.(上接第161页)CECE166

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服