收藏 分销(赏)

基于改进VGG深度学习网络的道路交通车型音频识别方法.pdf

上传人:自信****多点 文档编号:576645 上传时间:2024-01-02 格式:PDF 页数:7 大小:1.39MB
下载 相关 举报
基于改进VGG深度学习网络的道路交通车型音频识别方法.pdf_第1页
第1页 / 共7页
基于改进VGG深度学习网络的道路交通车型音频识别方法.pdf_第2页
第2页 / 共7页
基于改进VGG深度学习网络的道路交通车型音频识别方法.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 年第 3 期No.3,2023广东技术师范大学学报Journal of Guangdong Polytechnic Normal University基于改进VGG深度学习网络的道路交通车型音频识别方法李锋1,叶霖2,徐伟1,林朝阳2(1.广东技术师范大学 汽车与交通工程学院,广东 广州 510665;2.广东技术师范大学 机电学院,广东 广州 510665)摘 要:道路交通流车辆类型识别是城市交通管理的重要基础工作.本文提出了一种基于车辆音频信号和改进 VGG 深度学习网络的道路交通车型识别方法.首先运用梅尔倒谱系数对车辆音频信号进行特征提取,然后结合留一交叉验证的方法,输入改进的

2、 VGG_11 网络模型进行训练,最后对训练结果进行检验,从而构建车型分类识别模型.实验结果显示:相比较于原模型,改进的 VGG_11 网络模型训练时长有较大的缩短,准确率也有一定程度的提升.车型识别准确率为 96.46%,其中对大型车的识别准确率可达到 94.35%,对小型车的识别准确率可达到 97.62%.以上结果表明所提方法具有较高的准确率,适用于道路交通流车型识别.关键词:车型识别;VGG 网络;梅尔倒谱系数;音频信号;深度学习中图分类号:TN912.3;TP183 文献标识码:A 文章编号:2096-7764(2023)03-0017-070 引言道路交通流检测是城市交通管理的重要基

3、础工作,车型分类识别作为主要检测内容之一,有助于交通流成分的研判与管理.目前主流的交通流车型分类识别方法是基于视频图像处理的方法,这类方法在光照条件良好的白天环境可达到较高的识别率.然而,基于视频图像的交通流车型识别方法容易受天气、光照强度等因素的干扰,视频检测中存在大量的冗余信息和错误数据,在占据大量的存储空间的同时也降低了数据分析的有效性和稳定性.为此,本文基于道路交通流中的车辆音频数据,探索采用深度学习实现对车辆类型识别的方法.由于基于车辆音频信号的车型识别具有成本低、信息处理运算速度快以及不易受外界因素干扰等优点1,国内外已开展了富有成效的研究.Kandpal 等2结合车辆声信号的快速

4、傅里叶变换(FFT)和时域波形并利用神经网络作为分类器进行车型识别.Borkar3-4分别使用梅尔频率倒谱系数(MFCC)和线性预测编码 LPC 提取声音信号的短期频谱包络特征,并利用 SVM 分类器对声音信号进行分类,实现了对车辆交通密度状态的估计.赵宏旭,杨文帅5将车辆声信号的短时能量 ENERGY 与梅尔倒谱系数进行特征融合并利用 SVM 分类器进行车型分类.马侠霖等6以车辆声信号的 1/3 倍频程作为特征数据并利用 SVM 分类器进行车型分类.综上所述,采用深度学习算法的车辆音频数据的分类识别研究仍不多见.本文根据车辆原始音频数据,探索基于 MFCC 特征提取结合改进的VGG深度学习网

5、络进行车型识别分类的方法.通过对车辆的音频文件进行数据预处理,用梅尔倒谱系数 MFCC 对声信号进行特征提取,然后输入改进的 VGG-11 卷积神经网络进行深度特征提取,最后通过 Softmax 分类器对音频进行分类(图 1).收稿日期:2022-12-04基金项目:博士点建设单位科研能力提升项目(22GPNUZDJS45);广州市科技计划项目(202102020314).作者简介:李 锋,博士,广东技术师范大学副教授.叶 霖,广东技术师范大学 2020 级硕士研究生.徐 伟,广东技术师范大学教授.林朝阳,广东技术师范大学 2020 级硕士研究生.李锋,等:基于改进VGG深度学习网络的道路交通

6、车型音频识别方法第 3 期1 车辆音频数据采集与预处理1.1 音频数据采集车辆音频数据采集方法:选用 Newsmy V19型录音笔以及 SONY FDR-AX45A 小型摄像机为车辆音频数据采集工具.运用录音笔收集车辆经过时的声音作为音频文件保存,保存的格式为wav,采样率为 44.1kHz;同时运用小型摄像机同步的进行车辆录制,与录音笔收集的音频数据进行一对一的匹配,为后期车型分类提供依据.运用深度学习网络进行训练时,数据集本身的质量及样本量会对结果产生一定影响.首先,在保证所采集音频数据的质量方面:选取广州市白云区环镇北路以及环镇西路为测试路段进行车辆音频数据的采集,采集时间为白天,天气晴

7、朗,路况良好,道路为沥青混凝土路面,其两边为低矮树木,周围无建筑物,不受其他明显噪声源的影响.为保证车辆经过时的声音能被最大 限 度 地 捕 捉 到,所 采 集 的 车 辆 速 度 均 达 到80km/h 及以上.所采集的音频数据样本仅限于单一车道,避免车辆并列行驶、超车以及其他复杂路况.其次,在音频数据的样本量方面:共采集了 411 辆有效数据样本,其中小型车 263 辆,大型车 148 辆.样本量相对较少,后文通过对其进行多次随机排序形成多组训练集和测试集,并结合留一交叉验证的方法,充分利用样本信息,提高鲁棒性,使预测结果稳定且真实.1.2 音频信号 MFCC 特征提取采 用 梅 尔 倒

8、谱 系 数(MFCC)对 车 辆 的 音 频信号进行特征提取.MFCC 是在语音识别方面典型的一种特征提取方法.MFCC 特征提取过程如图 2 所示.(1)预加重、分帧、加窗.对音频信号的高频部分进行加重,加强其高频部分与低频部分相连的信息表达,有利于提高音频信号的特征信息,预加重系统函数如公式(1)所示.音频信号属于时变非稳态的信号,分帧目的就是将较短的单帧作为稳态信号进行处理,短时间内认为音频信号的特征处于不变状态.由于分帧操作容易造成音频信号特征的丢失,可在帧与帧之间可以引入窗函数防止信息丢失,并使分帧后的帧与帧之间的过渡变得平稳.本文采用汉明窗,如式(2)所示.S(n)=S(n)-aS

9、(n-1)(1)其中,a为预加重系数;S(n)为n时刻的声音采样值,S(n)为预加重后的结果.w(n)=0.54-0.46cos 2/(n-1)0 n N-10 n=其他值(2)其中,w(n)为汉明窗口函数;N为 FFT 点数.输入音频信号x(n)经过预加重、分帧、加窗预处理后被转化为:g(n)=x(n)w(n)(3)其中,g(n)代表加窗后的时域信号;x(n)表示分帧后信号;w(n)为汉明窗口函数.(2)快速傅里叶变换(FFT).在时域上难以观察音频信号的特性,因此运用快速傅里叶变换将音频的时域信号转换为频域上的能量进行分析,不同的能量分布有着不同的声音特性.音频的时域信号g(n)通过快速傅

10、里叶变换为频域信号G(k)公式为:G(k)=n=0N-1g(n)e-j2Nnk,0 k N(4)其中,N为 FFT 点数;G(k)表示频域信号;g(n)代表时域信号;n代表帧数;k代表采样频率.计算能量谱.将频域信号G(k)转换为复数形式,然后进行取模平方运算,得到能量谱,其计算公式为:E(k)=1N|G(k)|2(5)其中,E(k)表示能量谱;G(k)表示频域信号;N为FFT 点数.(3)梅 尔 滤 波 器.将 上 一 步 所 得 的 能 量 谱通过梅尔滤波器得到梅尔频谱.梅尔滤波器的频率响应Hm(k)如公式(6)所示,其中m=0M-1Hm(k)=1:图 1车型音频识别算法框架示意图图 2M

11、FCC 特征提取过程Hm(k)=0 ,k f(m-1)2(k-f(m-1)(f(m+1)-f(m-1)(f(m)-f(m-1),f(m-1)k f(m)2(f(m+1)-k)(f(m+1)-f(m-1)(f(m)-f(m-1),f(m)k f(m-1)0 ,k f(m+1)(6)其中,Hm(k)代表所述梅尔滤波器的频率响应;m表示梅尔滤波器的数量;k代表采样频率;f()代表第m个滤波器的中心频率.(4)取对数.对音频信号的每帧梅尔频谱取对数得到对数梅尔频谱,该频谱包含了音频信号的时间、频率以及灰度图幅度信息内容.每一帧的能量谱E(k)与之对应频率响应Hm(k)相乘叠加最后取对数得到对应的对数能

12、量S(m),公式为:S(m)=ln(k=0N-1E(k)Hm(k)(7)其 中,S(m)代 表 对 数 梅 尔 频 谱;E(k)代 表 能 量谱;Hm(k)代表所述梅尔滤波器的频率响应;k代表采样频率;m为 FFT 点数.(5)离散余弦变换(DCT).将上一步所得的对 数 梅 尔 频 谱 特 征 进 行 离 散 余 弦 变 换 得 到MFCC 特征7.具体变换过程如公式(8)所示,其中c(m)是指第 m 维的音频信号特征:c(m)=2mn=1MS(m)cos(m(n-0.5)M),1 m L(8)其中,c(m)代表离散余弦变换后得到的目标数据;L为阶数;m为滤波器组数;m=1,2,3,4,.M

13、;S(m)代表对数梅尔频谱.本文对采集的音频数据首先进行裁剪,去掉音频中静音部分,并使每段音频的长度保持一致都为 2.04s;然后提取每段音频的 MFCC 特征,帧 长 为 2048,帧 移 为 256,阶 数 为 40,得 到 40*128 的 MFCC 特征矩阵.1.3 留一交叉验证K 折交叉验证是指将训练集分割成 k 个互斥的子集,将(k-1)个子集作为训练集,剩下的 1个子集为测试集,这样就有 k 组训练集和测试集;迭代训练一次可获得 k 个训练集的准确率,取其平均值作为测试集准确率.当 k=n 时(n 为训练集的样本数),称为留一交叉验证.留一交叉验证能最大化地利用样本信息,并在样本

14、数量不多的情况下,使网络模型训练得到的准确率尽可能接近真实值,提高模型的鲁棒性.由于实验采集的音频数据样本较少,在将数据样本划分为训练集和测试集的时候,模型对训练集的数据极为敏感,如果仅选择一组训练集和测试集,可能导致模型训练得到的准确率偏离真实值,泛化能力不强.因此将数据样本随机划分为多组训练集和测试集,并对每组训练集训练的时候引入留一交叉验证8-9,测试集准确率结果取平均值,以提高模型的泛化能力.本文在粗分车型识别时,对音频数据进行 6 次随机排序形成六组,在训练时对训练集再进行留一交叉验证.分组示意图(见图 3).2 改进的 VGG-11 卷积神经网络模型2.1 VGG-11 网络结构V

15、GG10是由牛津大学的视觉几何组(Visual Geometry Group)在 2014 年的 Image Net 大赛中提出的一个深度卷积神经网络.VGG 网络全部采 用 3*3 的 卷 积 核 以 及 2*2 的 池 化 层,构 建 了1119 层的卷积神经网络,通过加深网络结构提升其性能.VGG-11 总共有 11 层,由 8 个卷积层、3 个全连 接 层 组 成 的.首 先 经 过 64 个 卷 积 核 进 行 卷积,后接最大池化层降维;再经过 128 个卷积核卷积,采用最大池化层降维;再经过 256 个卷积核卷积两次,后接最大池化层降维;再经过 512个卷积核卷积两次后连接最大池化

16、层降维,并重复两次;最后经过 3 个全连接层实现类别分类.所用卷积核大小为 3x3,步长为 1,最大池化图 3随机分组交叉验证示意图18第 3 期李锋,等:基于改进VGG深度学习网络的道路交通车型音频识别方法Hm(k)=0 ,k f(m-1)2(k-f(m-1)(f(m+1)-f(m-1)(f(m)-f(m-1),f(m-1)k f(m)2(f(m+1)-k)(f(m+1)-f(m-1)(f(m)-f(m-1),f(m)k f(m-1)0 ,k f(m+1)(6)其中,Hm(k)代表所述梅尔滤波器的频率响应;m表示梅尔滤波器的数量;k代表采样频率;f()代表第m个滤波器的中心频率.(4)取对数

17、.对音频信号的每帧梅尔频谱取对数得到对数梅尔频谱,该频谱包含了音频信号的时间、频率以及灰度图幅度信息内容.每一帧的能量谱E(k)与之对应频率响应Hm(k)相乘叠加最后取对数得到对应的对数能量S(m),公式为:S(m)=ln(k=0N-1E(k)Hm(k)(7)其 中,S(m)代 表 对 数 梅 尔 频 谱;E(k)代 表 能 量谱;Hm(k)代表所述梅尔滤波器的频率响应;k代表采样频率;m为 FFT 点数.(5)离散余弦变换(DCT).将上一步所得的对 数 梅 尔 频 谱 特 征 进 行 离 散 余 弦 变 换 得 到MFCC 特征7.具体变换过程如公式(8)所示,其中c(m)是指第 m 维的

18、音频信号特征:c(m)=2mn=1MS(m)cos(m(n-0.5)M),1 m L(8)其中,c(m)代表离散余弦变换后得到的目标数据;L为阶数;m为滤波器组数;m=1,2,3,4,.M;S(m)代表对数梅尔频谱.本文对采集的音频数据首先进行裁剪,去掉音频中静音部分,并使每段音频的长度保持一致都为 2.04s;然后提取每段音频的 MFCC 特征,帧 长 为 2048,帧 移 为 256,阶 数 为 40,得 到 40*128 的 MFCC 特征矩阵.1.3 留一交叉验证K 折交叉验证是指将训练集分割成 k 个互斥的子集,将(k-1)个子集作为训练集,剩下的 1个子集为测试集,这样就有 k 组

19、训练集和测试集;迭代训练一次可获得 k 个训练集的准确率,取其平均值作为测试集准确率.当 k=n 时(n 为训练集的样本数),称为留一交叉验证.留一交叉验证能最大化地利用样本信息,并在样本数量不多的情况下,使网络模型训练得到的准确率尽可能接近真实值,提高模型的鲁棒性.由于实验采集的音频数据样本较少,在将数据样本划分为训练集和测试集的时候,模型对训练集的数据极为敏感,如果仅选择一组训练集和测试集,可能导致模型训练得到的准确率偏离真实值,泛化能力不强.因此将数据样本随机划分为多组训练集和测试集,并对每组训练集训练的时候引入留一交叉验证8-9,测试集准确率结果取平均值,以提高模型的泛化能力.本文在粗

20、分车型识别时,对音频数据进行 6 次随机排序形成六组,在训练时对训练集再进行留一交叉验证.分组示意图(见图 3).2 改进的 VGG-11 卷积神经网络模型2.1 VGG-11 网络结构VGG10是由牛津大学的视觉几何组(Visual Geometry Group)在 2014 年的 Image Net 大赛中提出的一个深度卷积神经网络.VGG 网络全部采 用 3*3 的 卷 积 核 以 及 2*2 的 池 化 层,构 建 了1119 层的卷积神经网络,通过加深网络结构提升其性能.VGG-11 总共有 11 层,由 8 个卷积层、3 个全连 接 层 组 成 的.首 先 经 过 64 个 卷 积

21、 核 进 行 卷积,后接最大池化层降维;再经过 128 个卷积核卷积,采用最大池化层降维;再经过 256 个卷积核卷积两次,后接最大池化层降维;再经过 512个卷积核卷积两次后连接最大池化层降维,并重复两次;最后经过 3 个全连接层实现类别分类.所用卷积核大小为 3x3,步长为 1,最大池化图 3随机分组交叉验证示意图19李锋,等:基于改进VGG深度学习网络的道路交通车型音频识别方法第 3 期层步长为 1,窗口为 2x2.其网络结构(见图 4).2.2 改进的 VGG-11 网络结构为适应车辆的音频识别,本文在 VGG-11 网络模型的基础上进行了改进,其网络结构如图 5所示.改进的网络结构由

22、 9 个卷积层、1 个全局平均池化层和 1 个全连接层组成;首先经过 16个卷积核进行卷积两次,卷积核大小为 5x5,再连接一个 BN 归一化层(Batch Normalization)进行归一化处理,并使用 Relu 激活函数,后连接最大池化层降维;再经过 32 个卷积核卷积一次,连接一个 BN 归一化层以及最大池化层降维;再经过 64 个卷积核卷积两次,后接一个 BN 归一化层以及最大池化层降维;再经过 128 个卷积核卷积两次后连接 BN 归一化层以及最大池化层,并重复两次;最后连接 1 个全局平均池化层、1 个展平层以及 1 个全连接层实现类别分类.2.3 VGG-11 网络的改进策略

23、第一是卷积层、卷积核数量的改变:由于数据样本规模的制约,中小规模的数据集样本运用于深度学习网络模型容易产生过拟合现象,影响模型的鲁棒性.改进 VGG 网络的卷积核数由原来的 64、128、256、512 改为 16、32、64、128的目的是针对减小特征尺寸,降低参数量.在原VGG-11 模型卷积层 1 的基础上增叠加一个卷积层并使用 5*5 的卷积核,后面卷积层依旧使用3*3 的卷积核的目的是降低 VGG 网络模型的复杂度,在减小该网络的参数量的同时保持该模型的特征提取能力.第二是在原有网络上连接了 BN 层:连接 BN层的主要思想是通过在数值层面添加零均值、单位方差的共轭分布,来解决中间协

24、变量偏移问题(internal covariate shift)11.在训练时由于网络参数的变化,导致网络激活层的分布发生变化,从而影响训练的效果.BN 归一化通过在训练每一个小批量样例时对激活层之前的输入input 进行归一化,归一化到零均值和单位方差,以使整个网络层的数据分布相对统一,从而达到加快模型训练速度、提高模型准确率以及降低过拟合风险等作用.第三是全局平均池化层的使用:由于 VGG网络的大部分参数都被全连接层所占用,容易导致过拟合,用全局平均池化层替换 2 个全连接层可以极大的减小该网络的参数量,减轻过拟合的发生.全局平均池化层后接一个展平层,作用是将全局平池化层的三维输出进行一维

25、化,以适应后面全连接层的输入进行分类.改进的VGG-11 网 络 模 型 参 数 从 132863336 降 低 到670440,网络模型各层参数图 6 所示.图 4VGG-11 网络结构图 5改进的 VGG-11 网络结构20第 3 期李锋,等:基于改进VGG深度学习网络的道路交通车型音频识别方法3 实验与分析3.1 实验环境及参数选择实验环境所采用的处理器为 Intel(R)Core(TM)i5-6300HQ CPU 2.30GHz,内 存 为8.00GB,编程语言为 Python3.8,使用的深度学习网络框架为 PaddlePaddle.SGD、SGDM、AdaGrad、RMSprop

26、和 Adam 是目前使用最多的几种深度学习优化器.本网络模 型 所 选 用 的 优 化 器 是 Adam 优 化 器,动 量 为0.9,训练的最小批次 MiniBathsSize 为 36;Adam结合了 SGDM 和 RMSprop 的优点,该算法采用了自适应学习率以及动量机制,目的是防止局部极小值对优化过程造成影响,通过较少的迭代次数获取最优的全局.通常情况下学习率为固定值,学习率的取值会对网络性能产生一定程度的影响,取值过小或者过大都能影响网络模型训练时间长短以及网络模型训练结果准确率.如果在训练过程中对学习率进行一定范围内的调整,就能同时兼顾网络模型训练时长以及训练结果准确率.本网络模

27、型根据使用不同学习率进行多次实验,最终选取的学习率为 0.0001.由于训练样本少或者训练迭代次数过多等因素,神经网络模型学习过于精确,甚至将训练集中的样本噪声也进行了训练.参数越多,导致模型的复杂性不断增加,进而发生过拟合现象.所谓的过拟合现象,就是网络模型对于训练集的表现性能优越,但是在测试集上的表现性能却很差.正则化技术能有效的预防过拟合现象的发生,提高网络模型的泛化性能.在深度学习中,L2 正则化是较为常用的一种正则化技术.本网络模型选取 L2 正则化系数为 0.001.3.2 实验结果及分析小型车样本量为 263 辆,包含的具体车型主要有轿车、SUV、小型面包车;大型车的样本量为 1

28、48 辆,包含的具体车型为载货车.将小型车和大型车的音频数据按照 6:4 的比例进行随机划分,划分成训练集和测试集,具体数据划分如表 1 所示;为了更好的说明模型的泛化能力,对音频数据重复进行 6 次随机划分,形成 6 组数据K1-K6.每组均包含 247 个训练样本和 164 个测试样本.进行训练时,对训练样本进行留一交叉验证,迭代训练 20 次,将所得的模型对测试样本进行测试.运用不同深度的 VGG 网络模型以及改进的图 6VGG-11 与改进的 VGG-11 网络各层参数对比21李锋,等:基于改进VGG深度学习网络的道路交通车型音频识别方法第 3 期VGG 网络模型进行对比试验.对各组数

29、据训练所得到的测试集的准确率如表 2 所示,对于不同组的数据,传统的 VGG 网络模型得到的测试集准确率时高时低,并不稳定,VGG-11 平均识别 准 确 率 为 94.12%,VGG-13 平 均 识 别 准 确 率为 95.21%,VGG-16 平均识别准确率为 94.27%,VGG-19 平均识别准确率为 93.13%.其中 VGG-13 相比较于其他层数的 VGG 网络模型,其车型识别平均准确率最高;改进的 VGG 网络结构模型得到的测试集准确率较为稳定且有一定程度的提升,平均识别准确率为 96.46%.不同网络模型的平均训练时间如表 3 所示,随着 VGG 层数的增加,训练时长也增多

30、,传统的VGG 网络模型中:VGG-11 网络的平均训练时长最短,为 702s;VGG-19 网络的平均训练时长最长,达 到 1548s.改 进 的 VGG-11 网 络 的 平 均 训练时长相比较于传统 VGG 网络模型有了很大的提升,时长仅为 356s.改进的 VGG-11 网络模型在训练时长缩短的情况下,准确率能有一定的提升,能很好的适用于车型的音频识别分类.采用混淆矩阵可以更直观地查看不同车型的识别准确率,其改进 VGG 网络的混淆矩阵如图 7 所示,横坐标表示各车型的预测标签,纵坐标表示各车型的实际标签.第 a 行 b 列表示 a 类车型被识别 b 类车型的准确率.对混淆矩阵图进行分

31、析,大型车的识别准确率 为 94.35%,小 型 车 的 识 别 准 确 率 为 97.62%.对识别错误的车型进行分析,大型车被识别为小型车的一部分原因是在用录音笔进行录音时距离车辆较远,没能有效的进行录音.一部分小型车被错误识别为大型车的一部分原因是对向刚好有大型车辆驶过,从而被误识别为大型车.4 结语本文针对道路交通流车辆类型识别,提出基于车辆音频信号特征提取并结合深度学习的方法,主要创新点如下:(1)设计了可用于车辆音频识别的卷积神经网络模型.改进的 VGG_11 卷积神经网络模型与原网络模型相比,识别准确率有一定的提升,同时提高了运算速度,节省了运算空间,可以有效的进行车型识别分类.

32、(2)运用留一交叉验证的方法,提高训练样表 1数据划分训练集测试集总计小型车158105263大型车8959148总计247164411表 2测试集准确率对比K1K2K3K4K5K6平均值VGG-110.93750.89740.96250.96250.95000.93750.9412VGG-130.95000.981250.95620.931250.95630.93750.9521VGG-160.91250.95630.95630.95000.91880.96250.9427VGG-190.93130.95630.90000.96250.90630.93130.9313改进的VGG-11网络0

33、.96880.97500.95630.96250.96880.95630.9646图 7改进 VGG 网络的混淆矩阵图表 3训练时间对比K1K2K3K4K5K6训练时间平均值/sVGG-11710685706694721695702VGG-13103110221030103210039891018VGG-161336127813051295128612711295VGG-191557153515411547156315441548改进的VGG-11网络35334032933442335735622第 3 期李锋,等:基于改进VGG深度学习网络的道路交通车型音频识别方法本信息的利用率,使网络模型

34、训练得到的准确率尽可能接近真实值,提高模型的鲁棒性.在理想的道路环境条件下,本文车型识别准确率高,但现阶段研究仍未涉及到复杂道路场景,在后续的研究中需进一步考虑环境、车况等因素,以拓宽该方法的适用范围.参考文献:1 Mgaya R H,Zein-Sabatto S,Shirkhodaie A,et al.Vehicle identifications using acoustic sensingC/Southeastcon,IEEE.IEEE,2007.2 Kandpal M,Kakar V K,Verma G.Classification of ground vehicles using a

35、coustic signal processing and neural network classifierC/2013.3 Borkar P.Acoustic Signal based Traffic Density State Estimation using Adaptive Neuro-Fuzzy ClassifierC/IEEE International Conference on Fuzzy Systems.IEEE,2013.4 Borkar P,Malik L G.Cumulative Acoustic Signal Based Traffic Density State

36、Estimation.IEEE,2013.5 赵宏旭,杨文帅.基于短时能量和梅尔倒谱系数的车型音频识别J.科学技术与工程,2018,18(18):5.6 马侠霖,蔡铭,丁建立,等.基于频谱分析与支持向 量 机 的 车 型 音 频 识 别 研 究 J.应 用 声 学,2014(4):6.7 Hossan M A,Memon S,Gregory M A.A novel approach for MFCC feature extractionC/International Conference on Signal Processing&Communication Systems.IEEE,2010.

37、8 周志华.机器学习M.北京:清华大学出版社,2016:93-93.9 张钧博,何川,严健,吴枋胤,蒙伟.基于交叉验证的 XGBoost 算法在岩爆烈度分级预测中的适用性探讨J.隧道建设(中英文),2020(S01):7.10 Simonyan K,Zisserman A.Very Deep Convolutional Networks for Large-Scale Image RecognitionJ.arXiv,2014.11 Ioffe S,Szegedy C.Batch Normalization:Accelerating Deep Network Training by Reduc

38、ing Internal Covariate ShiftJ.JMLR.org,2015.责任编辑:张敬斌Acoustic Recognition Method of Road Vehicle Types Based on Improved VGG Deep Learning NetworkLI Feng1,YE Lin2,XU Wei1,LIN Zhao-yang2(1.School of Automobile and Transportation Engineering,Guangdong Polytechnic Normal University,Guangzhou Guangdong 5

39、10665;2.School of Mechatronic Engineering,Guangdong Polytechnic Normal University,Guangzhou Guangdong 510665)Abstract:Vehicle type recognition for road traffic flow is an important basic work for urban traffic management.This paper proposes a road traffic vehicle type recognition method based on veh

40、icle audio signals and an improved VGG deep learning network.Firstly,the Mel-frequency cepstral coefficients are used to extract the features of vehicle audio signals.Then,the improved VGG_11 network model is input for training in combination with the leave-one-out cross-validation method.Finally,th

41、e training results are checked to construct the vehicle model classification recognition model.The experimental results show that compared with the original model,the training time of the improved VGG_11 network model has been shortened considerably with the accuracy being improved to a certain exte

42、nt.The accuracy of vehicle model recognition is 96.46%,94.35%for large vehicles and 97.62%for small vehicles.The above results show that the proposed method has a high accuracy and is applicable to the vehicle type recognition for road traffic flow.Key words:vehicle type recognition;VGG network;Mel-frequency cepstral coefficients;audio signals;deep learning23

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服