基于MobilenetV1的盲人盲道专用智能眼镜的设计.pdf

资源描述

1、物联网技术 2023年/第12期智能处理与应用Intelligent Processing and Application760 引言根据世卫组织的统计，2006 年中国的盲人大概有 500 万；到了 2010 年，这一数字攀升到了 824.8 万；而在 2016 年，失明者更是增加到了 1 731 万；截至 2021 年底，我国盲人数量达 1 730 万，占世界盲人总数的 18%。盲人群体的生存状况是我国政府和社会长期关注的焦点。中国盲人协会官方网站发布数据显示，我国目前现有的盲人数量居世界第一，是不可忽视的残疾人群体。2017 年，山东建筑大学对省内 65 个公共场所的调查发现，有 4

2、6%的盲道被占用1；同年，石家庄的一份调查显示：盲道被占率约为 11%2；2018 年一份对宁波市 79 个社区的调查发现，在危险地段设置警示性、提示性盲道的合格率仅为12%，合格率甚至低于商场3。由于城市建设规范对自行车、电瓶车的停放考虑欠佳，导致人行道被大量车辆占用，设置在人行道上的盲道也被殃及。这并不是“少数人素质低下乱停乱放”的问题，这一问题在全国都很常见。盲人出行除了在盲道方面遇到很多问题外，在辅助盲人出行工具这一方面也存在诸多困难。帮助盲人出行的方式通常有三种：导盲犬、盲杖和智能导盲装置4。导盲犬数量极少，在盲人群体中拥有者并不普遍；盲杖由于检测路面范围不全面，在使用过程中会遇到对

3、前方障碍物认知不清、无法察觉悬空的障碍物等问题；现存的智能导盲设备大多分为超声波导盲设备、红外导盲设备、引导式导盲设备。在使用超声波导盲设备时，超声波在途中会被反射或吸收，导致采集的信息不完整、检测出现盲区等；红外导盲设备在室外时太阳光会对红外线造成影响，导致测距出现一定程度的误差；导盲机器人存在开发成本高和不易携带维护等缺点，因此无法进行大范围推广应用。如今，随着计算机视觉技术的发展与深度学习在图像识别与检测领域的广泛应用，机器能够自动从大量图像数据中提取图像或对应物体的特征进行识别与判断，达到了极高的准确率。例如，基于深度学习的目标检测算法利用 AlexNet5、VGG6、GooleNet

4、7、ResNet8及 ResNext9等卷积神经网络10作为提取图像特征的主干网络，实现了高精确率的检测模型。基于深度学习的目标检测从早期最具代表性的Fast-RCNN11、SPP-Net12、Faster-RCNN13等到近三年的SNIPER14、NAS-FPN15等检测算法，多以高表征能力的CNN（Convolutional Neural Network,CNN）为主干网络实现了较高的检测精度。因此可将计算机视觉技术与硬件结合，应用于导盲设备中。为了让盲人出行更加便捷，更加安全，本项目设计了一款能够完整采集信息，不易受环境影响，可察觉前方障碍物种类，且易携带的盲人专用智

5、能眼镜，借助图像分类与超声波测距等技术，赋予盲人一双“慧眼”。开发的计算机视觉基于 MobilenetV1 的盲人盲道专用智能眼镜的设计马再蓉1，楼旭锋1，吴茂念1,2，郑博1,2（1.湖州师范学院信息工程学院，浙江湖州 313000；2.浙江省现代农业资源智慧管理与应用研究重点实验室，浙江湖州 313000）摘要：针对视力障碍人士在盲道行走时无法有效预判前方障碍物的问题，设计了此款智能眼镜。该智能眼镜以 V831 开发板为控制核心，综合超声波导盲和引导式导盲方法，将微处理器、图像采集模块及测距传感器安装在眼镜架上，采用摄像头检测前方盲道路况，并使用 MobilenetV1 模型识别

6、障碍物种类，通过超声波测距传感器检测距前方障碍物的距离；一定距离内检测到障碍物时会播报相应语音提醒使用者，引导其避障以便安全出行。在真实环境中对该智能眼镜进行试验。结果表明，该眼镜实现障碍物分类功能、语音播报功能和与障碍物间距离测量功能的成功率分别约为 89.75%、96.75%和 96.5%。其中，对“石墩”这一障碍物类别的识别成功率最高，约为96.67%。关键词：智能眼镜；图像识别；深度学习；V831 开发板；语音模块；Python中图分类号：TP391 文献标识码：A 文章编号：2095-1302（2023）12-0076-05DOI：10.16667/j.issn.2095-1302.

7、2023.12.020收稿日期：2023-02-08 修回日期：2023-03-24基金项目：国家自然科学青年基金项目（61906066）；2021年国家级大学生创新创业训练计划项目（202110347031）；2022年浙江省大学生科技创新活动计划暨新苗人才计划（2022R431A017）2023年/第12期物联网技术智能处理与应用Intelligent Processing and Application77技术与深度学习算法相结合的盲人专用智能眼镜，综合超声波导盲和引导式导盲方式，将微处理器安装在眼镜架上，通过超声波与云端相配合对数据进行处理。在盲道上行走遇到障碍物时该智能眼镜会发出声

8、音提醒盲人，引导盲人，帮助盲人在盲道上安全行走。1 系统总体设计本项目的控制系统以 V831 开发板为核心控制器（以下称 V831 开发板核心控制器为主控），数据处理中心（ESP-32开发板）将超声波测距模块采集的信息经处理后传输至主控，摄像头模块采集的数据经图像识别模块分类后，将分类结果传输至主控，主控将得到的数据进行整理，根据所得结果控制语音模块的播报信息。系统总框图如图 1 所示。图 1 智能眼镜控制系统总框图系统主要包括基于深度学习算法的图像识别模块、超声波测距模块和语音模块，系统整体应用流程如图 2 所示。打开开关为设备通电，系统启动后进行模型加载，模型加载完成后超声波模块和摄像头模

9、块开始采集数据。通过对摄像头采集的盲人在盲道上行走时所获取的图像信息与超声波测距模块采集的当前设备与前方路面的距离信息进行同步分析，判断所得数据是否在设定的正常范围内，若数据异常表明前方遇到障碍物，系统将获取图像识别模块检测的障碍物种类、超声波测距模块检测的当前位置与障碍物间的距离数据，将数据整理后语音播报给使用者，然后继续检测；若数据在正常值范围内，系统将不做提醒并继续检测。图 2 系统总体应用流程数据采集与传输本项目将 VR 眼镜作为基础结构，在此基础上放置所需模块及电路，并与电池连接，大体形状如图 3 所示。此款VR 眼镜长度为 172 mm、宽度为 89 mm、高度为 93 mm，完全

10、满足本项目模块对空间的需求。将摄像头模块放置于左眼位置处，将测距模块放置于右眼位置处；电池放在眼镜后部，减轻面部压力，如图 4 所示。图 3 智能眼镜模型图 4 智能眼镜电池放置位置本眼镜所用测距传感器为 A21 超声波传感器模块，其具备高精度、盲区小（盲区 0.03 m、探测量程 0.02 5 m）、双 FOV 探测角（水平角度 40 65，垂直角度60 80）、响应时间短、过滤同频干扰、体积小、安装适配性高、防尘防水、寿命长、可靠性高等优点；此传感器的双角度探测有不同等级可选，根据本眼镜应用情况，选取水平角度 25，垂直角度 40；不同身高、不同视角对于距离的测量准确度影响不大。具体测量

11、区域如图 5 所示。图 5 超声波传感器测量区域本眼镜采用的摄像头模块为与 V831 开发板配套的摄像头模块，该模块的摄像头具有 200 万像素的固定焦点图像传感器，所拍摄的图片分辨率为 1 6001 200，摄像头模块以每秒 20 帧的速度抓取图片，并传到主控，可以较真实且迅速地拍摄环境图片。数据传输流程如图 6 所示。一方面，超声波模块采集前方距离信息，ESP-32 开发板将超声波模块采集的数据加工处理后传给主控；另一方面，摄像头采集当前盲道情况的图像数据，后将图片传给主控。主控接收并处理数据得到结果，若遇到非正常结果，便根据当前情况对使用者进行语音播报提醒。图 6 数据传输流程2 基于深

12、度学习的盲道路况检测识别2.1 数据集构建基于数字图像处理技术对盲道路况进行识别分类这一课物联网技术 2023年/第12期智能处理与应用Intelligent Processing and Application78题在深度学习领域属于新型研究项目，采用的训练集和验证集是团队成员由以下方式获得：（1）团队成员实地拍摄；（2）在百度、谷歌、必应等大型网站上搜集下载，具体情况见表 1 所列。将每一类预留出 20%作为测试集，其余作为训练集。具体分类实例如图 7 所示。表 1 数据集详情类别网站下载/张实地拍摄/张共计/张石墩1 7783532 131墙581136717消防栓1 6804272

13、 107树2 7467953 541电线杆2 2075722 779电瓶车2 1028642 966汽车2 0409572 997总计13 1344 10417 238图 7 盲道图片分类部分示例2.2 盲道路况识别算法现在较为经典的深度学习模型是 VGG 和 ResNet。但这两种网络模型的参数量与计算量较大，效率较低，占用内存较大。为提升卷积层网络效率，研究人员在卷积层神经网络的基础上提出了轻量化卷积神经网络。本项目的分类模型采用基于 MobilenetV116的图像分类模型。MobilenetV1 模型是 Google 针对手机等嵌入式设备提出的一种轻量级深层神经网络，该模型的核心思想是

14、使用深度可分离卷积块（Depthwise Separable Convolution）。深度可分离卷积块是由深度可分离卷积和普通 1*1 卷积组成。其中，深度可分离卷积的卷积核一般为 3*3，通常用于特征提取，而普通 1*1 卷积可以完成通道数调整。使用深度可分离卷积块的目的是使用更少的参数来代替普通的 3*3 卷积。深度可分离卷积块如图 8 所示。MobilenetV1 网络结构见表 2 所列。图 8 深度可分离卷积块表 2 MobilenetV1 网络结构类型/步距卷积核输入大小Conv/s23*3*3*32224*224*3Conv dw/s13*3*32 dw112*112*32Con

15、v/s11*1*32*64112*112*32Conv dw/s23*3*64 dw112*112*64Conv/s11*1*64*12856*56*64Conv dw/s13*3*128 dw56*56*128Conv/s11*1*128*25656*56*128Conv dw/s23*3*128 dw56*56*128Conv/s11*1*128*25628*28*128Conv dw/s13*3*256 dw28*28*256Conv/s11*1*256*25628*28*256Conv dw/s23*3*256 dw28*28*256Conv/s11*1*256*51214*14*25

16、6Conv dw/s13*3*512 dw14*14*512Conv/s11*1*512*51214*14*512Conv dw/s23*3*512 dw14*14*512Conv/s11*1*512*1 0247*7*512Conv dw/s23*3*1 024 dw7*7*1 024Conv/s11*1*1 024*1 0247*7*1 024Avg Pool/s1Pool 7*77*7*1 024FC/s11 024*1 0001*1*1 024Softmax/s1Classifer1*1*1 000运用现有的数据集，训练并使用分类模型，将在盲道上所遇障碍物分为石墩、墙、消防栓、树、杆、

17、电瓶车、车七类，当所遇环境检测出为以上七类的其中一种，并且概率大于 35%时，就认为其所遇障碍物为该障碍物；但当其所遇环境被分类为以上七种的其中一种，但概率低于 35%，则认为该环境为正常盲道。运用训练好的模型对测试集进行测试：2023年/第12期物联网技术智能处理与应用Intelligent Processing and Application79盲道识别算法先读取测试集图片，然后依次对图片进行检测，并输出障碍物具体种类。共测试 10 组，每组 340 张图片，检测结果正确率约为 95.02%。表 3 所列为部分测试结果的分析记录。表 3 模型测试结果组别种类样本数量正确检测数量检测正

18、确率/%1石墩434196.20墙141390.66消防栓424197.62树716895.77杆565598.96电瓶车595897.77车605998.432石墩434093.85墙141283.68消防栓423992.55树716794.61杆565598.96电瓶车595694.40车605896.76通过对分类错误的图片进行分析，发现分类错误的图片主要分为两种：一种是图片内包含要素过多，另一种是图片内要素展露不充分。图片检测失败的原因主要是图片内容影响图片信息的读取，由此得出，盲道路况识别算法在障碍物较少且展露充分的情况下识别稳定并且准确率较高；但在障碍物种类较多和障碍物展露不充分的

19、情况下，系统识别正确率下降，偏差数值范围为 0.1%0.9%。通过以上评估，认为此算法已经具备一定的盲道路况障碍物识别能力。在模型训练完成后，生成 onnx 深度学习网络文件。调用onnx2ncnn转换工具，将生成的onnx模型转换为ncnn模型。同时，为使得生成的 ncnn 模型可以被 V831 开发板直接使用，将该模型量化，转换成 V831 开发板可直接使用的 awnn 模型，模型转化、移植完成且经过调试后，即可使用。本项目在深度学习图像识别算法选择上，尝试了多种经典的通用图像识别算法，首先在运算服务器端对比测试了不同模型的处理识别速度，最终将效果优良且轻量级的 Mobilenet 模型移

20、植入嵌入式设备。实践结果见表 4 所列。通过对实践结果的分析，可以得知：传统的 VGG、ResNet 算法模型精度优良但模型参数量过大，在嵌入式设备或移动设备上使用效果较差，MobilenetV1 模型效果优良且参数量较少，在嵌入式设备上应用效果极佳。因此本项目采用了目前在图像分类领域较为常用及轻量级，同时针对嵌入式设备开发的 MobilenetV1 网络模型。表 4 3 个模型结果对比算法模型模型参数量模型大小Val_Loss各类别分类精确度总精确度石墩墙消防栓树杆电瓶车车VGG138，357，544526 MB0.013899.32%99.75%99.34%98.56%98.95%99.4

21、7%99.68%99.30%ResNet25，636，712103 MB0.03299.28%99.67%99.38%98.34%99.16%99.44%99.52%99.26%MobilenetV14，253，86412 833 KB0.072299.25%99.64%99.13%98.28%98.84%99.35%99.49%99.14%3 测试结果本设计经过电路实现后，进行了相应的模拟实验，将组装完成的眼镜（如图 9 所示）拿到实地现场做定量测试，选择多段直线盲道作为测试路段，路途设置静止障碍物，定义试验者初始位置到障碍物的距离为起始距离，实际停止位置与障碍物之间的距离为终止距离，以障碍

22、物处为起点，放置米尺。设定起始距离为 5 m，指引试验者沿盲道行走，通过记录扬声器播报障碍物种类及距离（即终止距离），并于设定障碍物种类及米尺上显示距离进行对比，若播报终止距离与实际终止距离的误差在实际终止距离的 5%（10%）范围内，即为测试成功；另外，将障碍物种类和与障碍物之间的距离数据在 V831 的屏幕中显示，若语音播报功能出现故障，则将直接记录 V831 屏幕中的数据，并将语音播报功能记为失败。多次重复试验后，所得结果见表 5 所列。图 9 智能眼镜实物试验结果表明，在实际测试中，本眼镜对“石墩”和“树”这两类障碍物识别效果较好，成功率分别约为 96.67%和 95%，对“杆”和“墙

23、”这两类障碍物识别效果较差，成功率分别约为 78.33%和 71.43%，识别效果较差的原因是由物联网技术 2023年/第12期智能处理与应用Intelligent Processing and Application80于模拟环境中使用的图片较为单一，而实际环境中，环境嘈杂、图片要素过多或光线过亮，曝光度过高导致识别效果较差；语音播报功能效果良好，成功率约为 96.75%；在与障碍物间的距离测量方面，误差小于 5%，成功率约为 93.75%，若误差小于 10%，成功率约为 99.25%，可以对距离进行较为准确地测量。表 5 眼镜试验测试结果测试功能成功次数/次失败次数/次共测试/次成功率障

24、碍物种类识别石墩5826096.67%树5736095%消防栓4534893.75%电瓶车6757293.06%车6577290.28%杆47136078.33%墙20102871.43%总体平均障碍物分类89.75%语音播报3871340096.75%与障碍物间距离测量5%误差范围内3752540093.75%10%误差范围内397340099.25%4 结语本项目通过对智能眼镜的设计，结合 Python 对于 V831开发板的控制、图像分类识别算法及超声波测距模块的配合，实现了对盲人出行过程进行实时路况识别的功能，达到较好的辅助盲人日常出行的效果。该眼镜分类系统的精度还不够高，分类种类还

25、可以更多，模型需要进一步优化升级，使其更接近人眼感知效果。参考文献1 王宇，王建忠，李佳，等.山东省公共场所无障碍设施调查体验研究 J.残疾人研究，2018，8（3）：92-96.2 WANG Y，WANG J Z，LI J，et al.Survey and experience of barrier-free facilities in public places in shandong province J.Disability research，2018（3）：92-96.3 吴悦，薛平聚，武梦竹，等.城市无障碍设施现状分析及改进意见以石家庄市盲道为例 J.中国康复理论与实践，2017，

26、23（4）：485-487.4 WU Y，XUE P J，WU M Z，et al.Analysis on current situation of urban barrier-free facilities and suggestions for lmprovement：Taking tactile ground surface indicator in shijiazhuang as an example J.Chinese journal of rehabilitation theory and practice，2017，23（4）：485-487.5 马力，张金朝.宁波市城市公共空间

27、无障碍设施的现状调查与研究 J.宁波工程学院学报，2018，30（3）：47-51.6 MA L，ZHANG J Z.Accessibility of urban public space in ningbo J.Journal of ningbo university of technology，2018，30（3）：47-51.7 武曌晗，荣学文，范永.导盲机器人研究现状综述 J.计算机工程与应用，2020，56（14）：1-13.8 WU Z H，RONG X W，FAN Y.Survey on research status of blind-guiding robots J.Comp

28、uter engineering and applications，2020，56（14）：1-13.9 KRIZHEVSKY A，SUTSKEVER I，HINTON G.ImageNet classification with deep convolutional neural networks C/NIPS.curran associates Inc.2012：1097-1105.10 SIMONYAN K，ZISSERMAN A.Very deep convolutional networks for large-scale image recognition J.Computer s

29、cience，2014：1449-1556.11 SZEGEDY C，LIU WEI，JIA Y Q，et al.Going deeper with convolutions Z.2015：1-9.12 HE K，ZHANG X，REN S，et al.Deep residual learning for image recognition C/computer vision and pattern recognition，2016：770-778.13 XIE S，GIRSHICK R，DOLLR P，et al.Aggregated residual transformations for

30、 deep neural networks C/Proceedings of the IEEE conference on computer vision and pattern recognition.2017：1492-1500.14 BOUVRIE J.Notes on convolutional neural networks J.Neural nets，2006（35）：79-87.15 GIRSHICK R.Fast R-CNN C/Proceedings of the IEEE International Conference on Computer Vision.2015：14

31、40-1448.16 HE K，ZHANG X，REN S，et al.Spatial pyramid pooling in deep convolutional networks for visual recognition J.IEEE transactions on pattern analysis and machine intelligence，2015，37（9）：1904-1916.17 REN S，HE K，GIRSHICK R，et al.Faster R-CNN：Towards real-time object detection with region proposal

32、networks J.IEEE transactions on pattern analysis and machine intelligence，2017，39（6）：1137-1149.18 SINGH B，NAJIBI M，DAVIS L S.SNIPER：Efficient multi-scale training C/Advances in neural information processing systems.2018：9310-9320.19 GHIASI G，LIN T Y，LE Q V.Nas-fpn：Learning scalable feature pyramid a

33、rchitecture for object detection C/Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2019：7036-7045.20 HOWARD A G，ZHU M，CHEN B，et al.Andreetto Mand Adam H 2017 Mobilenets：Efficient convolutional neural networks for mobile vision applicationsEB/OL.http：/arxiv.org/abs/1704.0486.

展开阅读全文