计算机视觉研究报告.pdf_咨信网zixin.com.cn

资源描述

1、前前言言本报告深入分析了计算机视觉产业链及核心技术，提出产业链相互融合的发展趋势，以及核心技术向轻量化&低成本及端边云协同方向发展，以解决成本高、时延高、功耗高、部署难、隐私顾虑等产业痛点问题，并介绍了六大行业领域对计算机视觉的场景需求及解决方案。希望能够为产业在规划设计计算机视觉相关产品和解决方案时提供参考和指引。1 目录目录 1.计算机视觉概述.1 1.1 计算机视觉的概念.1 1.2 产业发展驱动力分析.1 1.3 产业链分析及发展趋势展望.2 2.核心技术及发展趋势.7 2.1 核心技术介绍.7 2.1.1 视觉传感器技术.7 2.1.2 计算芯片技术.8 2.1.3 计算平台技

2、术.9 2.1.4 开源框架技术.10 2.1.5 视觉算法技术.12 2.2 技术发展趋势.19 3.行业需求和解决方案.23 3.1 智慧城市.23 3.1.1 业务需求分析.23 3.1.2 解决方案介绍.26 3.2 工业.29 3.2.1 业务需求分析.29 3.2.2 解决方案介绍.31 3.3 医疗.33 3.3.1 业务需求分析.33 3.3.2 解决方案介绍.34 3.4 农业.35 3.4.1 业务需求分析.35 3.4.2 解决方案介绍.36 3.5 教育.37 3.5.1 业务需求分析.37 3.5.2 解决方案介绍.38 3.6 自动驾驶.39 3.6.1 业务需求分

3、析.39 3.6.2 解决方案介绍.39 4.展望.41 参考资料.附录 1 联合编写单位及作者.附录 2 1 1 1.计算机视觉概述计算机视觉概述 1.11.1 计算机视觉的概念计算机视觉的概念计算机视觉是计算机科学的分支，是指用摄像头和电脑代替人眼对目标进行识别、跟踪和测量，并处理成更适合人眼观察或传送给仪器检测的图像。作为科学学科，计算机视觉试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉的最终研究目标是使计算机能像人那样通过视觉观察理解世界，并具有自主适应环境的能力。与计算机视觉概念相关的另一专业术语是机器视觉。机器视觉是计算机视觉在工业场景中的应用，目的是替代传统

4、的人工，提高生产效率，降低生产成本。计算机视觉与机器视觉侧重有所不同。计算机视觉主要是对质的分析，如物品分类识别。机器视觉主要侧重对量的分析，如测量或定位。此外，计算机视觉的应用场景相对复杂，识别物体类型多，形状不规则，规律性不强。机器视觉则刚好相反，场景相对简单固定，识别类型少，规则且有规律，但对准确度、处理速度要求较高。1.21.2 产业发展驱动力分析产业发展驱动力分析计算机视觉产业的发展受到市场与技术的双重驱动。2 一是市场驱动，随着人口红利的消失以及人生理能力的局限性，机器代人过程的不断进行，带来巨大的经济效益。以工业机器视觉系统为例，在发达国家一台典型的 10000 美元的工业机器

5、视觉系统可替代 3 个年工资在 20000 美元左右的工人，投入回收期非常短，且后续维护费用低，具备明显的经济性。二是技术驱动，以 5G 为代表的新一代信息通信技术及以深度学习为代表的人工智能技术，推动计算机视觉产业不断成熟。一方面，在 4G 时代就出现了简单的计算机视觉业务，例如人脸识别、OCR等。随着 5G 的普及，高速率、无线化、可移动视觉的需求将得到进一步满足。另一方面，人工智能技术随着算力的提升和算法的更新迭代，结合行业大数据，适用场景将更加广泛，能够大幅提升安防、工业制造、医疗影像诊断等领域的效率并降低人工成本。1.31.3 产业链分析及发展趋势展望产业链分析及发展趋势展望人工智

6、能四要素为数据、算力、算法、应用，计算机视觉作为人工智能发展最为迅速的领域之一，受益于行业数据的不断丰富、专用算力的持续提升、行业算法的演进优化，以及行业应用的拓展丰富。计算机视觉产业链如图 1 所示，包括上游感知层、中游计算层、下游应用算法层，分别提供数据采集服务、计算算力服务、算法及应用服务。其中感知层是基础，精准而丰富的数据是实现计算机视觉的前提。3 计算层的芯片是保障，主要被国外企业垄断，技术与专利壁垒较高，卡脖子现象严重。应用算法层是核心，国内企业在某些领域已走在世界前列。图图 1 1 计算机视觉产业计算机视觉产业链链 1、产业链上游：感知层感知层以视觉传感器（摄像头）为主，其中图

7、像传感器占摄像头50%左右成本，是摄像头的核心部件。图像传感器分为 CMOS 和CCD 两类，CMOS 以高速度（帧速率）、高分辨率（像素数）、低功耗等优势，逐步取代 CCD 传感器。2018 年全球 CMOS 图像传感器市场规模 155 亿美元，预计 2024 年市场逐渐饱和，达 240 亿美元。CMOS 图像传感器行业主要由国际巨头主导，市场长期被索尼、三星和豪威统治，三家市场份额 70%，依托于先进的技术和专利形成了较高的壁垒，国内高端图像传感器严重依赖进口。豪威 19 年被国内公司韦尔股份收购，其红外图像传感器在安防领域较为领先，是海康、大华的主要供货商。国内企业主要服务中低端市场，在

8、安防领域较为突出。格科微电子优势在 COM 封装技术，专注中低端手机和 4 安防领域应用。思特威安防市场连续两年全球第一，在物理防抖技术上较有优势。综上，在消费电子领域，图像传感器与国外巨头差距较大，技术、渠道等壁垒较高，但在行业细分领域有望突破。2、产业链中游：计算层计算层包括芯片、深度学习框架和计算平台。芯片为应用算法提供高性能算力服务，深度学习框架为算法提供软件承载环境，计算平台为应用算法提供基础设施服务及 AI 算力服务。（一）芯片方面，通用计算芯片 CPU、GPU，被 Intel、Nvidia 等美国芯片厂商垄断。Intel 掌握着 X86 架构，在 CPU 芯片领域一直领先。Nv

9、idia 则是全球最大的独立 GPU 供应商，其产品线覆盖各种不同性能要求的业务领域。国内通用芯片起步晚，芯片厂商尚未崛起，短期内难以实现规模应用，加之美国封锁，国内企业需要较长时间突破壁垒。近些年全球智能计算市场呈现快速发展态势，国内外多家集成电路龙头企业与初创公司陆续发布了多款 ASIC 智能芯片（下简称智能芯片）产品。2015 年寒武纪研发出世界首款深度学习专用处理器原型芯片，可大幅提升深度学习的计算效率和能效。2016 年Google 发布了名为 TPU（Tensor Processing Unit）的智能芯片，很快在其各类业务中实现商用。2016 年底寒武纪推出了全球首款商用终端智能

10、处理器 IP 产品寒武纪 1A。2017 年华为发布其旗舰手机芯片配备专用 NPU。智能芯片按场景分为终端、边缘端、云端，云 5 端和边缘智能芯片仍处推广期，主要厂商和产品为寒武纪（思元100/270/220）、华为海思（Ascend 310/910）、Google（TPU V1/V2/V3、TPU EDGE）等；终端智能芯片处理器多集成于手机 SoC中，已实现大规模应用，主要厂商和产品为华为海思（麒麟970/980/990）等。（二）深度学习框架方面，国外先后推出用于深度学习模型训练的开源框架，包括 Caffe、Theano、Torch、MXNet、TensorFlow等，极大降低了人工智能

11、技术在实践中的入门门槛。国内方面，百度的飞桨（PaddlePaddle），清华大学的计图（Jittor）和华为推出的MindSpore 也先后问世。飞桨是百度自主研发的深度学习平台于2016 年开源，向上承载应用，兼顾开发的灵活性和高效性；向下对接硬件芯片，携手芯片厂商共同打造硬件生态环境。截至 2020 年 9月，飞桨已有 210 万开发者，服务 9 万家企业，创造 29.5 万模型，覆盖通信、电力、城市管理、制造、农业等行业。（三）计算平台方面，国内外市场被亚马逊、谷歌、阿里、腾讯等公司基本垄断，但小公司的计算平台凭借价格优势仍有生存空间。计算平台之间的竞争核心在于算力与资费。算力方面，各

12、大平台均提供以 GPU 为主的分布式算力集群，算力服务性能差异不大，且均有高低配置可选。3、产业链下游：应用算法层 6 （一）算法方面，部分国内企业不断走向领先地位。如人脸识别领域，2018 年全球人脸识别算法测试结果，中国包揽了前五名，其中依图科技包揽了前两名，商汤科技获得第三名和第四名。在物体检测识别领域，商汤科技在 2016 ImageNet 挑战赛中,蝉联视频物体检测冠军。同时一举揽下物体检测、视频物体检测和场景分析三项冠军，19年发表的TSD算法大幅度提高目标检测精度，荣获 Open Images Object Detection Challenge 2019 冠军。（二）应用方面，

13、计算机视觉行业应用在国内发展迅速，国内外应用领域差异明显。国内应用现阶段以安防、金融、互联网为主，国外则以消费、视觉机器人、智能驾驶等场景为先。差异的原因主要有三点：一是在于国内市场需求的推动。安防、金融数字化成为了计算机视觉最重要的应用场景，带动了相关产业的发展；二是发展时间和阶段不同。国外计算机视觉发展较早，从实验室走向应用，经历了几十年的发展，早已进入稳定发展时期，而我国起步晚，2010 年以后相关企业才迅速成立发展起来，所以我国企业进入阶段就赶上了大规模视觉技术应用时期和互联网大爆发时期；三是市场重视程度不同。国外市场认为芯片和硬件作用力大于软件算法技术，所以更加注重芯片研发和市场的垄

14、断。而我国市场则重点将行业知识和工程经验转化为垂直解决方案，将业务解决方案涵盖各种水平垂直方案之中。计算机视觉的感知层、计算层、应用算法层有相互融合的趋势，7 以满足场景对低时延、高可靠、数据隐私等方面的需求。一是上游企业向中下游的延伸，专业摄像头产品（上游）向 AI芯片（中游）及应用算法（下游）延伸，如人工智能芯片融合人脸识别算法广泛应用于安防等领域。二是下游企业向中游的延伸，实现算法与算力的高度匹配。如基于人脸识别算法（下游），研发与之高度匹配的专用人脸识别芯片（中游），提升算法实时性与准确率，进一步降低部署成本。2.2.核心技术及发展趋势核心技术及发展趋势 2.12.1 核心技术介绍核心

15、技术介绍通过对计算机视觉产业链上中下三层的分析，列举出计算机视觉的核心技术包括：视觉传感器技术、芯片技术、计算平台技术、开源框架技术、视觉算法技术。2.1.1 视觉传感器技术视觉传感器作为底层基础，是整个计算机视觉系统的主要信息来源，其输出图像的分辨率直接决定后续的分析处理、智能识别的精度。视觉传感器可以扩展人的视觉范围，使人们看到视觉范围以外的微观世界和宏观世界，并与计算机视觉结合，提供对物体形态和特征的复杂分析。8 视觉传感器主要由镜头、图像传感器、模数转换器、图像处理器、图像存储器等组成，有时还要配以光源及其他辅助设备。根据场景对放大倍率、焦距、景深等参数的需求，视觉传感器可以选取不

16、同镜头将光线聚焦在图像传感器上，将光线转换成电子信号，并通过模数转换器将图像传感器上传来的电信号转换为数字信号，只有经过这个环节才能将一个记录着画面中各部位电压高低的文件，转换为一个 0与 1 的二进制数字文件。电压信号转化为数字信号后，还需通过影像处理单元才能将数字信号转换为图像，并存放至图像存储单元中，为后期智能视觉处理分析提供数据。2.1.2 计算芯片技术计算机视觉应用与芯片技术的发展历程是紧密相关的，图像分类、目标检测、目标跟踪和图像分割等智能算法任务都需要以芯片为核心的智能算力设备进行支撑，目前视觉计算芯片有CPU、GPU、FPGA、智能芯片几种类型，在人工智能数十年的发展历程中，

17、CPU、GPU、FPGA 等传统芯片曾长期为其提供底层计算能力。它们在设计之初并非面向人工智能领域，但可通过灵活通用的指令集或可重构的硬件单元覆盖人工智能程序底层所需的基本运算操作，从功能上可以满足人工智能应用的需求，但在芯片架构、性能、能效等方面并不能适应人工智能技术与应用的快速发展，从而发展了专门针对人工智能领域设计的智能芯片。9 智能芯片其架构和指令集针对人工智能领域中的各类算法和应用做了专门优化，可支持各类智能处理任务。智能芯片对计算机视觉等各类人工智能技术具备较好的普适性，无需像 CPU 一样支持控制密集型计算任务，或者像 GPU 一样兼顾图形处理与科学计算任务，架构完全针对人工智能

18、处理的实际需求所设计。智能芯片按功能可分为训练芯片和推理芯片，训练需要通过大量数据输入训练出复杂的神经网络模型，对于芯片的计算能力、精度、扩展性等要求高；推理是利用好训练完的模型，用实际数据去推断出各种场景分析结果。智能芯片在指令集、处理器架构以及基础系统软件等方面具备较高的技术壁垒。2.1.3 计算平台技术计算平台是指基于 CPU、GPU 等算力设备提供计算服务的平台，具有实时高速的并行计算和浮点计算能力。智能计算平台，能发挥极致性能，具有高并行、高吞吐、低时延等特点，在科学计算表现中，性能比传统架构提高几十倍。智能计算平台通常用于深度学习训练和推理，平台架构如图 2所示包含 IaaS、P

19、aaS、SaaS 三层。其中 IaaS 层包括算力设备、存储、网络等设备；PaaS 层底层采用 Docker 等容器技术进行环境的管理、资源的隔离和任务的调度。包含开源框架，提供基于各类神经网络的常用深度学习算法；提供基础模型库，包括图形模型、语音模 10 型、时序模型、视频模型和 NLP 模型等；提供负载均衡、模型优化、弹性 GPU、自动学习、应用环境管理、快速部署环境等应用部署功能；以及为用户提供环境访问等交互接口；SaaS 层为计算机视觉的各类行业应用场景。图图 2 2 计算机视觉云平台架构计算机视觉云平台架构计算平台基础功能包括租户计费、资源管理、性能监控、告警分析等。通常厂商提供和

20、标准云服务器租用一致的管理方式，可以有效解放用户的计算压力，提升产品的计算处理效率与竞争力，较传统自建服务器的模式有很多优势。如用户无需预先采购、准备硬件资源，可按时租用，免除硬件更新带来的额外费用，能有效降低基础设施建设投入。2.1.4 开源框架技术 11 随着深度学习的广泛应用，迫切需要强大的编程框架和开发平台来提升效率。一方面模型越来越复杂，迫切需要更简洁高效的开发方式。另一方面，深度学习训练和推理的硬件环境也愈发丰富多样，如何有效对接不同的芯片和应用环境也带来很大挑战。与此同时，深度学习技术的编程特性和计算特性给深度学习统一编程框架的出现提供了便利。通过对深度学习计算的抽象，向下屏蔽硬

21、件对接以及训练、推理计算逻辑，向上只提供模型（神经网络）结构定义和执行的简易接口，深度学习框架应运而生。当前所说的人工智能开发框架，一般即指深度学习框架。设计良好的深度学习框架，可支持很多传统机器学习任务。基于深度学习框架，开发者无需关注前向反向计算、梯度优化以及具体的底层计算，只需要通过 API 调用，就可以完成深度学习模型的开发、训练和部署。深度学习框架处于硬件层和应用层之间。向上支持深度学习模型的设计、训练和部署，支撑人工智能应用的开发，成为算法研发和落地的标准环境；向下对接芯片、硬件设备，充分发挥硬件计算性能的同时对用户屏蔽不同芯片的编程差异，并进一步影响人工智能芯片的设计。因此，业界

22、普遍认为，深度学习框架是人工智能领域最为核心的基础设施之一。基于深度学习框架的全流程开发平台，可以更好对接云计算、大数据资源，搭载全面的开发部署服务工具还可以大大解放生产力，这 12 将对人工智能技术的创新和应用起到巨大的支撑作用；还关系到人工智能技术发展的自主可控和人工智能应用的安全性问题。得深度学习框架者，就可以掌握人工智能技术甚至是整个行业的话语权。因此在全世界范围内，深度学习框架平台的建设已经被高度重视。2.1.5 视觉算法技术计算机视觉领域的算法资源非常丰富且应用广泛，在行业应用中常见的算法技术有人脸识别、姿态估计、行为识别、目标追踪、行人重识别等。1、人脸识别深度学习方法的主要

23、优势是可用大量数据来训练，从而学到对训练数据中出现的变化情况稳健的人脸表征。这种方法不需要设计对不同类型的类内差异（比如光照、姿势、面部表情、年龄等）稳健的特定特征，而是可以从训练数据中学到它们。卷积神经网络对平移、缩放、倾斜和其他形式的形变具有高度的不变性有点，并且具有深度学习能力，可以通过网络训练获得图像特征，不需要人工提取特征，在图像样本规模较大的情况下，对图像有较高的识别率，因此卷积神经网络是人脸识别方面最常用的一类深度学习方法。人脸识别过程包括人脸检测、人脸对齐、人脸识别等部分，具体流程如下。13 （一）在整个图像中检测到人脸区域，常用方法有HOG，MTCNN等等。（二）根据检测到的

24、关键点位置，对人脸的检测框的关键点进行对齐，比如使眼睛，嘴巴等在图像中有同样的坐标位置，主要是有利于后面的训练。（三）在人脸的检测框内用来检测关键点位置，比如眼睛，嘴巴，鼻子等关键点位置，具体可以检测多达几十个关键点位置。（四）使用神经网络前向抽取人脸特征进行训练，训练得到的模型用来部署。（五）将每张人脸区域使用模型抽取特征，得到一个特征向量，将特征向量使用余弦方法等计算距离，小于指定的阈值则认为是同一个人。2、姿态估计姿态估计的目标是在 RGB 图像或视频中描绘出人体的形状，其涉及额很多计算机视觉任务，如目标检测、姿态估计、分割等等。姿态估计的应用场景不仅包括关键点（如头、左手、右脚等）定

25、位，如图形，AR，人机交互，还包括 3D 目标识别的很多方面。一般可将人体姿态估计问题具体细分为 4 个任务：单人姿态估计、多人姿态估计、人体姿态追踪、3D 人体姿态估计。14 （一）单人姿态估计，输入是一个行人，然后在行人区域位置内找出需要的关键点，比如头部，左手，右膝等。（二）多人姿态估计的输入可能包含多个行人，目的是需要把图片中所有行人的关键点都能正确的做出估计。针对这个问题，一般有两种做法，分别是 top-down 以及 bottom-up 的方法。对于top-down 的方法，往往先找到图片中所有行人，然后对每个行人做姿态估计，寻找每个人的关键点。单人姿态估计往往可以被直接用于这个场

26、景。对于 bottom-up，思路正好相反，先是找图片中所有关键点，比如所有头部，左手，膝盖等。然后把这些关键点组装成一个个行人。（三）人体姿态跟踪的任务主要是针对视频场景中的每一个行人，进行人体以及每个关键点的跟踪。相比行人跟踪来讲，人体关键点在视频中的时间运动性可能比较大，比如一个行走的行人，手跟脚会不停的摆动，所以跟踪难度会比跟踪人体框大。（四）如果把人体姿态往 3D 方面进行扩展，输入 RGB 图像，输出 3D 的人体关键点的话，就是 3D 人体姿态估计。3、行为识别计算机视觉中人体行为识别从根本上说是个分类问题，传统方法需要特征提取、特征融合与特征分类三个分开的过程来完成。我公司

27、15 在基于图卷积的行为识别领域已开展深入研究，并积累了多种行为识别算法。（一）基于注意门的图增强卷积（GECN-AG）网络：该网络利用全身关节点的图以及利用关节点所提取出来的身体部分去提取人体骨骼数据中细粒度以及粗粒度的空间特征，从而使得图卷积网络学习到更多的信息。图图 3 3 基于基于 GECNGECN-AGAG 网络的行为识别网络的行为识别（二）端到端的注意力增强递归图卷积（AR-GCN）网络：该网络提出了一种能够在没有预先定义本体的情况下，将长时间递归和图卷积结合起来。此外，还建立了一个软注意机制，它能够对不同时间帧的信息给与不同程度的注意，同时在每一帧上专注于骨骼关节的识别。因此能

28、更好的利用骨骼序列中的时间和空间信息。16 图图 4 4 基于基于 ARAR-GCNGCN 网络的行为识别网络的行为识别（三）多尺度时空图卷积 LSTM（M-GCN）网络：提出一种在空间域把网络加宽的方法。通过对图数据新的划分方式实现多子图结构的并行卷积方式，并给出并行网络的计算方式。在时间域提出了一种新的多尺度注意力门机制，可以更好的捕获时间域的行为特征，提升模型的准确率。图图 5 5 基于基于 MM-GCNGCN 网络的行为识别网络的行为识别（四）基于注意力机制的广义渐进图卷积网络：提出了一个基于注意力机制的端到端图生成网络（AG-GCN）。该网络基于骨架序列的渐进生成模型来学习空间节

29、点间的连通性，利用具有关节速度语义信息的双流图生成模块有效地处理时间动态。同时在 AG-GCN 层中设计了一种在线图形生成机制，提高了网络的自适应能力。图图 6 6 基于基于 AGAG-GCNGCN 网络的行为识别网络的行为识别 17 （五）基于骨架的语义引导的图卷积网络：提出了一种新的基于骨架的语义引导的图卷积网络(Sem-GCN)。将骨架数据的三种语义图(结构图、动作图和注意图)参数化，嵌入到网络中，与模型共同学习和更新。该方法扩展了结构图卷积核的接受域，利用了骨骼节点间关键但潜在的联合依赖关系。图图 7 7 基于基于 SemSem-GCNGCN 网络的行为识别网络的行为识别 4、目标跟踪

30、视觉目标（单目标）跟踪任务就是在给定某视频序列初始帧的目标大小与位置的情况下，预测后续帧中该目标的大小与位置。流程可按如下框架划分，输入初始化目标框，在下一帧中产生众多候选框，提取这些候选框的特征，然后对这些候选框评分，最后在这些评分中找一个得分最高的候选框作为预测的目标，或者对多个预测值进行融合得到更优的预测目标。根据如上框架，目标跟踪划分为五项主要的研究内容，运动模型、特征提取、模型观测、模型更新、集成方法。深度学习在目标跟踪领域应用的主要问题在于训练数据的缺失。深度模型需要对大量标注的训练数据有效的学习，而目标跟踪仅仅提 18 供第一帧的检测框作为训练数据。基于深度学习的目标跟踪算法采

31、用了几种思路来解决这个问题。（一）利用辅助图片数据预训练深度模型，在线跟踪时微调。在目标跟踪的训练数据非常有限的情况下，使用辅助的非跟踪训练数据进行预训练，获取对物体特征的通用表示，在实际跟踪时，通过利用当前跟踪目标的有限样本信息对预训练模型微调,使模型对当前跟踪目标有更强的分类性能，这种迁移学习的思路极大的减少了对跟踪目标训练样本的需求，也提高了跟踪算法的性能。（二）利用现有大规模分类数据集预训练的 CNN 分类网络提取特征。直接使用 ImageNet 这样的大规模分类数据库上训练出的CNN 网络如 VGG-Net 获得目标的特征表示，之后再用观测模型进行分类获得跟踪结果。这种做法既避开了跟

32、踪时直接训练large-scale CNN 样本不足的困境，也充分利用了深度特征强大的表征能力。（三）利用跟踪序列预训练，在线跟踪时微调。由于图像分类任务和跟踪之间存在巨大差别，MDNet（Learning Multi-Domain Convolutional Neural Networks for Visual Tracking，CVPR2016）提出直接用跟踪视频预训练 CNN 获得 general 的目标表示能力的方法。19 5、行人重识别（ReID）行人重识别（Person re-identification，简称 Re-ID）也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中

33、是否存在特定行人的技术。主要解决跨摄像头跨场景下行人的识别与检索。该技术能够根据行人的穿着、体态、发型等信息认知行人，与人脸识别结合能够适用于更多新的应用场景。ReID 是行人智能认知的其中一个研究方向，行人智能认知是人脸识别之后比较重要的一个研究方向，特别是计算机视觉行业里面.ReID 研究内容内容包括：行人检测、行人分割以及背景替换、骨架关键点检测及姿态识别、行人跟踪“MOT”的技术等。2.2.2 2 技术发展趋势技术发展趋势计算机视觉技术未来将向轻量化&低成本及端边云协同两个方向发展，以满足垂直行业场景对低时延、低功耗、低成本、隐私性等需求，提升计算机视觉的行业应用范畴。1、轻量化&低

34、成本计算机视觉技术轻量化&低成本的计算机视觉是指将轻量化视觉算法集成在智能芯片中用以实现端侧智能的技术。轻量化视觉算法产生的原因是由于深度学习模型参数量、计算量大，模型在计算资源受限的端侧设备上部署难，故需要对传统深度学习的方法进行调优，主要涉及模型压 20 缩技术。现有的模型压缩方法主要有网络剪枝、权值量化两种，两种方式都是对初始训练得到的模型进行分析，通过权值阈值等方式确定剪枝、量化等操作的对象，对于模型的结构没有本质改变，由于初始模型结构一般都是选择利用深度较大的深度学习网络，因此目前的模型压缩方法没有从本质上改变网络结构，只是对网络结构进行微调整，因此涉及的模型参数值、计算量仍很大。

35、为了解决上述技术问题，我公司技术团队提出一种深度学习网络压缩方法，该方法基于知识迁移理论，通过利用已训练的深度学习模型和模拟生成的与已有训练数据同分布的数据，监督训练生成浅层网络模型，从模型结构层面实现深度学习模型的压缩，降低参数量、计算量。其次，涉及的数据扩充机制能有效增加训练数据集，以保证压缩模型精确度。模型压缩流程如图 8所示：图图 8 8 模型压缩流程图模型压缩流程图 21 2、端边云协同技术当前人工智能应用越来越强调端、边、云的多方协同，仅仅提供某一类场景的解决方案是难以满足用户的需求，应用场景的拓展及需求推动了端边云协同技术的发展。图 9 定义了端、边、云智能协同能力的参考架构，

36、共分为三层。图图 9 9 端边云协同技术架构示意图端边云协同技术架构示意图终端层：主要实现基于多种传感器的数据感知、基于 AI 模型的推理任务执行、以及对未知样本数据的检测和发现。传统上，大部分物联网终端仅具备感知和数据传输能力，端侧缺乏智能，随着端侧嵌入式 AI 芯片的发展，越来越多智能设备赋能检测、识别等 AI 推理能力。考虑到对海量智能设备上不断增长的数据有效利用，智能设备需具备对未知样本的检测能力，配合模型推理，分辨已知、未知样本，为模型对新知识的增量学习进行数据储备。22 边缘层：作为智能终端最近的上层协同节点，主要实现对来自端侧上报的数据样本，通过聚类得到潜在的新类别，并通过增量

37、学习完成新训练数据集的模型训练。借助边缘算力和数据汇聚优势，边缘核心功能在于完成 AI 模型的动态增量学习。通过对分布式终端上报数据的不断聚合、标注和训练集生成，边缘将持续获得新知识，边缘AI 模型在新知识的增量迭代训练下，分类能力动态扩展，在边、端协作下，智能设备也会不断更新模型，以获得新能力，完成持续更新。云端层：作为中心，指导边缘层实现模型的协作学习。在边缘层增量学习过程中，很高概率会出现模型的灾难性遗忘问题，通过云端全域知识模型作为协作模型，利用协作生成的软标签帮助模型建立旧类间的潜在关系，实现增量训练中对旧类识别任务的进一步巩固和精度提升，从而，在云边端协作下，使边缘节点以至设备上的

38、 AI 模型获得更全面的能力提升。端边云协同实现模式有两类：（一）推理协同，某些行业应用场景中的人工智能算法复杂度较高，对业务延迟的要求也比较严格。物联网设备上的 AI 算法推理可以与低延迟的边缘资源协同工作，大部分计算工作负载可以根据需要动态调度并分配到端边云整体资源池中，并通过 5G、LTE 等通信方式进行低时延数据交互。23 （二）训练协同，某些行业应用场景中的各种人工智能算法需要不断的训练和更新，不断积累数据，以保持更高的准确度和基于新知识的增量学习。然而，大多数物联网设备的本地计算能力和数据资源有限，无法支持大规模的模型训练。我们需要依靠边缘和云端的大规模计算集群、全局数据和领域知识

39、进行协同学习。同时，我们还需要考虑用户数据的安全性和隐私性。3.3.行业需求和解决方案行业需求和解决方案在智慧城市、工业、医疗、农业、教育、自动驾驶等领域均有依赖于计算机视觉的需求，针对需求提出相应解决方案，以解决行业领域的实际问题。部分行业场景对时延、隐私、功耗有较高要求，从而推动了轻量化&低成本视觉技术与端边云协同技术的发展和相应解决方案的落地。3.13.1 智慧城市智慧城市 3.1.1 业务需求分析 1、智慧安防安防系统以维护区域（园区、楼宇）安全为目的，是运用安全防范产品和其它相关产品所构成的综合安防体系。在综合安防体系下对视频监控系统提出覆盖广、高清化、智能化的要求，智能安防在园

40、区、楼宇场景对计算机视觉算法和应用具备广泛需求，如多雾天气下高清 24 监控、视频周界管理、公共区域监控、园区车辆管理、门禁管理等。2、智慧交通公安部交管局曾下发关于进一步推进城市道路交通管理勤务机制改革的指导意见，要求充分运用大数据、云计算、物联网等技术，建立健全城市道路交通管理感知、预警、研判、指挥、调度、联动、监督、考核高效顺畅衔接的勤务运行机制，构建“情、指、勤、督”四位一体交管体系。主要可分为两大类需求。（一）智慧交通的感知预警类业务：道路车辆智能监测、行人闯红灯、交通事件检测、非机动车违法管控、道路信息采集、鸣笛抓拍、闯红灯自动记录、斑马线不让行人、机动车测速抓拍等；（二）智慧

41、交通的分析决策类业务：全局搜车、智慧交通 IOC、涉证违法管控、涉牌违法管控、交通运行态势分析等。3、智慧公安社会治安、社会治理、打击犯罪、协同指挥、服务民生成为行业最突出的痛点。公安行业视频监控体系的构建总体的需求特点体现为强化视频联网整合，实现资源互通共享；增强智能技术运用，提升应用建设成效；加强数据治理融合，推进数据赋能业务。典型的业务应用需求有两大类。（一）社会治理应用需求：重点人员管理（特殊人群管理，重点 25 青少年管理）；实有人口管理、常驻人口迁出等；重点场所管理，学校周边、群租房管理等。（二）公安实战应用需求：重点人员检索、地图检索、以图搜图、人员布控、重点人员轨迹分析（人脸

42、轨迹，车辆轨迹，酒店入住信息等）、涉毒涉黄人员分析，涉毒涉黄人员管控等。4、智慧旅游智慧旅游是一种以物联网、云计算、下一代通信网络、高性能信息处理、智能数据挖掘等技术在旅游体验、产业发展、行政管理等方面的应用，使旅游物理资源和信息资源得到高度系统化整合和深度开发激活，并服务于公众、企业、政府等的面向未来的全新的旅游形态。它以融合的通信与信息技术为基础，以游客互动体验为中心，以一体化的行业信息管理为保障以激励产业创新、促进产业结构升级为特色。在计算机视觉应用领域，旅游行业按业务可划分为以下三类：（一）智慧管理的业务需求：景区人脸票务管理，景区危险区域视频防范监测（入侵监测，人员密度超限监测）等

43、。（二）智慧服务的业务需求：景区的智慧导引，客流统计，以及基于客流，人群态势分析的精准营销。（三）智慧体验的业务需求：景区的 XR 智慧体验，景区直播，动物园等场所的远程投喂，远程观摩等。26 3.1.2 解决方案介绍 1、智慧安防解决方案本方案主要运用人工智能、大数据、计算机视觉等技术，基于人体分析、事件分析等技术，针对写字楼、社区等环境，提供人员/车辆通行管理、安防布控、智慧服务等场景，全面提升管理效率与安全等级，方案功能如下。（一）人体分析，通过被调查人员的人体属性特征，在系统中进行人体属性搜索，输出人员活动轨迹及事件分布，通过这种结构化信息搜索进行快速查找，节省 90%以上的查询时间

44、。在布控范围内，通过摄像头实现人体属性分析、人体属性搜索、人员行为动作识别，对异常人员进行管控，控制潜在治安事件的发生。（二）事件分析，在布控范围内通过摄像头进行人员徘徊检测、人员聚集检测、人员跨线检测、区域入侵检测，当检测到出现以上事件时，产生告警信息，对事件涉及的异常人员进行管控，控制潜在治安事件，这样减少了安保人员的巡逻，节省了大量的时间。人员徘徊检测，检测是否有可疑目标遗留在检测区域超过一定时间，当超过一定时间后，产生告警信息；人员聚集检测，对监控区域内的目标聚集程度进行检测，不统计区域内的具体人数，仅是对人员密度的一种评估；人员跨线检测，是检测行人是否有跨线的行为，同时也支持方向判断

45、，可用于越界检测、逆向行驶等场合；区域入侵检测，是对监控 27 区域内是否有行人闯入进行的一种检测，当有行人入侵区域时产生告警信息。2、智慧交通解决方案智慧交通解决方案为市民提供全面的出行信息，为交通管理提供完善的辅助决策支持，使人、车、路密切配合达到和谐统一，进一步提升了公安交警的交通治理智能化水平，方案功能如下。（一）违规检测，基于摄像头数据，结合图像识别、目标检测等技术，监测路口车辆违规情况，比如异常停车、路口打结、车辆逆行、机动车单行线闯禁、机占非、非占机、闯红灯检测，违章掉头检测，错误占用车道检测等。（二）重点区域检测，对常发性拥堵、交通事故焦点、重点车辆隐患点、违停密集区、车辆违

46、法突变区等区域进行识别并给出提示信息，以便开展进一步的排查清理工作。（三）信号灯配时优化，对检测到的拥堵路段，路口打结路段进行交通灯的配时优化，在早高峰、晚高峰、平峰、低谷时段，通过历史车流数据提前进行预测，再结合实时检测到的车流数据进行调整，分别进行交通灯的配时优化，提高通行率、绿信比。3、智慧公安解决方案随着 5G 网络的成熟部署，以及计算机视觉的普遍应用，推动智 28 慧公安特色应用快速发展。智慧公安解决方案主要包含以下三个业务模块：智慧新指挥、智慧新防控、智慧新侦查，方案功能如下。（一）5G 智能新指挥，以数据为核心，将数据、指挥、行动科学融为一体，打造以警情处置指挥为主线、以公安网

47、、视频网物信融合数据为依托、以业务系统应用集成为支撑的综合作战指挥中心。（二）智慧新防控，以 5G 网络为抓手，多种智能感知终端为采集工具，建立起天地一体化的立体巡防系统。（三）智慧新侦查，AR 智慧警眼可将现场音视频信息快速采集并传送到云端，进行智能分析对比，从而有效提高工作效率和巡检安全防范能力。4、智慧旅游解决方案智慧旅游是利用云计算、人工智能、计算机视觉、互联网等新技术，借助便携的终端上网设备，主动感知旅游相关信息，并及时安排和调整旅游计划。简单地说，就是游客与网络实时互动，游客行程安排进入触摸时代。智慧旅游的“智慧”主要体现在旅游业的各个方面，针对智慧旅游的建设主要包含三个方面：智

48、慧管理、智慧服务、智慧景区，方案功能如下。（一）游客流量统计分析，基于手机信令、人工智能和无线网络定位技术，结合用户手机号码归属地数据、门禁票务综合数据、视频 29 监控信息等实时获取游客流量，为旅游景区的精准管理和目的地精确营销提供数据支撑。（二）区域人数统计,可以对景区主要出入口视频进行智能图像分析，自动统计出出入游客数量，也可以对景区客流量主要聚集区进行人数统计，当游客数量超过阈值时产生告警信息。（三）行人密度检测,主要是对景区主要景点或者对景区某一时间段的客流密度进行的检测，当检测到游客密度超过设定阈值时，产生告警信息，减少安全事件的发生。3.23.2 工业工业 3.2.1 业务需求分

49、析随着政府大力推进工业互联网的发展，深度学习算法突破使工业视觉技术达到商业化水平。智能芯片快速发展和云计算的广泛使用，使得视觉技术在工业中的渗透率日益提升，市场快速发展。视觉在工业生产中的需求主要如下。1、产品线上质量检测人工质检面临质量、成本、特殊场景应对、信息集成的问题，具体如下：质量，人工质检的主观因素对判定结果的影响较大，会存在漏检问题；成本，人员流动较高，由此带来的培训和用工成本高，用工难招工难；信息集成，没有对生产数据进行有效积累和利用,无法 30 后续推进流程再造和质量分析，对自动化生产流程适配较弱；效率，传统视觉技术通过程序化计算逻辑进行视觉检测对此类复杂表面检测抗干扰能

50、力差，误检过高，人员复判工作量大。2、生产过程物品智能分拣在工业制造、物流产业等多个行业中，有很多对产品或物体进行识别检测、分类放置的需求；传统的基于人工视觉的检测方式，容易产生疲劳，无法一直保证很高的检测效率，且由于人眼本身的生理极限，很难在速度、精度等方面达到较高的标准。因此，传统的人工检测方式制约了生产力水平的发展和提高，已经难以满足生产生活的需要，越来越多的基于视觉的分拣机器人被广泛地应用到各种各样的工业化流水线上。即通过工业相机获取目标图像信息，完成对抓取目标的分拣工作。传统的工业机器人视觉分拣系统中利用经典的计算机视觉理论，如不变距、模板匹配、SURF 特征等算法识别和定位工件，

展开阅读全文