基于边缘计算的多摄像头视频协同分析方法.pdf

资源描述

1、2023 年 8 月 Journal on Communications August 2023 第 44 卷第 8 期通信学报 Vol.44 No.8基于边缘计算的多摄像头视频协同分析方法期治博1,2，杜磊3，霍如3,4，杨帆1,4，黄韬1,4（1.北京邮电大学网络与交换国家重点实验室，北京 100876；2.中国信息通信研究院工业互联网与物联网研究所，北京 100083；3.北京工业大学信息学部，北京 100124；4.网络通信与安全紫金山实验室，江苏南京 211111）摘要：为了减少智慧城市场景下多摄像头实时视频数据的处理量，提出了基于机器学习算法的边缘端视频协同分析方法。

2、首先，针对各摄像头检测到的重要目标物体，设计了不同的关键窗口来筛选视频的感兴趣区域，缩减视频数据量并提取其特征。然后，根据提取的数据特征，对不同摄像头视频中的相同目标物体进行标注，并设计了摄像头之间关联程度值的计算策略，用于进一步缩减视频数据量。最后，提出了基于图卷积网络和重识别技术的 GC-ReID 算法，旨在实现多摄像头视频协同分析。实验结果表明，与现有的视频分析方法相比，所提方法能够有效降低系统时延和提高视频压缩率，并保证较高的准确率。关键词：边缘计算；机器学习；视频协同分析；感兴趣区域标注；多摄像头关联性中图分类号：TN919.85 文献标志码：A DOI:10.11959/j.is

3、sn.1000436x.2023150 Multi-camera video collaborative analysis method based on edge computing QI Zhibo1,2,DU Lei3,HUO Ru3,4,YANG Fan1,4,HUANG Tao1,4 1.State Key Laboratory of Networking and Switching Technology,Beijing University of Posts and Telecommunications,Beijing 100876,China 2.Department of In

4、dustrial Internet Institute,China Academy of Information and Communication,Beijing 100083,China 3.Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China 4.Purple Mountain Laboratories,Nanjing 211111,China Abstract:In order to reduce the processing volume of multi-cam

5、era real-time video data in smart city scenarios,a video collaborative analysis method based on machine learning algorithms at the edge was proposed.Firstly,for the important objects detected by each camera,different key windows were designed to filter the region of interest(RoI)in the video,reduce

6、the video data volume and extract its features.Then,based on the extracted data features,the same objects in the videos from different cameras were annotated,and a strategy for calculating the association degree value between cam-eras was designed for further reducing the video data volume.Finally,t

7、he GC-ReID algorithm based on graph convolu-tional network(GCN)and re-identification(ReID)was proposed,aiming at achieving the collaborative analysis of mul-ti-camera videos.The experimental results show that proposed method can effectively reduce the system latency and im-prove the video compressio

8、n rate while ensuring the high accuracy,compared with the existing video analysis methods.Keywords:edge computing,machine learning,video collaborative analysis,region of interest annotation,association between cameras 收稿日期：20230317；修回日期：20230710 通信作者：霍如，基金项目：国家重点研发计划基金资助项目（No.2018YFB1800602）；2020 年

9、工业互联网创新发展工程基金资助项目（工业互联网标识资源搜索系统）Foundation Items:The National Key Research and Development Program of China(No.2018YFB1800602),The MIIT of China2020(Identification Re-source Search System for Industrial Internet of Things)第 8 期期治博等：基于边缘计算的多摄像头视频协同分析方法 15 0 引言随着新一代信息技术的发展，城市的智能化程度不断提升，智慧城市迅速崛起并成为城市

10、发展的新理念和新方向。智慧城市利用物联网、云计算、边缘计算和人工智能等新型计算技术，将城市规划、设计、建设、管理和运营等领域智能化，实现更加高效的城市运行。智慧城市的发展使城市监控摄像头的数量急剧增加，这对城市建设和安防带来了显著改善。然而，现有的城市视频监控设备是各自独立的，不利于城市建设中大数据分析的整合1。因此，研究多摄像头视频协同处理，从庞大的视频数据中挖掘价值，成为未来城市互联监控的发展方向和重点。多摄像头视频数据的处理也是许多视觉智能应用的基础，如物体检测和跟踪、物体视觉定位、物体速度估计等。快速发展的网络技术对这些智能应用提供了支持并使之成为热点2。因此，多摄像头视频分析引起了众

11、多学者的关注。现有的多摄像头视频分析方法大多基于独立视频流进行处理3。具体而言，这些方法适用于同一场景下多个摄像头同时采集不同角度的视频，然而在对这些采集的视频进行分析时，主要针对每个摄像头的单个视频流进行处理。为了在成本和精度之间进行权衡，通常采用帧采样或级联滤波器去除较不重要的视频帧以减少视频量，从而降低成本。然而，所有的调整和压缩操作都是在单个视频流内进行的，不同摄像头采集的视频处理是相互独立的，这导致了视频分析中计算和存储资源的线性增加。因此，基于这些视频分析方法，多摄像头视频分析需要较大的计算、网络和存储资源。为了提高实时多摄像头视频分析的效率并降低处理时延，可以在边缘端对多摄像头视

12、频进行协同分析。它通过构建多个摄像头之间的关联性来减少待分析视频的数据量，缩减后的视频可以在边缘端或传输到云端进行进一步的处理，从而降低整体视频数据的冗余度，减轻边缘端和云端视频处理的工作量，进而减少处理时延。同时相较于上述独立视频流分析，这种方法对计算能力和存储资源等方面的要求较低。因此，实现多摄像头视频的协同分析主要涉及以下 2 个问题。1)实时的视频处理方法。实时视频处理需要丰富的计算、网络和存储资源，但摄像头本身的视频处理能力有限，难以支持大规模且实时的视频数据检测和分析。因此，考虑利用配备边缘服务器来扩展摄像头的视频处理能力是必要的。将视频传输到边缘服务器进行处理，利用边缘计算将云端

13、计算能力下沉到边缘端，可以减轻摄像头的负担，并降低计算和传输时延。2)多个摄像头之间的关联性。在相同时段和场景下，不同角度摄像头所拍摄的视频片段之间存在一定的关联性。这可能包括从不同角度拍摄了同一个目标的不同面，或者同一个目标在不同摄像头的视频中先后出现。由于不同摄像头的空间布局和视角关系通常很复杂，因此需要计算和处理不同视频片段之间的关联性，并作为后续视频压缩处理的依据。为了应对上述问题，本文提出了一种边缘端多摄像头视频协同分析方法。该方法基于机器学习算法，设计关键窗口模型和多摄像头关联程度计算策略，为后续的视频数据量缩减和进一步的视频处理做准备。本文主要的研究工作总结如下。1)提出了一种新

14、颖的多摄像头视频协同分析方法。该方法首先对每个摄像头采集的视频进行目标检测；然后根据目标检测的结果生成关键窗口，对视频进行特征提取和初步筛选；随后结合提取的特征利用重识别技术对检测到的目标进行标注，并根据标注结果计算多摄像头之间的关联程度值；最后基于关联程度值对视频进行压缩处理。2)设计了用于表示不同摄像头视频帧中感兴趣区域（RoI,region of interest）的关键窗口。首先对视频帧进行分块处理，然后基于包括重要目标的区域块构建关键窗口。同时本文提出多摄像头关联性计算策略，基于摄像头关键窗口中目标的标注结果，计算不同摄像头之间的关联程度。3)提出了一种 GC-ReID 算法来实现多

15、摄像头视频协同分析方法。GC-ReID 结合图卷积网络（GCN,graph convolutional network）和重识别（ReID,re-identification）技术，利用 GCN 对各摄像头中的重要目标进行快速检测，并结合关键窗口迅速提取视频数据特征。同时，利用 ReID 对关键窗口的数据特征进行快速标注，结合计算策略得到多摄像头之间的关联程度值。1 相关工作对于引言中所讨论的问题，近期已有学者进行16 通信学报第 44 卷了相关的研究。其中，一些学者结合不同的视频处理策略和边缘计算的能力提出了在边缘服务器上进行视频分析的方法；另一些学者在结合边缘计算技术的基础上，

16、研究视频分析中多个摄像头之间的资源竞争；此外，还有学者关注多个摄像头检测到的目标之间的匹配关联性。本节对这些相关研究进行简要回顾和分析。现有的视频分析研究主要利用边缘或云的计算能力进行视频分析和处理，以从视频中提取关键特征和有效信息。Yang 等3提出了基于检测的跟踪方法，适用于边缘端高分辨率视频的分析。赵羽等4提出了一种部署在边缘端的视频处理方法，利用轻量级的神经网络和联邦学习分场景训练模型。Gao 等5提出了一种针对云边缘视频流的智能视频处理架构，在云端部署并执行基于深度神经网络（DNN,deep neural network）的视频增强方法。然而，这些研究仅考虑对单个摄像头采集的视频进行

17、分析，而未涉及跨摄像头和多摄像头的视频分析和处理。关于视频分析中多个摄像头的资源竞争研究主要关注摄像头视频的任务卸载和计算资源分配。Chen 等6研究了多服务器和多用户的异质视频分析任务卸载问题，基于博弈论进行卸载算法设计，最终使多服务器多用户的视频分析任务卸载达到纳什均衡。Yang 等7提出了终端、边缘和云协同的实时视频分析方法，通过对终端摄像头进行资源分配，使其能够根据实时视频生成高质量的视频帧。Wang 等8研究了多个视频流在同一边缘节点上共享上传链路时的配置自适应和带宽分配问题，提出了联合优化配置适应和带宽分配的在线算法。Ran 等9提出了在边缘端部署算力更强的服务器，利用深度学习模型

18、来确定终端视频分析任务的最佳卸载策略，并以时延和准确率等作为目标来优化资源调度。Hung 等10通过引入主导需求来确定多种资源和准确性之间的平衡，并利用层次聚类缩小搜索空间，同时平衡了视频查询的资源效益和准确性损失。上述多摄像头视频分析方法主要研究边缘系统下多摄像头视频分析任务的分配和卸载，而对于摄像头本身视频数据进行协同处理的方法较少，缺乏对不同摄像头视频数据之间关系的细致分析，并且对视频画面之间的关联程度考虑有限。一些学者研究了多个摄像头检测到的目标之间的匹配关联性，并提出了进行协同视频处理的方法。Guo 等11提出了多人物多摄像头实时视频跟踪框架，设计了基于时间的运动模型研究视频采样帧之

19、间的精确时间间隔，并利用改进的多人匹配级联方案提高摄像头间人员再识别的准确性。Chung 等12提出了一种多摄像头多目标车辆跟踪系统，利用车辆行为、合成数据和多种增强技术执行视频数据的上下文约束，从而减少跨摄像头的分析时间。Li 等13提出了一种车辆跟踪系统，包括基于特征提取的车辆检测和再识别模型、单摄像机跟踪、增强轨迹预测和多级关联方法。Liu 等14提出了一种基于遮挡感知的多目标多摄像头跟踪框架，设计了目标间信息模块提高匹配精度，并利用目标间关联发掘轨迹相似性，最后通过聚类对不同摄像头之间的目标轨迹进行匹配。Li 等15设计了视频分析系统 Reducto，根据不同的外部条件自定义滤波器对多

20、摄像头的视频帧进行过滤，并通过丢弃视频片段中的帧来权衡传输成本和准确性。尽管上述多摄像头协同分析方法考虑到了摄像头检测到目标的匹配和关联度，但缺少对摄像头本身之间关联性的考虑，导致关键视频帧的筛选力度不足，甚至可能会错失关键目标物体。因此，挖掘多个摄像头之间的实时关联并实现更高效的协同视频分析具有更重要的意义。2 多摄像头视频数据协同分析模型构建本节提出了一种多摄像头视频协同分析（MVCA,multi-camera video collaborative analysis）方法。如图 1 所示，该方法适用于同一环境中配备有多个摄像头的场景。这些摄像头从不同的角度和方向采集场景视频，并将其传输

21、到边缘服务器。边缘服务器对接收到的视频进行分析和处理，其中包括使用GCN 算法建立关键窗口，利用 ReID 算法的结果计算多摄像头之间的关联程度。关联程度值可以作为对视频进行压缩的参考依据。最后，将压缩后的视频在边缘端或者传输到云服务器进行深入分析和处理。这种方法大大减少了视频处理数据量，降低了系统时延，并减轻了边缘服务器和云服务器的负担，有助于最大化边缘系统的整体效用。GCN 和 ReID 的构建和训练在云服务器离线完成，然后分别部署到直连边缘服务器和主边缘服务器上。第 8 期期治博等：基于边缘计算的多摄像头视频协同分析方法 17 2.1 边缘系统模型本文在边缘侧部署了多个摄像头，以捕获

22、多个角度的实时视频数据。摄像头集合表示为123,xNn n nn，其中，x为摄像头的数量。边缘服务器由一个主边缘服务器Ms及与摄像头直接连接的直连边缘服务器123,xMm m mm组成。每个摄像头都与一个直连边缘服务器相连。主边缘服务器用于计算多个摄像头之间的关联程度，而直连边缘服务器用于生成关键窗口。压缩后的视频可以在主边缘服务器或者由直连边缘服务器传输到云服务器进行进一步分析，如图1所示。通过权衡视频分析开销和分析粒度，本文对若干时间段的视频数据进行了分析，每个时间段T 的最小分析单元为一个时隙t，012,ytTt t tt，y 为时间段T 中最后一个时隙的编

23、号。在每个时间段T 的开始，不同摄像头拍摄的视频以一个时隙为单位进行分割并依次上传至直连边缘服务器。边缘系统模型的参数和含义如表1所示。1)通信模型如上文所述，多个摄像头N拍摄的视频将同时传输到各自的直连边缘服务器进行进一步处理。因此，本文使用频分多址（FDMA,frequency division multiple access）技术来处理多摄像头的视频传输任务。根据香农定理，可以得到摄像头zn（0zx，x表示摄像头的数量）的传输速率为 2lb 1zzzznnntnP GrW(1)其中，zntW表示摄像头zn在时隙t的上行带宽，znP表示摄像头zn的传输功率，znG表示从摄像头zn到直连边

24、缘服务器的信道增益，2表示背景噪声方差。表 1 边缘系统模型的参数和含义参数含义 N 摄像头集合 Ms 主边缘服务器 M 直连边缘服务器集合 T 时间段，组成单元为时隙 znr 摄像头zn的传输速率 zmr 直连边缘服务器zm的传输速率 tW 摄像头zn在t时隙的上行带宽 znP 摄像头zn的传输功率 znG 摄像头zn到直连边缘服务器的信道增益 2 背景噪声方差 tranznD 摄像头zn到直连边缘服务器的传输时延 tranznD 直连边缘服务器zn到主边缘服务器或云服务器的传输时延 comznD 计算时延图 1 MVCA 方法框架 18 通信学报第 44 卷与一些现有的研究

25、16-17类似，本文所提方法中忽略了主边缘服务器在得到多摄像头关联程度值后返回结果到各直连边缘服务器的时间成本。这是因为在视频分析和处理过程中，传输和分析结果所需要的时间代价比传输和处理视频数据所需要的时间代价要小很多。因此，当摄像头zn将拍摄的视频单元传输到相应的边缘服务器时，其传输时延tranznD为 tranzzztnunnu vDr(2)其中，ztnu表示摄像头zn在时隙t传输到直连边缘服务器的视频单元数量，uv表示每个视频单元中的数据大小（单位为字节）。虽然在本文中忽略了主边缘服务器返回结果到各直连边缘服务器的时间成本，但是直连边缘服务器会将生成的关键窗口区域和检测到的特征传输到主边

26、缘服务器和云服务器，因此本文也采用FDMA来处理多个直连边缘服务器的数据传输任务。同样根据香农定理，可以得到直连边缘服务器zm（0zx，x 表示直连边缘服务器的数量，也是摄像头的数量）的传输速率为 maincloud2()lb 1zzzzzmmmmtmPaGbGrW(3)其中，zmtW表示直连边缘服务器zm在时隙t的上行带宽；zmP表示直连边缘服务器zm的传输功率；mainzmG表示从直连边缘服务器zm到主边缘服务器的通道增益；cloudzmG表示从直连边缘服务器zm到云服务器的通道增益；当直连边缘服务器传输数据到主边缘服务器时，1a 且0b，当直连边缘服务器传输数据到云服务器时，0a 且1b

27、；2表示背景噪声方差。同样，当直连边缘服务器zm将关键窗口和提取的特征数据传输到主边缘服务器或云服务器时，其传输时延tranzmD为 tranzzztmmmuu vDr(4)其中，ztmu表示直连边缘服务器zm在时隙t传输到主边缘服务器或者云服务器的视频单元数量，uv表示每个视频单元中的数据大小（单位为字节）。2)计算模型与现有研究8类似，本文使用虚拟并行处理技术18来支持同时执行多个摄像头视频分析，从而实现对多个视频进行并行处理。在计算模型中，摄像头zn所采集视频数据中每个字节的计算需求为rC（CPU周期）。因此，直连边缘服务器和主边缘服务器在处理视频时的计算时延comznD为 comzz

28、tnurneu v CDF(5)其中，eF表示执行视频处理的边缘服务器的CPU频率。本文设定所提方法中边缘系统的总时延totalD由传输时延和计算时延组成，即 trantrancomtotalzzzmnnDDDD(6)2.2 感兴趣区域与关键窗口建立为了便于发现不同摄像头之间的视频数据关联性，本文设计了一种对摄像头采集的视频帧进行分块的方法。具体而言，摄像头zn拍摄的视频帧被划分为大小相同的块状区域。这些块状区域是相对较小的矩形，它们共同构成并覆盖了视频帧的整个画面。如图2所示，每个摄像头采集的视频帧画面被划分为16个矩形区域块，按照从左到右和从上到下的顺序，索引分别为116。摄像头zn的区

29、域块集合用znR表示，其中第i个区域块被表示为,zn iR。如图2(a)所示，摄像头1采集视频帧的左上角，其中第一行的区域块可以表示为1,1R、1,2R、1,3R和1,4R，其余的区域块依次类推。需要注意的是，视频帧中的每个区域块并不特定于某一帧或某一时隙，进行区域分块是为了能够更精确地划分摄像头所采集的视频帧画面。图 2 摄像头 14 在时隙 t 内采集的视频帧画面第 8 期期治博等：基于边缘计算的多摄像头视频协同分析方法 19 在本文提出的MVCA方法中，首先需要使用机器学习算法对不同摄像头采集的视频帧进行快速检测，检测结果中可能包含目标物体的区域块即感兴趣区域，例如，移动的人或物体都

30、属于重要目标物体。这些感兴趣区域构成了关键窗口。在视频分析过程中，本文优先处理关键窗口内的区域块，因为这些区域块包含目标物体，而关键窗口以外的区域块动态性较差且缺乏目标物体，所以处理优先级级别较低，甚至被忽略而不进行分析和处理。在本文中，构成关键窗口的最小元素是以上所设计的区域块。摄像头zn的关键窗口用znK表示，即znK是包含目标物体的所有区域块的集合。例如，图2(b)展示了摄像头2的关键窗口，即斜纹阴影标注的区域块，包括区域块18。这些区域块是通过目标检测选择得到的，共同构成了摄像头2的关键窗口。因此，图2中摄像头14的关键窗口分别表示为 11,11,21,51,61,91,101,131

31、,14,KRRRRRRRR(7)22,12,22,32,42,52,62,72,8,KRRRRRRRR(8)33,33,43,53,63,73,83,93,103,113,123,15,KRRRRRRRRRRR(9)44,24,34,64,74,84,104,114,124,144,15,KRRRRRRRRRR(10)在进行视频数据处理时，为每个摄像头设计一个包含最少区域块的关键窗口非常重要，特别是当人们希望关键窗口适用于较长的分析时间时。这样在对视频进行处理时，只需要分析关键窗口中的区域就能够提取到视频数据中的关键信息，从而有效减少了视频数据的处理量。本文提出的GC-ReID利用GCN19快

32、速检测视频中的目标物体用以生成关键窗口，更详细的介绍见第3节。2.3 多摄像头关联性构建为了进一步减少视频数据的分析量，本文设计了多摄像头关联性的构建方法。其主要原理是采用机器学习算法对于关键窗口中的目标物体进行检测并提取特征，然后对提取的特征进行分类。根据分类结果为关键窗口中每个检测到的物体分配一个ID号。然而，由于这些摄像头处于同一场景下，不同摄像头采集的视频帧往往会捕捉到相同的目标物体。因此，通过分类算法，同一物体将被赋予相同的ID号。例如，图2(a)和图2(b)分别表示在同一环境中2个不同的摄像头拍摄的画面。利用GC-ReID中的ReID算法，可以识别2个画面中相同的人物，为其分配相

33、同的ID号。假设同一场景下同一时隙检测到的目标物体的集合为123,oLl l ll。虽然角度不同，但是人物1l、2l、3l、4l和5l同时出现在摄像头1和摄像头2的视频帧中，即他们在2个摄像头中都被检测到。然而，人物6l只出现在图2(b)中，即只被摄像头2检测到。根据GC-ReID算法对整个时间段T的处理结果得到每个摄像头的关键窗口，然后，根据这些关键窗口的内容继续发掘不同摄像头之间的关联性。目标物体jl（1jo，o表示目标物体数量）在任意时隙t出现在摄像机zn的关键窗口中的最小区域块的集合表示为,rszjn t（,rszzjn tnK）。然而，由于目标物体jl可能出现在多个摄像头的关键窗口中

34、，因此将在时隙t多个摄像头画面中有目标物体jl出现的区域块集合表示为RSjt，即 ,rs|1rsRSzzjjn tn tjtzx，(11)在图 2 中，共有 10 个目标物体在时隙t被同一场景下配备的摄像头检测到，表示为57123468910,tLl l l l l l l l l l。tL表示检测到的目标物体的集合，其中1l、2l和5l出现在摄像头 1和摄像头 2 的两帧中。它们出现的区域块集合分别为 11,91,101,131,142,12,22,52,621,51,61,91,101,142,22,6,RSRSttRRRRRRRRRRRRRRR51,21,62,

35、52,7,RStRRRR(12)而目标物体6l只能被摄像头 2 检测到。因此，6RSt可以表示为 62,22,6,RStRR(13)依次类推，表 2 中列出了 10 个所检测到目标物体的所有区域块集合 RSt。根据表 2 可以观察到，不同摄像头之间检测到相同目标物体的数量存在差异。当 2 个摄像头检测到相同目标物体数量较多时，可以认为它们之间的关联性较强。为了便于分析不同摄像头之间的关联性，本文使用式(14)来计算关联程度值AS。20 通信学报第 44 卷 123AS(,)oxn n nns 121,RSs.t.0,jxlnnntsRRRs其他(14)其中，123(,)xn n nn代

36、表不同的摄像机，o代表时隙t检测到的目标物体tL的数量。例如，在计算摄像头 1 和摄像头 2 的关联值的过程中，对于所有检测到的目标物体，其所处区域块1,*R和2,*R都同时属于1RSt、2RSt、3RSt、4RSt和5RSt，即同时出现在摄像头 1 和摄像头 2 视频帧中的目标物体有1l、2l、3l、4l和5l，因此根据式(14)可以计算得到摄像头 1 和摄像头 2 的关联值为 5。3 多摄像头视频数据协同分析方法实现本文设计了 GC-ReID 算法用于实现多摄像头视频协同分析方法。如图 3 所示，各摄像头直连的边缘服务器并行执行 GCN 算法，从多个摄像头采集的视频数据中筛选关键特征，并

37、根据这些特征建立关键窗口模型。随后，直连边缘服务器将关键窗口的内容传输到主边缘服务器。主边缘服务器使用 ReID 算法，将 GCN 的结果和提取的关键窗口的内容作为输入，对关键窗口中检测到的目标物体进行筛选并分配 ID 号。根据 ReID算法的处理结果，计算不同摄像头之间的关联程度值。随后将关联程度值返回到直连边缘服务器，根据这些关联程度值对多个摄像头采集的视频进行压缩和优化。最后，压缩后的视频可以选择在主边缘服务器或者传输到云服务器上进行进一步分析和处理，例如目标检测和目标跟踪等。GCN 和 ReID 算法的构建和训练均事先在云服务器完成并下发到边缘服务器。图 3 GC-ReID 的总体流程

38、 3.1 关键窗口的建立本文采用 GCN 提取摄像头采集的视频帧的关键特征，并检测其中的目标物体。最后，根据包含这些目标物体的区域块构建每个摄像头的关键窗口，详细结构如图 4 所示。图 4 中的输入是连续的视频帧片段，由摄像头采集并上传到直连边缘服务器。输入 GCN 模块后先使用两层卷积层初步提取视频帧的特征。然后将处理后的连续视频帧建模为图,GV E。其中，节点集合为12,zVv vv，z表示节点的数量；边集合为tempsemaEEE，tempE表示时间边，semaE表示语义边。一个节点表示一个视频帧，一条表 2 图 2 中区域块的集合时隙检测到的目标物体区域块集合 t 571234

39、68910,tLl l l l l l l l l l 11,91,101,131,142,12,22,52,621,51,61,91,101,142,22,631,21,62,32,42,72,84,64,104,1441,21,62,52,74,74,11RS,RS,RS,RS,ttttRRRRRRRRRRRRRRRRRRRRRRRRRRRRRR51,21,62,52,762,22,673,53,63,93,104,74,84,114,1283,53,94,84,1293,73,113,15104,24,6RS,RS,RS,RS,RS,RS,ttttttRRRRRRRRRRRRRRRRRR

40、RRRRR 第 8 期期治博等：基于边缘计算的多摄像头视频协同分析方法 21 边表示一对节点之间的依赖关系。随后使用图卷积结构块提取特征。图卷积结构块包含 2 个图卷积流：时间流操作固定的时态相邻特征，语义流自适应地将语义上下文聚合到视频帧特征中。下面将描述 2 种卷积流边的设计以及图卷积过程。1)时间边时间边tempE的目标是对视频帧按照时间顺序进行编码。每个节点ivV都有一个到节点1iv的前向边和一个到节点1iv的后向边。因此，fwbwtemptemptempEEE。其中，fwtempE和bwtempE分别表示前向和后向的时间边集合，如式(15)和式(16)表示。

41、fwtemp1(,)|1,2,1iiEv viz(15)bwtemp1(,)|2,1,iiEv vizz(16)2)语义边语义边semaE是由动态边卷积的概念定义的20，它是根据图节点之间的特征距离动态构建的。语义边的作用是从语义相关的视频帧中收集信息。图G中每个节点iv的语义边semaE的定义为 semanr()(,)|1,2,;1,2,iikEv vizkK(17)其中，nr()ik表示节点iv的第k个近邻节点索引，K表示近邻节点索引数量。nr()ik是在图卷积块上动态确定的，通过它能够更新整个图卷积块中本质上携带语义上下文信息的节点。因此，semaE可以自适应地改变以表示新的语义上下文

42、级别。3)图卷积和流聚合图G中所有节点的特征表示为12,y yY c zzy，其中，c表示每个视频帧的特征维度。本文使用单层边卷积20来进行图卷积操作GC。TTTTGC(,)(,)Y A WYAYYW(18)其中，2c c W表示可训练的权重矩阵，z zA表示不带自环（节点和它本身之间的边）的邻接矩阵，*,*表示列的矩阵串联。本文将A中的第(,)i j个元素表示为(,)1(,)ijA i jv vE，其中，1*是指示函数。图卷积结构模块中的 2 个卷积流都分别设计了 32 条路径来增加转换的多样性。图卷积结构模块的输出是语义流和时间流以及输入的聚合，可以用式(19)表示。fwfwtempte

43、mp(,)ReLU(GC(,)HY A WY AWbwbwtemptempsemasemaGC(,)GC(,)Y AWY AWY (19)其中，fwtempA、bwtempA和semaA是邻接矩阵；fwbwtemptempsema,WWWW是可训练权重，分别与fwtempE、bwtempE和semaE相对应；ReLU 是激活函数的线性整流单元。2 种图卷积流都遵循分裂转换合并的策略，首先，使用多个卷积流来对图进行更新和聚合，输出作为进一步提取的特征。然后，将提取的特征输入定位模块，其中锚点定义的子图由固定大小的特征表示。最后，定位模块对视频帧中的目标物体进行定位和检测，根据定位结果结

44、合关键窗口的建立图 4 GCN 的结构 22 通信学报第 44 卷方法输出关键窗口。3.2 多摄像头关联性的构建本文采用 DiDi-MTMC21算法为关键窗口中检测到的目标物体分配 ID 号。该算法将从视频帧中提取的特征进行融合，并结合融合后的特征进行分类。该算法可为多个摄像头拍摄视频帧中的每个目标物体（本文场景中为人）分配一个唯一的 ID 号。通过对这些 ReID 的结果进行筛选，并根据计算策略计算多个摄像头之间的关联程度。GC-ReID 算法如算法 1 所示。算法 1 GC-ReID 算法输入 GCN 和 ReID 的模型参数，同一场景下摄像头的数量输出摄像头之间的关联

45、性 1)for t=1:T 2)各摄像头对采集到的视频进行初步处理 3)将初步处理后的视频片段传输到直连边缘服务器 4)直连边缘服务器利用训练好的 GCN 模型进行特征提取和目标物体检测 5)根据提取的特征得到关键窗口 6)直连边缘服务器将关键窗口包含的视频片段传输到主边缘服务器 7)主边缘服务器利用 ReID 模型对关键窗口中的目标物体进行进一步的检测并分配ID 号 8)t=t+1，进入下个时隙 9)end for 10)输出摄像头之间的关联程度AS并返回直连边缘服务器 11)直连边缘服务器结合关联程度值进行视频压缩后将处理后的视频传入云服务器 3.3 视频压缩摄像头采集的视频经过边缘服务

46、器的处理后传输到云服务器进行进一步的处理。在边缘服务器进行处理可以得到每个摄像头的关键窗口和摄像头之间的关联程度。因此，本文可以结合关键窗口和摄像头之间的关联程度对多个摄像头采集的视频进行视频帧筛选和压缩。压缩后的视频能够减少视频数据量，并提升云端视频处理的效率。在视频压缩过程中，首先根据当前时段各摄像头生成的视频帧的关键窗口对视频画面进行分割，去除关键窗口以外的视频帧区域，只保留关键窗口区域进行后续分析。然后，如果边缘端或者云端工作人员想要查看特定摄像头采集的视频或者某个摄像头中重要物体出现的画面，主边缘服务器会对选定摄像头与其余摄像头的关联程度值进行排序。根据排序结果，优先传输关联程度较高

47、的摄像头视频帧的关键窗口区域到主边缘服务器或云服务器进行进一步的分析和操作。这样，只需处理关联程度较高的几个摄像头的关键区域，可以大大缩减视频分析的数据量，同时提升分析效率。4 实验结果及分析本文通过相关实验，从不同评价指标的角度来对所提出的 MVCA 方法的性能进行分析。此外，本文还将 MVCA 方法与其他方法进行了比较，并对结果进行了讨论。4.1 实验环境和数据集仿真实验是在 SALSA 数据集22的录制视频上进行的。该数据集展示了某学术会议海报会场（如图 2所示）中不同人员的活动和交流情况，该会场配备了 4 个不同方向的摄像头，分别是摄像头 1、2、3和 4。每个摄像头可以利用直连边

48、缘服务器生成各自的关键窗口，并实时检测和分配人员的 ID 号。所采集的视频编码标准和格式分别为 H.264 视频编码标准和在主要网络广播应用中支持流媒体的MP4 格式。仿真环境边缘服务器的配置包括一个英特尔酷睿 i5-10400F CPU 和一个拥有 8 GB 内存的Nvidia GeForce GTX 1080 GPU。实验中视频片段的持续时间设定为 2 s，帧率为 30 Hz。4.2 实验结果分析进行多摄像头视频协同分析时，本文需要在保持分析效果较好的前提下，尽量降低处理的代价。为了评价视频分析方法的性能，需要考虑准确性和代价。本文使用准确率、系统时延和视频压缩率作为性能评价指标。为了验

49、证所提出的 MVCA 方法的性能，本节设计了消融实验和不同方法的性能比较。通过对实验结果进行详细的数据和理论分析，进一步验证了所提方法的有效性。1)性能评价指标准确率。本文采用准确率 Accuracy 作为指标之一来对方法的性能进行评价，如式(20)所示。其中，trueQ表示场景中的实际人数，decQ表示检测到的人数。然而，由于本文使用的数据集未提供场景中的第 8 期期治博等：基于边缘计算的多摄像头视频协同分析方法 23 实际人数，因此在实验仿真中使用 YOLO V3 方法23的检测结果作为人员检测的正确基线。dectrueAccuracyQQ(20)系统时延。系统时延可以反映视频分析方法

50、的实时性，低时延会有更好的用户体验。在本文中，视频以及处理后的数据在摄像头和直连边缘服务器之间、直连边缘服务器和主边缘服务器之间、直连边缘服务器和云服务器之间进行传输会产生传输时延。此外，关键窗口的生成和多摄像头关联程度的计算会产生计算时延。本文的系统时延主要包括传输时延和计算时延，如式(6)所示。视频压缩率。为了在保持准确性的前提下降低系统时延并提升系统效用，视频分析方法需要减少视频分析量。因此，本文将视频压缩率 Rc 作为本文方法的性能评价指标之一，如式(21)所示。其中，compB表示压缩后的视频数据量，initB表示原始视频数据量，视频数据量的单位为 MB。本文实验重点观察摄像头 1

展开阅读全文