基于事件相机的敏感生物信息隐私保护研究进展.pdf

资源描述

1、基于事件相机的敏感生物信息隐私保护研究进展DOI 10.15302/J-SSCAE-2024.01.017基于事件相机的敏感生物信息隐私保护研究进展沈艳晴 1,2,3，董鹏飞 1,2,3，张恙菁 1,2,3，陈仕韬 1,2,3，郑南宁 1,2,3*（1.人机混合增强智能全国重点实验室，西安 710049；2.视觉信息与应用国家工程研究中心，西安 710049；3.西安交通大学人工智能与机器人研究所，西安 710049）摘要：进入大数据时代后，互联网应用和信息服务全面普及，大量的个人敏感生物信息被收集整理，导致隐私泄露风险增加；事件相机作为新型的生物启发式传感器，具有低延迟、高动态、无纹理等特性

2、，可为解决数据端隐私保护问题提供全新的技术途径，也因其光敏工作原理而适用于家庭监控等私人场景。本文从大数据时代的隐私泄露问题、事件相机在隐私保护中的优势两方面，深入分析了事件相机用于隐私保护的研究背景；系统梳理了基于人脸模板的隐私保护、基于去识别的隐私保护、基于点云混沌加密的隐私保护等传统的敏感生物信息隐私保护方法，包括行人重识别、手势识别、面部分析在内的面向隐私保护的事件感知方法以及两大类方法的研究进展。进一步总结了强度图像重建、图像修复、视频重建等基于事件流的图像重建与修复新进展，完成了基于6种算法的图像重建及其结果分析，证明已有重建算法对纹理信息的恢复能力有限，反向验证了基于事件相机的隐

3、私保护技术可行性。针对事件相机未来的规模化应用，提出了降低硬件成本、改进算法网络、从市场角度推动等发展建议，以期为事件相机的隐私保护深化应用提供基础参考。关键词：智能系统；事件相机；隐私保护；敏感生物信息中图分类号：TP18 文献标识码：APrivacy Protection of Sensitive Bioinformation Based on Event CamerasShen Yanqing 1,2,3,Dong Pengfei 1,2,3,Zhang Yangjing 1,2,3,Chen Shitao 1,2,3,Zheng Nanning 1,2,3*(1.National Ke

4、y Laboratory of Human-Machine Hybrid Augmented Intelligence,Xian 710049,China;2.National Engineering Research Center for Visual Information and Applications,Xian 710049,China;3.Institute of Artificial Intelligence and Robotics,Xian Jiaotong University,Xian 710049,China)Abstract:In the era of big dat

5、a,the widespread adoption of Internet applications and information services has resulted in the extensive collection of individuals sensitive biological information,increasing the risk of privacy breaches.Event cameras,as novel bio-inspired sensors,exhibit characteristics such as low latency,high dy

6、namics,and texture independence.They offer a fresh technological approach to addressing privacy protection issues on the data side,making them suitable for private applications like home monitoring.This study thoroughly analyzes the research background of using event cameras for privacy protection,f

7、ocusing on the privacy leakage issues of the big data era and the advantages of event cameras in privacy protection.It systematically reviews traditional methods for protecting sensitive bioinformation privacy,including face-template-based privacy protection,de-identification-based privacy protectio

8、n,and privacy protection based on point cloud chaotic encryption.Additionally,it has examined 收稿日期：2023-10-30；修回日期：2023-12-26通讯作者：*郑南宁，西安交通大学人工智能与机器人研究所教授，中国工程院院士，研究方向为无人驾驶、计算机视觉、具身智能；E-mail:资助项目：中国工程院咨询项目“混合智能及产业集群发展战略研究”(2022-PP-07)本刊网址： 2024 年第 26 卷第 1 期the research progress in privacy-preservi

9、ng event perception methods,including pedestrian re-identification,gesture recognition,and facial analysis.Further,the study also summarizes advancements in event-based image reconstruction and restoration,including intensity image reconstruction,image restoration,and video reconstruction,based on s

10、ix algorithms.The results demonstrated that existing reconstruction algorithms have limited capability in recovering texture information,and the feasibility of the privacy protection technology based on event cameras is confirmed.For the future scaled-up application of event cameras,development reco

11、mmendations are proposed,including reducing hardware costs,improving algorithm networks,and driving initiatives from a market perspective,aiming to provide a foundational reference for the deepened application of privacy protection using event cameras.Keywords:intelligent system;event camera;privacy

12、 protection;sensitive bioinformation一、前言进入大数据时代后，随着科学技术的迅速发展和信息技术的逐步普及，人们享受着推荐算法、语音识别、图像识别等智能技术，无人驾驶、移动智能体、监控系统等智能物理系统带来的便利。与此同时，个人的信用信息甚至敏感生物信息被大规模收集和处理，成为一种宝贵的资源。相较个人的信用信息，个人的敏感生物信息，如面部信息、身体特征、虹膜特征等，往往没有得到足够的重视和保护。针对敏感生物信息的隐私保护，目前有不少面向个人信息的隐私保护技术（如数据匿名化）研究1。例如，在基于图像或视频的目标检测、行为分析、场景理解等任务中，大多数算法多对输入

13、数据进行隐私过滤和模糊化处理，包括对人脸、车辆等隐私关键区域进行模糊处理，采用遮挡、加密等手段隐藏敏感信息。然而，这些隐私保护技术大多针对外部攻击而设计，并未考虑潜在的内部攻击，也难以应用于端到端的隐私保护。因此，数据端的隐私保护变得格外重要2。相比可见光相机，激光雷达不会直接获得人脸、身体细节等个人身份信息的数据，而是主要关注环境和物体的形状、位置等特征，在一定程度上实现了数据端的隐私保护。事件相机是一种新型的生物启发式传感器，为解决数据端隐私保护问题提供了全新的思路。近年来，事件相机技术快速发展，在很多视觉感知任务上可以取代可见光相机3；在面部重识别等特定视觉感知任务中，既可以很好保护个人

14、的敏感生物信息，又能够实现可观的任务精度和表现；甚至在部分场景下，基于事件流的算法比普通视觉算法更为简单。例如，对于扫地机器人在运行过程中的避障问题，事件相机得到的响应输出即对应着障碍物，而普通相机还需目标检测算法。也要注意到，从事件流中重建图像的算法4可能会在一定程度上对事件流的隐私保护性能造成不利影响。本文从数据端的隐私保护出发，讨论敏感生物信息隐私保护的必要性、事件相机的相关应用潜力，梳理传统敏感生物隐私保护方法、面向常见任务且基于事件相机的相应算法；比较基于事件相机的图像重建及恢复算法，探讨并量化分析造成的隐私保护攻击效果，以反向验证事件相机用于隐私保护的技术可行性。二、事件相机用于隐

15、私保护的研究背景（一）大数据时代的隐私泄露问题智能系统及智能技术在信息的采集、存储、传输、销毁等阶段，都可能导致隐私泄露问题（见图1）。智能系统普遍配置以彩色图像为输入的感知算法，用于环境感知与导航、人脸识别、行为识别与监控等。这类算法会造成数据采集过程的敏感生物信息泄露，将拍摄的图像信息与真实世界中的个人构建联系起来。室内移动机器人、室内监控可能被侵入者控制，用于主动非法监视并录制敏感区域。凡是有敏感生物信息输入的系统，均存在较为迫切的数据端隐私保护需求。数据存储设备或数图1大数据时代中的隐私泄露203基于事件相机的敏感生物信息隐私保护研究进展据库可能没有得到适当的物理保护或存在安全漏洞，很

16、容易被内部攻击者盗取数据或将数据泄露给未授权的人员，进而滥用采集的个人数据或个人身份信息。数据处理分为数据传输、数据销毁两个阶段，隐私泄露会分别或同时在两个阶段中发生。在数据传输过程中，窃听技术可以截取数据包，不安全的公共无线网络、不加密的网络连接会使数据被截获和篡改。在大数据应用中，不同组织或机构之间开展较多的数据共享合作，可能在未经用户同意的情况下将数据分享给第三方（如其他应用程序、社交媒体平台、数据经纪商等），从而扩大隐私泄露范围。个人的匿名化数据在共享过程中也可能被重新识别和关联。在数据销毁过程中，不正确地处理废弃的存储介质、不彻底地删除数据，均可能导致数据泄露。如果数据没有进行隐私保

17、护，用户信息可能被窃取并被用于非法或非道德的行为，而隐私保护是大数据时代中每个人的基本需求。隐私保护不仅关乎个人的隐私权益，也与经济社会发展的稳定性和公平性相关。如果信息技术企业、公共管理机构在处理数据时不能充分保障公众的数据隐私，将使不法行为难以监管、偏见及歧视现象增多。隐私保护又是建立信任的基础，公众只有在个人隐私受保护的前提下才会愿意共享数据并参与数据驱动的创新活动。因此，隐私保护是防止个人信息被滥用和不当使用的重要手段，需要在保护隐私的前提下开展相关的人工智能算法研究；需要尤其注重数据端的隐私保护，这将显著降低社会整体隐私泄露的风险和概率。（二）事件相机在隐私保护中的优势分析作为大数据

18、时代具有高应用潜力的传感器，事件相机可在人工智能（AI）算法的隐私保护中发挥突出作用。从成像原理来看，事件相机像素电路的关键组件包括光感受器、变化放大器：前者响应入射光，生成与光强度成正比的电流并将之转换为输出电压；后者监测该输出电压的变化，产生反向且放大的输出电压。当变化放大器的输出超过预设阈值时，事件相机像素才会生成“事件”；1个“事件”包含光强度的增加或减少信息，通过数字输出来传送相关信息。与传统相机的最大不同在于，事件相机不是根据固定的时间间隔来捕捉静态的图像帧，而是异步测量各个像素的亮度变化。事件相机可以自动检测并跟踪运动及行为，输出没有颜色和详细纹理的信息，不直接捕捉也不存储个人或

19、物体的详细特征，可以自然隐藏敏感的视觉细节，显著提升原始数据的安全性。事件相机在低光照条件下的工作效率很高，能够记录快速运动，具有高时间分辨率（毫秒级）、高动态范围（140 dB）、低功耗、高像素带宽等特性，有效减少曝光成像产生的运动模糊，与动态识别场景、主流的智能感知算法需求相匹配。一些基于隐私保护的感知算法已开始商业应用。韩国三星公司发布了基于商用动态视觉传感器的家庭监控摄像头，突出隐私保护和人为检测功能，适用于智能家居安全监控和事故检测（如坠楼检测、入侵者检测），还可由用户屏蔽特定区域。日本相关企业开发了基于事件相机的驾驶员和占用监控解决方案，融入了眼动追踪、头部姿势检测、眼镜/面罩检测

20、、睁眼或闭眼检测等算法。虽然激光雷达也能在一定程度上实现数据端的隐私保护，但因其获取数据在时/空层面具有稀疏特性，在执行多数事件相机、可见光相机可实现的任务（如手势识别、眼动追踪）上存在局限性。此外，激光雷达的成本明显高于事件相机，而事件相机将在量产后进一步降低成本。因此，激光雷达很难替代事件相机和可见光相机。红外相机、热成像相机输出基于热辐射的连续图像帧，展示物体的温度分布而不是可见光下的视觉图像，但和可见光相机一样面临着时/空层面稀疏性的问题，也与激光雷达一样不具有成本优势。三、传统的敏感生物信息隐私保护方法（一）基于人脸模板的隐私保护在执行人脸识别任务时，传统的可见光传感器往往采集大量的

21、非核心信息，尤其是与人脸纹理相关的细节；这些信息虽然有助于识别，但包含了丰富的个人生物特征5，可能导致隐私泄露。理想的隐私保护技术应当只保留进行基本人脸识别所需的最少信息，排除可能泄露敏感生物属性的数据，以兼顾保护隐私、不影响人脸识别的目标。针对性提出了基于人脸模板的隐私保护技术，用于去除人脸模板中多余的隐私数据。204中国工程科学 2024 年第 26 卷第 1 期早期的研究多使用对抗网络、决策树等方式611，往往只能在人脸模板数据中抑制单个或数个特征（如性别、种族等）。使用对抗网络来计算中间表示6，可以用于预测目标标签，很难用于预测私有标签；采用基于3个子网络的整体架构，其中第3个网络

22、充当对抗者以尽量“破坏”中间表示的匿名性。这种设计方式允许一部分网络专门用于预测目标标签，另一部分网络尽量从中间表示中提取私有信息，从而实现对抗性。然而，人脸识别模板中含有众多的特征数据，仅依赖决策树、对抗网络等任务驱动的方法来逐一删除敏感信息是极为困难的5。负面部识别方法 12中的负模板用于描述个体不存在的面部特征，从而实现无监督的隐私保护；采用基于最小信息单元的隐私增强人脸识别方法13，利用面部识别、面部属性估计结构差异，只保留最小的识别特征，实现了隐私保护功能。（二）基于去识别的隐私保护随着信息技术的广泛应用，大量的传感器感知数据用于以人为目标的识别、路径追踪与预测等任务14。这其中，识

23、别具体个体的身份是多余的，泄露隐私的风险也依然存在。为此，基于图像的“去识别”策略开始受到关注，旨在彻底消除传感器采集的与个人隐私相关的数据，而不是仅去除人脸模板中的部分隐私信息。这类方法不考虑数据匹配需求，侧重在源头删除任何可能泄露个人身份的信息，以确保最大程度的隐私保护。1.嵌入式隐私保护随着物联网、智能设备的普及，数据采集阶段的隐私保护变得更加重要15。嵌入式隐私保护能够直接在嵌入式硬件上进行数据加密，确保数据在离开源头之前就经过安全处理。这意味着数据在传输、存储等进一步处理之前即得到初步的保护。在嵌入式智能相机上率先开展可信计算概念评估，将隐私保护机制集成至硬件层16。类似地，在低功耗

24、嵌入式平台上实现视频的去识别处理，且在摄像机上进行视频转换以增强安全性17。尽管在嵌入式系统上成功实现了图像隐私保护，但由嵌入式系统采集的原始数据仍包含完整的成像信息。光学层面的实时视频流遮挡技术可进一步提高数据在采集阶段的隐私安全性，在由红外相机、红绿蓝（RGB）相机、硅基液晶器件组成的原型相机上进行了测试18。原型相机在捕获场景前将检测到的人脸进行光学隐藏，确保在物理层面上无法记录任何人脸信息，据此消除人脸相关隐私信息的泄露风险；进一步地，在成像过程中只对特定类别的物体进行成像，而对其他类别物体进行光学擦除19。该方案能够为特定任务提供高效且保护隐私的成像方式，无需额外的计算资源；和事件相

25、机隐私保护思路类似，但因设计过于复杂（需要根据不同目标物体的成像提出特有方案），很难像事件相机一样获得广泛使用。嵌入式隐私保护的重要环节之一是应用算法部署，需要降低存储需求、提高运行效率、增强网络性能，因而面向事件相机的轻量化算法设计至关重要2022。例如，基于特征维度映射的基本原理，构建了嵌入式轻量化脉冲神经网络20。2.可逆加密策略应用嵌入式隐私保护方法处理后的图像或视频，往往会丢失原始的有效信息，适用与人脸信息无关的下游任务。例如，使用几何变换方法来模糊视频监控中的面部23，将受保护区域内的像素移动到不同的位置，从而破坏图像中的视觉细节、相邻像素的关系。然而，该方法会降低图像质量，导致视

26、觉效果严重扭曲。为此，采取基于联合图像专家组（JPEG）转换的“安全JPEG变形”技术24，对选定的图像区域（如面部）进行定制化视觉操作，具备可逆性和较高的隐私保护能力，也能实现直观和个性化的视觉效果。3.面部编辑技术在特定的应用环境下，研究者期望加密后的图像尽可能地保持自然，面部编辑技术应运而生。采用专有算法2529，对图像中的面部进行替换而非简单模糊或加密，在一定程度上维持了图像的视觉审美和实用价值，符合人的视觉习惯。近期，属性感知匿名网络30通过编辑面部特征实现适度去标识化，即只对面部进行适当修改而非完全替换，保证面部的真实感；有别于传统的去标识化方法，能够更精细地控制面部属性的变化。保

27、留面部的重要线索（如表情）以供下一步的行为或情绪分析，可使加密后的图像仍有一定的实用性。在对敏感区域进行加密时，将原始输入图像（或选定区域）转换为具有卡通外观的抽象表示，205基于事件相机的敏感生物信息隐私保护研究进展可以降低生物识别的可能性并保留一些实用性，允许推断行为信息并感知动作31。基于变分自适应滤波的面部去标识技术，保留了关键的面部特征（如眼睛、嘴唇），同时隐藏身份，更好实现数据效用与隐私保护之间的权衡32。（三）基于点云混沌加密的隐私保护随着三维（3D）数据采集技术的发展，3D点云数据更易获取，为计算机辅助设计、医学图像处理等提供了新的可用资源。然而，这些数据可能包含敏感信息，如不

28、采取保护措施将增加隐私和知识产权泄露的风险。近年来，3D点云加密研究逐渐受到关注，集中在混沌加密算法上。对3D点云进行混沌映射加密，主要方案有两种：利用逻辑混沌映射产生3个随机向量，对每个随机向量进行排序，以此随机混淆3D点云的坐标；利用逻辑混沌映射产生由33旋转矩阵、31平移矩阵组成的44随机变换矩阵，然后将每个3D点混淆到齐次坐标中的另一个随机位置33。后续的混沌映射改进工作较多3436，如使用二维（2D）猫映射生成随机置换矩阵。此外，也有研究使用两级或多级加密处理方法3741，如先将混沌猫映射产生的序列进行升序排列以打乱数据的坐标，后将混沌猫映射生成的序列按降序排列以再一次打乱坐标。四、

29、面向隐私保护的事件感知方法配备环境感知算法的智能系统，如安防监控、家庭服务机器人、自动驾驶系统、人机交互系统等日益普及，加大了 RGB 图像/视频泄露隐私的风险。一般认为，事件相机具有完成涉及敏感生物隐私的多种感知任务的潜力，在更好保护敏感生物信息的同时，具有卓越的任务性能。在行人重识别、手势识别、面部分析等敏感生物视觉感知任务中，输入的RGB图像/视频都包含人的敏感生物信息和视觉隐私属性（如面部、虹膜、性别、种族、颜色、服装等）。对于行人重识别、手势识别，尽管基于RGB的方法并不依赖清晰的人脸等敏感信息来完成任务，但相关信息可能会被拍摄并收集到数据库中，构成隐私数据泄漏风险。对于面部分析，基

30、于RGB的方法依赖获取的敏感信息来完成任务；相关任务属于动态识别的范畴，有着较强的时空相关性且不依赖纹理信息，因而使用事件流解决问题是值得探索的方案。（一）行人重识别行人重识别用于在不同场景、不同时间拍摄的多个不重叠视图中识别同一个人，在视频监控及安全监控、检测并跟踪可疑人员、智慧城市等方向上有着重要的应用潜力。然而，在公共场所大规模使用监控摄像头引起了公众对侵犯个人隐私的严重担忧。当不法分子恶意获取监控视频后，可通过监控系统追踪其他人，会给公众的人身安全带来极大的隐患。大多数基于RGB图像的行人重识别方法需要借助外观特征，但不同时间的光照条件、天气条件，不同的服装可能导致同一个人的外观显示出

31、不同的特征，增加了使用RGB图像实现行人重识别的难度。为此，尝试采用一些算法以从步态等行为特征中提取个人特征，避免纹理信息对处理结果的影响，但RGB图像存在频率较低、动态信息不足等固有限制。在不采集纹理信息的前提下，原始事件流可以记录轮廓信息和行为特征，而异步事件流中包含的运动线索较RGB更丰富和更充分。现有的基于事件流的行人重识别方法主要依赖步态信息、动态面部特征。步态识别旨在根据人的行走模式确定其身份。当其他生物特征不可感知时，步态提供了在远距离或低分辨率条件下的识别可能性，也更难伪装。利用运动一致性去除噪声，使用深度神经网络作为分类器，以四通道事件图像作为输入来识别步态，明确了噪声事件流

32、用于步态识别的可行性42。受基于RGB图像的步态识别方法的启发，光流可作为输入对网络进行步态识别训练43。考虑到人体不同部位对步态的影响有差异，身体部位检测、姿态估计可辅助支持识别任务。基于图的卷积网络可用于提高步态识别的准确性44；卷积神经网络（CNN）获得广泛应用，将事件累积成帧，再经过极坐标变换处理后输入CNN中45。也有研究利用动态面部信息（如面部动作、眨眼模式）来推断可识别的特征，如空间时间的单流膨胀3D CNN46具有短时间面部动作条件下评估事件流以识别身份的能力。这项工作验证了面部动作对人脸身份分类、身份识别的重要性以及事件在206中国工程科学 2024 年第 26 卷第

33、1 期获取身份独特面部微动作上的有效性。基于眨眼特性的识别认证系统47，可在微秒级延迟下捕获人眨眼的微妙变化，通过生物特征（如持续时间、速度、能量、比率、频率等）来描述眨眼的运动、速度、能量、频率等信号。（二）手势识别手势无处不在，是贯穿于各个年龄段、各种文化的肢体语言，也与口头交流紧密结合，在虚拟现实（VR）、游戏、机器人控制、手语识别等视觉认知应用中具有重要价值。手势识别主要分为传统人机交互中的识别、手语识别，又可分为独立的手势识别、连续的手势识别。独立的手势识别将一段描述清晰的视频帧分类为某一组动作类型，仅需识别孤立词汇或短语级别的动作。连续的手势识别则需要从没有预先给定运动执行边界的输

34、入视频中检测所有手势的开始和结束时间，对应于完整的句子或连贯的思路。当前关于神经形态手势识别的研究，集中在独立手势识别的算法改进上。手势识别的准确性较多依赖于长时间、大范围的监控，这意味着用户的面部、外貌、私密信息等往往会在手势识别过程中被同时捕获；如果应用于隐私要求较高的空间，会让人感到不安。事件相机用于手势识别时具有明显优势。低延迟是手势识别系统的关键指标，流畅交互要求系统响应时间为100200 ms，这对传统相机而言极具挑战性，但与事件相机的固有特性相匹配。常用的手势速度非常快，而RGB相机很难识别快速的动作。异步事件流具有高的时间分辨率，在捕获动态时能够避免模糊。在真实的交互场景中，背

35、景可能非常复杂，导致从复杂的外观特征中识别手势难度较高。基于事件相机仅响应动态的成像原理，复杂的静态背景不会对识别过程产生干扰。1.基于人机交互的手势识别基于人机交互的手势识别研究在2011年首次出现，也是率先使用事件相机进行手势识别的工作之一48。尽管这项工作只是为“剪刀石头布”游戏设计的，但成功探索了基于机器学习的特征提取方法，在进入深度学习时代之前具有重要的研究意义。随后，多个使用浅层神经网络的手势识别系统完成了开发和商用，其中韩国三星公司完成了较多研究4952。在前期，提出了基于脉冲神经网络（SNN）的后处理框架，使用带泄漏整合发放模型（LIF）神经元来处理时空相关的原始异步事件流50

36、。然而，使用SNN这种浅层神经网络的分类方法5355一直受到“稳定性可塑性权衡”的困扰；考虑到自适应共振理论（ART）49可以模拟人类认知处理来克服这个问题，出现了ART与隐马尔科夫模型（HMM）或 CNN 联合使用以识别连续手势的研究51,52。采用浅层神经网络提取空间金字塔核特征，也可进行手部运动识别52。为了更好地保持基于事件序列数据的时空关系，采用半字符级循环神经网络56将卷积运算、循环连接结合起来。随着深度学习的发展，探索深度学习在手势识别方向的潜力成为研究热点。不同的输入形式对应于不同的特征提取网络。事件流上时空去马赛克的超分辨率技术是首个基于深度学习的手势识别方法57，在不使用

37、远距离小尺寸训练图像的情况下，能够提高对远距离小尺寸图像的识别性能；然而，由于采用了积累事件流的处理方式，神经形态视觉传感器的异步特性被削弱。事件流数据还可视为时空中的一组3D点云。在分层分析时空事件云时，端到端地应用点云网络、增强的点云网络58，可将识别手势转化为识别手势的几何分布。应用滚动缓冲机制也可实现低延迟。然而，点云网络、增强的点云网络都是基于单点云计算的工作，在计算点特征时并没有充分考虑相邻事件的信息。为此，改进动态图CNN，将相邻事件的信息嵌入到每个点中以充分利用局部结构，可以学习时空几何及形状信息59。鉴于事件流的序列性质，探索新的序列表示方法较为关键。其中，使用混合密度自动编

38、码器可以保持原始事件数据的特性，同时依靠循环神经网络（RNN）HMM混合可以很好地处理连续手势识别问题60。考虑到传统视觉应用中较多采用转换器，在事件转换器61中引入紧凑的类转换架构来利用事件数据的局部特征，从而高效处理事件数据的稀疏性，也可获得更准确的结果。除了网络架构层面的研究，还可从其他角度开发基于事件流的手势识别功能。基于神经突触处理器的手势识别系统62能够实时且低功耗地完成端到端手势识别。引入了基于事件流的安卓框架63，具有后台抑制操作能力。2.手语识别手语（SL）以手势和身体动作的形式传递信息，207基于事件相机的敏感生物信息隐私保护研究进展是聋哑人、听力障碍者的主要交流形式；相应

39、识别涉及面部表情、嘴唇动作、身体姿势等，便于聋哑人表达思想和情感。从技术实现的角度看，手语识别（SLR）的复杂性远超人机交互中的手势识别问题。自2020年起，基于事件流的SLR成为研究热点，当前聚焦于数据集的完善。基于事件流的动作数据集SL-Animals-DVS64，能够记录人类模仿各种动物动作的手势。使用先进的SNN识别系统，对这些数据的识别性能进行了基准测试。在补充传感器数据的细节、补充手语的结构后，在SL-Animals-DVS上测试了深度持续本地学习这一新型SNN算法的性能65。构建的DVS_Sign数据集66，包含了5个类别词性的600个训练手语词汇。针对孤立SLR的有效采样策略6

40、7可避免片段随机采样时捕获冗余和无差别的信息，利用事件分布的数量特征，对包含更具辨别力、更有显著运动特征的关键片段进行采样；还可采集基于事件流的合成手语数据集。（三）面部分析面部分析在智能系统中有很多实际应用，如眼动追踪、驾驶员监控、面部表情检测等。这些任务都需要对面部进行直接捕捉，而任务本身不依赖于面部的敏感生物信息。事件相机作为具有高峰值采样率的传感器，能够以更高的保真度表征运动，甚至可在各种恶劣光照条件下实现动态识别。1.眼动追踪在VR、增强现实应用中，快速眼动追踪可增强虚拟场景的交互性。跟踪用户的视线，可以更精确地实现虚拟物体与用户的交互，减少用户因视觉输入与平衡感不一致引起的晕眩感。

41、基于帧事件混合的近眼注视跟踪系统68可提供10 000 Hz的更新率，结合在线二维瞳孔拟合方法来更新参数模型、多项式回归器来实时估计模型的注视点。然而，该方法依赖传统相机，不利于展现事件相机在运动模糊、低功耗方面的突出优势。角膜闪烁跟踪仅需要图像中的稀疏像素集，故利用事件相机的自然稀疏性可以检测出场景中的变化。编码差分照明方案69专注于闪烁反射，较好解决光与闪烁的对应关系。此外，应用二进制光脉冲在准确识别眼睛反射出的光点及相应光源上具有独特优势。上述方法应用需要配置额外的硬件，无法仅靠事件相机进行操作。为此，发展了一种事件到帧的转换方法，将眼球运动所触发的事件编码到三通道帧中，形成仅靠用事件

42、相机、无需额外传感硬件的系统70；通过训练卷积神经网络，对代表瞳孔的事件进行分类，实现瞳孔位置跟踪。2.驾驶员监控驾驶员状态极大影响驾驶安全，驾驶员监控系统对于预防交通事故极为必要。通过驾驶员的面部表情以及头部、眼睛、嘴巴的运动，可检测驾驶员分心、注意力不集中、疲劳等情况。例如，识别了驾驶员的面部动作，如眨眼、说话和张嘴（打哈欠），提取了与睡意相关的动态特征71；提出了多个基于深度传感器记录的数据集，分别用于驾驶员的睡意检测、注视区域估计、手势识别72。驾驶员监控系统由多个相互关联的任务构成，为此引入多任务框架以深入研究分心驾驶。门控循环YOLO技术73能够自适应调整帧率，实时检测并追踪驾驶员

43、的面部及眼睛。眨眼是人类行为和状态的重要指标之一，分析眨眼模式细节的新方法可识别眨眼产生的异常事件峰值。先定位并跟踪面部及眼睛，后同步估计头部姿势、眼睛注视、面部遮挡，形成了更进一步的两阶段的研究架构74。自适应体素分割网格75将包含可变数量的事件流编码为体素网格序列，再将体素网格序列输入长短期记忆网络（LSTM）中，据此建立可检测驾驶员分心的时间模型。为了适应计算资源受限的移动平台，使用轻量级平移不变主干网络来提取多尺度特征，可实现驾驶员面部的单次检测76。对特征图金字塔网络、上下文模块进行移位，能以有限的计算成本来加速时空特征提取。3.表情识别在电影制作、游戏开发中，面部表情识别可使角色拥

44、有更真实和生动的情感反应，能够增强用户体验。当使用交互式推荐系统时，用户的表情可体现出他们对交互界面的态度，便于计算机更准确地理解用户的情感和意图。这种面部肌肉的微小运动是不由自主的，发生周期仅为数个毫秒，很难被RGB数据捕捉到，但可以通过事件流被捕获。用于面部反应的事件反应数据集77包含了时间同步的RGB和事件相机的面部数据，手工标记的反应分数（负面、中性、正面）帮助读者了解人208中国工程科学 2024 年第 26 卷第 1 期们在使用交互系统时的面部反应过程。关联于情感的面部表情识别数据集78，支持展示事件流数据在隐藏情感方面的分析潜力。在基于眼部的情感识别方面，利用事件相机、尖峰

45、神经网络进行事件的情感识别，可从强度帧中获得空间纹理线索79。相应的训练策略可使时间特征提取器能够关联空间和时间特征，从而得到一致的情感分类。五、基于事件流的图像重建与修复近年来发展了从事件数据中高保真重建标准（灰度）图像的算法4，得到的图像或视频数据广泛用于对象识别、即时定位与地图构建、光流估计等任务，从而将传统视觉算法引入到事件相机中。这些重建和生成方法也可能用作获取与隐私相关视觉信息的攻击手段，构成基于事件流的视觉应用中潜在隐私威胁。（一）强度图像重建基于内部视网膜原理组织不同的地图区域，形成可解释强度和光流的视觉系统，这是早期进行的事件流图像重建研究80。由于网络的每个区域都试图与邻近

46、区域的信息保持一致，相关方法使视觉解释趋向于全局相互一致性。在进一步的研究中，采用两个并行的概率滤波器，同时跟踪相机的全局旋转运动并估计周围场景的梯度81，再将梯度图像升级为具有超分辨率、高动态范围特性的完整图像；将上述方法扩展到处理6自由度运动和深度估计等任务，实现更复杂的处理能力82。利用变分能量最小化框架同步恢复场景的强度图像和稠密光流83，是新的研究探索。其中的损失函数包含异步事件数据、滑动时间窗口内的空间和时间正则化，无需估计相机运动和场景特征。结果表明，光流对于恢复清晰的图像边缘至关重要，在快速移动场景中更为明显。应用基于迭代过滤的变分去噪模型、由事件的相对时间戳引起的流形建模事件

47、流84，可在不明确估计光流的情况下，将恢复强度的重构问题转化为能量最小化问题，显著降低处理过程的复杂性。基于补丁的稀疏字典建模事件流，是对真实事件传感器数据的良好近似85。基于字典的先验信息适用于高速视频重建，如通过字典学习估计梯度图像、通过泊松重建恢复对数强度图像。然而，事件数据存在空间稀疏性，导致重建的强度图像存在明显的伪影并缺乏纹理信息。除了将人为设计的平滑先验知识嵌入到重建框架中，还可采用神经网络来实现从事件数据到强度图像的重建。随着SNN的发展，越来越多的方法探索使用SNN或脉冲来处理事件流。基于脉冲的类视网膜视觉图像重建架构86由运动局部激励层、尖峰细化层、视觉重建层组成，其中的视

48、觉重建层由LIF神经元驱动，神经元之间的突触连接满足尖峰时序依赖性可塑性规则。两阶段神经网络87整合了优化拉普拉斯预测的CNN网络、优化泊松积分的尖峰神经网络，不需要任何学习过程，可训练的参数数量显著下降。尽管如此，这些神经网络的参数量仍然较大（约1107个），导致计算成本昂贵。火焰检测网络（FireNet）88依赖循环网络结构计算随时间变化的状态，有助于提高计算效率。与E2VID相比，FireNet重用以前的计算结果，使用更小的网络来进行重建，提高了效率。改进基于事件的CNN训练数据策略89，以现有数据集的统计分析为依据，提高了对真实事件数据的概括性，更好适应事件相机的数据集数量仍然较少、很

49、难得到良好训练效果的实际情况。（二）图像修复事件数据中包含噪声，低分辨率的重建往往包含可见的伪影和失真，无法满足高质量和高分辨率图像的应用需要。图像修复能够解决这一问题。端到端的EventSR模型90用于解决从低分辨率（LR）事件数据中重构和求解超分辨率（SR）强度图像的问题，包含从事件流中重建LR图像、增强图像质量、对增强后的图像进行上采样 3 个阶段，主要采用无真值的无监督训练方法并分阶段进行训练。尽管不同阶段对应不同的任务，之前阶段的预训练网络可续用至下一阶段，以端到端的方式进行整体微调。作为EventSR改进模型的端到端联合框架91，主要用于单图像重建、从SR事件数据中重建SR图像。此

50、外，EventSR可扩展用于更具挑战性的高动态范围、清晰图像重建、颜色事件等任务。使用循环神经网络，迭代地将细节添加到强度帧中，可从事件中直接重建更高分辨率的强度图209基于事件相机的敏感生物信息隐私保护研究进展像92。事件增强稀疏学习框架93能够同时承担去噪、去模糊、超分辨率等任务。EvIntSR-Net94可将事件数据转换为多个潜在强度帧，实现强度图像的超分辨率；以循环更新的方式合并潜在强度帧序列，进一步提高重建的质量和分辨率。显示相机系统95能够记录并收集多分辨率事件数据集，支持事件信号的形成和衰减机制研究。以3D U-Net为骨干架构的深度神经网络框架，用于联合去噪和超分辨率神经形态事

展开阅读全文