1、华为云AI视频 技术白皮书引 言/01AI 与视频的碰撞/052.1 发展趋势 .052.2 典型场景 .07AI 视频介绍/093.1 参考架构 .093.2 行业视频管理服务(IVM).113.3 视频智能分析服务(VIAS).133.4 盘古CV大模型 .153.5 盘古视频解译大模型 .21华为云 AI 视频技术白皮书AI 视频应用案例/234.1 华为门店 .234.2 物流 .254.3 铁路 .264.4 矿山 .284.5 电力 .30展望未来,从感知到生成/31华为云AI视频技术白皮书0101|引 言引 言用摄像机拍摄,记录并播放视频可以回溯到 19 世纪,大家公认的第一部电
2、影是法国影片工厂的大门,1895 年由路易斯 卢米埃尔摄影。表现当时法国里昂卢米埃尔工厂放工时的情景,片长仅一分多钟。从这以后,摄影技术持续发展,从模拟技术到数字技术,从电影摄像机到家用摄像机,直到电脑,手机等便携终端内置摄像头,摄像已经成为当今社会人们记录信息并传播交流的最重要工具和手段,也是大众百姓所需要和掌握的一项基本生活技能。摄像技术应用也从电影,广播电视发展到生活中的方方面面,包括城市治理、安全防护、工业质检等等。每个城市,每个企业都有大量的摄像机,不断在记录发生的一切。海量的视频数据,在方便大众的生活的同时,也带来了很多管理上的困扰。数据如何有效存储,如何能够感知并记录关键事件,如
3、何能够将屏幕面前的工作人员解放出来或者减轻他们工作的强度,已经成为视频使用者最关心的问题。与此同时,AI 技术虽然起步较晚,但随着其快速的发展,已经在诸多方面与视频技术产生了深度的融合。华为云AI视频技术白皮书02引 言|011950 年,艾伦 图灵(Alan Turing)在论文计算机器与智能(Computing Machinery and Intelligence)中提出了著名的“图灵测试”,给出了判定机器是否有“智能”的试验方法。1956 年夏,麦卡锡、明斯基等科学家在美国达特茅斯学院开会研讨“如何用机器模拟人的智能”,首次提出“人工智能(Artificial Intelligence,
4、简称 AI)”这一概念,标志着人工智能学科的诞生。人工智能从诞生之初,就希望让机器理解这个世界,将人类从繁琐,重复性的事务中脱离出来。从符号主义、专家系统、神经网络、深度学习、强化学习到预训练大模型,一个又一个技术的突破,让人类看到了通用人工智能的希望。自然而然,用人工智能识别视频数据,甚至生成视频数据成为了技术路线的必然选择。华为公司在视频技术和人工智能技术上都有深厚的积累和丰富的实践,华为云 AI 视频产品正是将 AI 和视频技术相结合的优秀典范。此篇华为云 AI 视频白皮书,是我们团队研究和实践经验的总结,希望能够更好地促进产业的发展,让摄像机“看得懂、会说话”。02|AI 与视频的碰撞
5、华为云AI视频技术白皮书03AI与视频的碰撞没有孤立的技术,融合才能发展。视频技术和 AI 技术虽然起步时间不同,但在发展中却交相辉映,在最需要彼此的时候相遇。如下图所示,人工智能和视频编解码,都经历了漫长的摸索期,并先后于 21 世纪取得突破式发展。深度学习将人工智能带入千行百业的生产流程,H.264 编码技术将视频业务带入移动互联网,成为每个消费者日常的必需品。两条平行发展的技术踩着同样的步点,在视频数据爆发增长,预训练大模型横空出世的时代相遇。AI 和视频的结合是趋势和必然,给所有人,所有行业无限的想象空间和发展潜力。两个超万亿产值的行业相乘,将带来无法估量的产业价值。AI 与视频的碰撞
6、|02华为云AI视频技术白皮书04人工智能起步阶段专家系统阶段机器学习&深度学习阶段大模型&通用人工智能使用时间压缩的帧间预测编码DCT 图像压缩算法H.261H.266MPEG-1H.262/MPEG-2H.264/MPEG-4 AVCH.265/HEVCH.263MPEG-4H.263+H.263+19561960s199320061980s2017202319741980第一次寒冬算法只能解决狭窄领域的问题,算力不足以支撑发展起源达特茅斯会议的人工智能研讨,标志着 AI 诞生第一次高潮-黄金发展期符号主义和联接主义接连出现,机器学习理论和计算机视觉学科诞生第二次高潮-快速发展期“专家系统
7、”出现,为企业一年节省数千万美金。专家系统所依赖的知识库系统和知识工程成为主要研究方向,政府开始重视人工智能项目第三次兴起2000 年以后,算力+算法+数据的突破带来深度学习的兴起2007 年,李飞飞构建开源ImageNet,世界最大的图像识别数据集(2 万多类别)Transformer 出现Google 提出Transformer 替换CNN/RNNChatGPTOpenAI 发布ChatGPT第二次寒冬专家系统通用性差成本高,维护复杂图表 1 人工智能 VS 视频编解码发展历史02|AI 与视频的碰撞华为云AI视频技术白皮书052.1发展趋势趋势 1:视频流云上集中管理大量的摄像机安装完成
8、后,面临的问题是如何集中式管理。摄像机分散在不同的地方,管理者需要在一个平台上,跨区域、大范围集中管理,通过完善的分权分域能力保护隐私安全。同时,各摄像机采集的视频需要集中存储,因为本地化分散存储会造成信息碎片化,无法形成多个视频流之间的联动,且本地存储易丢失、管理成本高。统一的云上存储,则可以有效解决以上问题。咨询报告指出,2023 年到 2027 年,视频流上云和云存储的年复合增长率超过 27%。在云化的趋势下,视频流云上管理、存储越来越成为业界趋势,企业的主流选择。趋势 2:用预训练的大模型生成场景模型AI 技术中,处理视频的相关技术一般被称为计算机视觉(Computing Vision
9、)。计算机视觉是一种利用计算机和数学算法来模拟和自动化人类视觉的过程。它涉及到从数字图像或视频中提取信息,如对象识别、场景理解、运动跟踪、三维重建等。计算机视觉技术在许多领域都有应用,如自动驾驶、医学影像分析、机器人视觉等。计算机视频分析视频流或者图片时采用计算机视觉模型。计算机视觉模型是指使用深度学习技术训练的神经网络模型,用于解决计算机视觉领域的各种问题。这些模型通常由数百万或更多个参数组成,可以对图像、视频等视觉数据进行高级别的理解和分析,例如图像分类、目标检测、语义分割、人脸识别等任务。AI 与视频的碰撞|02华为云AI视频技术白皮书06随着大数据和 AI 算力的发展,模型参数越来越大
10、,大模型应运而生。大模型指网络规模巨大的深度学习模型,具体表现为模型的参数量规模较大,其规模通常在百亿以上级别。研究发现,模型的性能(指精度)通常与模型的参数规模息息相关。模型参数规模越大,模型的学习能力越强,最终的精度也将更高,泛化性也越强。用大模型可以有效提升场景模型的准确率和泛化性,加上预训练的海量数据,用少量样本,甚至零样本就可以生成场景模型,解决视频算法长尾的问题。趋势 3:用视频解译大模型理解视频内容视频场景模型可以用确定的规则对视频流进行分析,识别关键事件,辅助人工进行判别并给出决策建议。但现实世界纷繁复杂,花鸟鱼虫,春夏秋冬,都在表达着自己的个性和不同,规则是无法穷尽的,判别式
11、算法不断遇到新的需求和挑战。如何能够用泛化性强的模型理解视频,并通过自然语言的方式进行交互和报告,真正让人类从繁琐、重复性的事务中脱离出来是行业内普遍的需求。视频解译大模型融合了视觉大模型、多模态大模型、自然语言大模型多种模型,可以实现对视频、图片、声音、文本多种模态组合分析,感知视频流发生的各种事件,实现让摄像机开口说话,实现真正的智能分析、智能交互、智能决策。02|AI 与视频的碰撞华为云AI视频技术白皮书072.2典型场景城市日常管理在城市治理场景中,往往建设有庞大复杂的城市事件类别体系,包含了繁多细碎的事项类别,如垃圾暴露、道路破损、围栏破损等等,一个城市一般有几百种事件类别。同时,不
12、同城市可能还有不同的标准,可能某城市关注某一些特定事件类别,另一个城市又关注另一些特定事件类别。因此,城市政务场景面临着众多碎片化 AI 需求场景。城市事件的类别数量众多,同时绝大多数的城市事件又难以采集到大量数据来训练 AI 模型,这种问题我们称为“碎片化长尾需求场景”。“碎片化长尾需求”一直是 AI 开发面临的难题,传统的 AI 开发模式需要对每种目标类别单独采集数据、训练模型,依赖专家经验进行算法参数调优,最后才能上线应用,每种算法的开发周期耗费几周至几个月,低下的效率难以满足当前高速的城市建设发展。华为 AI 视频方案,基于 AI 开发工作流,将数据标注、模型训练、部署上线等繁杂的流程
13、固化为一个流水线的步骤,无需编写代码,任何人只要有准备数据,都可以通过流水线交互步骤快速地完成一个 AI 应用的开发和上线。每个AI 算法的开发周期缩短至几天便可完成。同时基于预训练 CV 大模型的能力,依托于海量的大规模数据预训练,即便只有少量样本,也可以达到良好的模型泛化性和鲁棒性,解决碎片化长尾需求的问题。由此可见,AI视频方案中的预训练CV大模型+AI开发工作流,可以更好地契合城市治理的痛点需求,解决碎片化长尾需求场景的问题,更好地将 AI 落地到智慧城市的建设发展中。AI 与视频的碰撞|02华为云AI视频技术白皮书08城市应急处置在城市建设过程中,除了事先设定好的事件类别,还经常有突
14、发性的临时需求。比如突发暴雨,很多地方会临时地希望检测各地是否有积水内涝的情况,以便及时预防与救援;或者某地突发交通事故,相关部门也想快速地排查周边受影响交通拥堵的路段,以及时安排人力疏通车流。这些突发性的临时需求,可能根据天气、地点、时间等不同因素千变万化,这在城市政务的场景十分常见,也对于保障城市正常运转有着非常重要的作用。然而,这种临时性的需求对于传统 AI 开发来说是灾难性的。传统的 AI 开发需要对每种待识别的事件采集数据、训练模型,而训练出来的模型也仅能解决这一特定的任务。当一个临时性的 AI 需求来临时,既往训练出来的模型肯定是无法适应这个新的任务的,那又要基于这个新的需求采集对
15、应数据、训练模型,这一流程走下来即便有 AI 开发工作流支撑,少说也要几天的时间开发上线。但是临时性的需求往往是紧急的,比如对于积水内涝的场景,时间就是生命,业务往往要求算法立刻就能发挥作用、识别事件。因此传统的 AI 开发模式面对这种紧急的临时性需求就显得捉襟见肘了。华为 AI 视频方案,基于业界最新的多模态大模型技术,构建了开放式的目标检测和分割模型。该算法模型基于海量数据预训练的大模型,具备通用的特征提取能力,同时内嵌预言大模型,可以理解用户输入文本的语义信息。因此,该模型可以结合用户输入的任意文本信息,实现对应物体的检测,即便这个物体之前没有出现在模型的训练集里。这种特性非常符合城市治
16、理里突发性的临时需求场景。比如面对积水内涝的场景,就不需要再针对积水事件重新训练一个模型,而是简单地输入一个类似“请问画面中是否有积水内涝?”的语句,算法通过图片和文本的语义理解,就可以识别出来画面中是否有积水内涝的事件了。这样一来,算法就不再局限于仅能识别特定范围的一些事件,应用的广度被无限地拉大,也能更好地满足城市政务场景中灵活变化的业务需求。更详细的应用场景请参考章节“4 AI 视频应用案例”03|AI 视频介绍华为云AI视频技术白皮书09AI 视频介绍AI 视频服务依托联接、云、AI、计算等新一代 ICT 技术与知识创新融合,将感知、认知、决策、行动实现深度协同。其充分利用云计算能力,
17、系统功能可靠、稳定、完整。平台设计秉承模块化、框架化、集群化、服务化的设计理念,提供电信级系统可靠性、可扩展性和可维护性,满足不同场景对接整合、兼容应用和可持续发展的需要。AI 视频服务是面向行业视频场景的组合方案,参考华为公司架构,包括行业视频管理(IVM),智能视频分析服务(VIAS)和盘古 CV 大模型三个产品。可以提供一站式服务,将视频流从摄像机接入上来,进行调阅管理、存储管理,同时对视频流中的内容进行分析,识别关键事件,捕捉异常场景,并上报给上层应用系统进行处理,实现用人工智能的方式,用摄像机感知万物、掌控全局。如下图所示,典型的组网分为接入层、网络层、平台层和应用层。AI 视频服务
18、属于平台层网元,和接入层、网络层、应用层设备互联互动,相互配合,形成整体解决方案。3.1 参考架构AI 视频介绍|03华为云AI视频技术白皮书10图表 2 AI 视频系统架构图应用场景终端接入层网络层平台层云基础:计算/存储(对象存储)/网络/安全智慧城市任务中心视频接入视频存储视频传输视频中心算法中心运维中心事件中心基础模型万物检测万物分割视频专网虚拟专用网互联网智慧园区智能安防边缘视频设备(摄像头、NVR)智慧企业.视频流统一的标准接口统一的标准接口视频智能分析服务(VIAS)盘古 CV 模型行业视频管理(IVM)视频流03|AI 视频介绍华为云AI视频技术白皮书113.2.1 业务需求部
19、署摄像机(SDC/IPC)等端侧设备后,首先需要集中管理功能,包括设备信息注册、远程配置、分权分域等功能。同时还要能够实现基于互联网任意时间、任意地点查看摄像机状态、视频流内容。同时,为了追溯、回溯,还要能够实现视频流存储,将视频流录制下来,长时间安全保存。3.2.2 方案建议行业视频管理服务(Industry Video Management Service)依托于华为云基础设施与音视频领域技术优势,为摄像机(SDC/IPC)、网络视频录像机(NVR)、智能视频存储(IVS1800)等华为及第三方设备,提供云端视频接入、视频传输及视频存储能力,适用于安全防范、生产管理、智慧运营等场景。行业视
20、频管理服务可以帮助企业快速完成视频设备上云和智能化,助力企业数字化转型。主要包括设备接入,视频调阅,录像管理等功能。1.设备接入行业视频管理服务(IVM)支持国际标准协议接入摄像机,接入层主要设备为摄像机和 NVR,负责采集视频数据,并通过标准协议注册到平台层,被平台进行管理;NVR可以实现对多个摄像机汇聚管理,并在本地存储视频。网络层主要为网络设备,负责通过 IP 协议,将摄像机,NVR 等边缘设备接入到平台层,同时负责包保障视频流传输的质量,包括但不限于丢包,抖动,时延等等。平台层的 AI 视频服务,采用云化架构,支持公有云,混合云等多种模式。AI 视频属于 SaaS 服务,依赖云平台虚拟
21、机,OBS 存储,网络传输等能力,完成对摄像机设备信息,以及产生的视频流管理。同时基于人工智能技术,AI 视频提供对视频流的分析能力,理解视频流内容、关键事件,并将相应的结果推送给上层应用系统。应用层负责面向行业,提供图形化页面和管理功能。不同行业有不同的应用系统,例如连锁门店客流管理系统、智慧安防系统、智慧园区管理系统等等。华为云 AI 视频服务和应用层是松耦合关系,采用消息接口对接。也支持中国标准 GB/T28181 协议,同时还支持私有协议接入,通过私有协议或者SDK,实现视频流解码显示能力。2.视频调阅行业视频管理服务具备为公众及其他业务系统提供媒体流播放能力。媒体转码主要满足互联网
22、web/H5 技术和视频系统媒体流之间的转换适配需求,通过将码流转换为 RTMP、HTTP-FLV、HLS 等 PC 端可直接播放的视频流,为业务集成和开放提供快速的技术方案,同时提供基于视频技术的富媒体应用技术。支持远程查看前端摄像机的实时视频,根据现场情况进行事件预判,实现视频实时浏览播放,实时播放时可显示视频相关信息,便于视频流的状态查询和故障诊断。支持多布局能力,支持多个视频点位同时进行实况预览;单击摄像机开启视频按照从左到右、从上到下的顺序选择播放窗口;如果当前所有窗格已经用完,可手动增加另一个多窗格布局;系统客户端支持同时播放多个前端设备的实时视频。支持显示当前实况摄像头的视频信息
23、,其中视频信息包括:当前码率、平均码率、编码格式、分辨率等;支持声音控制,例如静音、取消静音;支持以拖动摄像头的3.2 行业视频管理服务(IVM)AI 视频介绍|03华为云AI视频技术白皮书12行事后录像的检索,通过录像可查看之前发生的事件现场视频,实现事后取证功能。同时支持查询平台录像、前端录像;支持自定义时间范围进行录像查询;支持录像查询结果以进度条方式展现,进度条可以前后拖动,支持精度缩放等功能。3.2.3 小结行业视频管理服务(IVM)基于华为公有云,提供摄像机设备管理、接入、调阅、存储等服务。主要功能服务方式如下,供项目参考。方式进行播放和停止;支持单画面停止播放,支持全部画面停止。
24、3.录像管理行业视频管理服务提供大容量的云端存储,通过互联网实时将前端数据传出至云端,依托于华为云 OBS 服务,为客户提供可靠的数据数据备份,帮助客户实现更长周期、更大容量、更高安全的云上数据管理。用户可以在客户端上回放录像,也可以将系统录像文件下载到本地,支持使用通用播放器进行回放。用户可进行业视频管理服务视频接入调阅带宽视图云存储路/年Mbps/年GB/年公有云必选公有云必选云存储、云备份、告警录像产品组合商 品应用场景量 纲图表 3 行业视频管理(IVM)方案建议03|AI 视频介绍华为云AI视频技术白皮书133.3.1 业务需求完成摄像机和行业视频管理平台建设后,实现了视频流集中管理
25、、集中存储。如果仅仅依靠人工监看的方式,必然消耗大量人力,识别准确率依赖人员技能。如何实现视频流的自动分析、准确识别关事件主动上报成为普遍的业务需求。基于人工智能的视频分析服务,要能够为上层的行业应用提供 AI 能力,包括但不限于:丰富的视频分析算法,满足复杂场景分析需求;建设视频统一分析平台,集中管理,充分盘活视频资源;算法统一管理,算法和算力解耦,多厂家算法共享算法仓,算力统一调度。3.3.2 方案建议视频智能分析服务(VIAS)是集成视频 AI 分析、事件感知等能力的一体化平台,实现智慧园区、城市治理、安全生产等场景的事件感知、分析和决策能力,助力业务闭环。视频智能分析服务提供丰富的“开
26、箱即用”的算法模型,包括城市治理、公共安全、连锁门店、智慧物流、智慧园区等等,帮助千行百业快速使用成熟的人工智能技术,提效降本。主要包括分析服务、算法中心、视频中心、任务中心、事件中心等功能。1.分析服务视频分析服务是承载视频 AI 算法的弹性计算引擎,提供视频数据接入、分析及告警输出的能力,可通过 API 支撑业务开发应用,同时能够帮助 AI 开发人员提升视频 AI集成效率,助力其核心业务价值开发。视频分析能力主要基于如下技术构建:1)物体检测技术物体检测是视觉感知的第一步,也是计算机视觉的一个重要分支。物体检测的目标,就是用框去标出物体的位置,并给出物体的类别。在当前视频分析服务构建的能力
27、中,人或者车的检测是第一步,也是最关键的一步。人与车目标检测的准确率也会直接影响后续算法的效果,但由于目标环境的多样性复杂性,对于物体的检测,通常会受到不同环境的干扰。所以为了提高算法的准确率,通常会针对实际的应用场景进行定制化的训练,以此排除复杂的环境带来的干扰。2)图像分类技术一张图像中是否包含某种物体,对图像进行特征描述是物体分类的主要研究内容。一般说来,物体分类算法通过手工特征或者特征学习方法对整个图像进行全局描述,然后使用分类器判断是否存在某类物体。图像分类的研究,通常衍生出来对特定目标物体进行检测的能力,比如识别大货车、公交车等特定的目标。3)物体定位技术如果说图像识别解决的是 w
28、hat,那么物体定位解决的则是 where 的问题。利用计算视觉技术找到图像中某一目标物体在图像中的位置,即定位。对物体的定位,通常能衍生出很广的应用场景。比如在安防领域,判断目标3.3 视频智能分析服务(VIAS)AI 视频介绍|03华为云AI视频技术白皮书14实现视频算法的整体功能性配置,构建基于视频数据的智能分析应用。视频中心支持视频源管理,视频质量巡检,摄像机分组管理等功能。4.任务中心任务中心提供算法作业配置、算法作业管理能力,是算法的核心配置模块,通过该模块的配置,算法即可具备分析功能。任务中心支持作业配置、作业管理、批量配置、公共模板、定时任务等功能。5.事件中心事件中心提供事件
29、统一管理,是算法的分析结果输出模块,委办单位可通过该模块查看视频分析的事件结果,同时支持将事件分析结果上报到现网业务系统,及时发现事件并形成工单分派,提升网格处置效率。事件中心支持事件管理,事件重复聚合,事件审核,事件订阅,运营报告生成等功能。3.3.3 小结视频智能分析服务(VIAS)基于华为公有云,提供视频算法分析服务、算法管理、算力管理、任务管理、事件管理等。主要功能服务方式如下,供项目参考。物体的位置,可以进行入侵检测、徘徊检测以及过线计数等等算法。基于如上技术,视频分析服务可提供面向智慧园区、水利、交通、应急管理等场景的视频 AI 分析能力,不但能保证自研 AI 算法的接入,还能保证
30、第三方算法和行业共享算法的对接,最终实现 AI 能力的稳步提升。华为视频分析算法,基于 100+项目实践经验持续积累、优化,已沉淀形成多种类型的算法能力。2.算法中心算法中心提供多厂商、多框架、多功能的统一管理能力,支持用户将导入的算法镜像进行统一管理,支持算法版本的全生命周期管理,为后续算法部署提供基础管理能力。用户可在该模块查看已上线的算法能力,同时为三方开发者提供账号体系,开发者可在该模块发布新算法、更新算法版本。算法中心可跳转算法商城,算法商城展示了可上线的算法能力清单,可根据用户业务需求上线。3.视频中心视频中心提供视频源数据接入管理能力,是算法的前置输入模块,通过该模块的配置,任务
31、中心即可选择输入源,视频智能分析视频分析服务路/年路/年云上通用算法包云上专业算法包产品组合商 品应用场景量 纲图表 4 视频智能分析服务方案建议03|AI 视频介绍华为云AI视频技术白皮书153.4.1 业务需求随着工业生产越来越强调智能化,大量传统行业开始积累领域数据,并寻求人工智能算法以解决生产和研发过程中遇到的重复而冗杂的问题。这就意味着,人工智能算法在落地的过程中,将会面对大量不同场景、不同需求的用户。这对算法的通用性提出了很高的要求。然而我们注意到,当前业界大部分人工智能开发者,正在沿用传统的“小作坊模式”,即针对每个场景,独立地完成模型选择、数据处理、模型优化、模型迭代等一系列开
32、发环节。由于无法积累通用知识,同时不同领域的调试方法有所不同,这样的开发模式往往比较低效。特别地,当前人工智能领域存在大量专业水平不高的开发者,他们往往不能掌握规范的开发模式和高效的调优技巧,从而使得模型的精度、性能、可扩展性等指标都不能达到令人满意的水平。我们将上述问题,称为人工智能算法落地的碎片化困境。因此如何能够类似流水线的方式,用少量样本,快速生成场景化模型,成为行业的迫切需求。3.4.2 方案建议华为盘古 CV 大模型瞄准人工智能在工业场景应用中的困境,创造性提出用经过海量数据预训练的视觉大模型作为训练工作流,用类似工业流水线的方式快速生成场景化模型。盘古 CV 大模型收集大量图像数
33、据,以及图像和文本对比数据,利用无监督或者自监督学习方法将数据中蕴含的知识提取出来,存储在具有大量参数的神经网络模型中。遇到特定任务时,只要调用一个通用的流程,就能够将这些知识释放出来,并且与行业经验结合,解决实际问题。3.4 盘古 CV 大模型图表 5 盘古 CV 大模型工作流原理超大的神经网络预训练模型华为云盘古大模型AI 工业化开发流水线流水线流水线泛化复制模型泛化 极大节省训练投入流水线 工具集成 训练更快盘古大模型效率提升更佳模型性能10-100 倍模型 3模型 2模型 1场景 1场景 2场景 3强壮的网络架构优秀的泛化能力预训练微调&部署迭代NLP大模型(千亿参数)CV大模型(30
34、亿参数)多模态大模型科学计算大模型AI 视频介绍|03华为云AI视频技术白皮书16图表 6 盘古 CV 大模型应用场景和优势对于常见的视觉处理任务,盘古 CV 大模型通过自动化模型抽取、参数自动化调优等模块实现场景模型的训练和推理。盘古CV大模型包括物体检测、姿态估计、视频分类、图像分类、异常检测、目标跟踪、语义分割、实例分割等多条预训练工作流,可以全面覆盖场景模型训练需求,并在矿山、钢铁、铁路、交通等多个行业进行验证和实践,成为行业首选。由于盘古 CV 大模型配套完善的工程套件,可以基于图形化界面,零代码前提下,实现数据标注、模型开发、推理部署,实现AI落地零门槛。购买盘古CV大模型的企业,
35、实现人工智能转型,构建“内生的,持续发展”的 AI 能力。小样本,结合数据检索及数据增广技术,相对传统训练方式,数据需求减少 80%以上;高精度,受益于更好的语义对齐效果,在小样本学习上表现优异,显著超越对比方法;高效率,利用行业模型高效表征及数据筛选能力,数据处理效率提升 5 倍以上;由于盘古 CV 大模型配套完善的工程套件,可以基于图形化界面,零代码前提下,实现数据标注、模型开发、推理部署、实现AI落地零门槛。购买盘古CV大模型的企业,实现人工智能转型,构建“内生的持续发展”的 AI 能力。技术原理计算机视觉的主要目标,是设计出能够识别视觉信号,并且对其进行各种处理和分析的程序。换句话说,
36、计算机视觉是研究计算机如何去“看”的学科。其中,较为典型的任务包括图像分类、物体检测、物体分割、物体追踪、姿态估计等。下图展示了图像分类中最著名的ImageNet 数据集(超过 2 万个物体类别)和 MS-COCO数据集(包括检测、分割等多种任务)。L2场 景L1行业大模型L0基础大模型盘古 CV 模型 目标检测|异常检测|图像分类|语义分割|实例分割|视频分类|目标跟踪|姿势估计腰带物体检测皮带跑偏检测流量检测违章停车货物检测高速列车故障检测安全帽爬围栏容器检测违章停车.每个行业的模型开发套件矿 山城市治理铁 路工 地港 口亮点介绍强大的预训练模型快速适配任务模型少样本实现高准确率行业特定模
37、型03|AI 视频介绍华为云AI视频技术白皮书17在计算机中,视觉信号一般以“密集采样强度”的方式存储:不同方向入射的光线在每个信道(如红绿蓝)上的强度被记录下来,用于呈现图像的基本内容。图像中的每个基本单元被称为像素很显然,这些像素并不能代表基本的语义信息,因而图像的基本存储形态和人类能够理解的语义之间,存在很大的差距。在学界,这种差距被称为“语义鸿沟”,这也是几乎所有计算机视觉研究所需要处理的核心问题。进一步探究图像的存储形态,我们会发现图像信号的若干特点:图表 7 测试数据集The ImageNet dataset15M images,21K categories,1.5TBThe MS
38、-COCO datasetdetection,segmentation,pose estimation,etc.内容较复杂信息密度低域丰富多变图像信号的基本单位是像素,但是单个像素往往不能表达语义。图像识别的任务,就是构建特定函数,使得像素级输入能够产生语义级输出。这种函数往往非常复杂,很难通过手工方式定义。图像信号能够忠实地反映事物的客观表征;然而其中相当部分的数据被用于表达图像中的低频区域(如天空)或者无明确语义的高频(如随机噪声)区域。这就导致了图像信号的有效信息密度较低,特别是相比于文本信号而言。图像信号受到域的影响较大,而且这种影响通常具有全局性质,难以和语义区分开来。例如,同样的语
39、义内容,在强度不同的光照下,就会体现出截然不同的表征。同时,相同的物体能够以不同的大小、视角、姿态出现,从而在像素上产生巨大差异,为视觉识别算法带来困难。AI 视频介绍|03华为云AI视频技术白皮书18鉴于上述特点,基于深度神经网络的预训练大模型就成为了计算机视觉落地的最佳方案之一。预训练过程能够一定程度上完成视觉信号的压缩,深度神经网络能够抽取层次化的视觉特征,而预训练结合微调的范式则能够应对丰富多变的域。数据收集图像是一种复杂的非结构化数据,包含丰富的语义信息。现如今,还没有任何一种方法能够对图像数据的数学规律进行准确的描述,因而人们只能通过收集大量的数据,来近似现实中图像数据的分布。20
40、09 年出现的ImageNet 数据集是计算机视觉领域的重要里程碑,它使得训练、评估大规模图像处理方法成为可能。随着计算机视觉技术的进步和更多应用的出现,ImageNet 数据集的局限性逐渐显现出来,包括规模、复杂性等。为了解决这一问题,我们必须收集更大规模、更加复杂的图像数据,而这也是业界的一致趋势。通过多种渠道收集图像数据,包括但不限于公共数据集合下载、自有数据集合扩充、各搜索引擎关键字爬取、以图搜图、视频图像抽帧等。从这些原始数据中,我们筛除了低分辨率、低曝、过曝、简单背景等低质量图像数据,再通过已有预训练视觉模型进行重复图像的判断和去除,最终保留超过 10 亿张高质量图像数据,占据约
41、40TB 空间。10 亿+图像数据40 TB存储空间覆盖自动驾驶,电力,铁路,遥感等03|AI 视频介绍华为云AI视频技术白皮书19预训练方法我们使用的神经网络模型覆盖了计算机视觉领域最为常见的卷积网络和transformer架构,两者既可以分开使用,也可以按需结合以达到更好的效果。利用自动机器学习算法,能够支持并调用不同大小的神经网络,其中最大的计算模型具有接近 30 亿参数,最小的模型只有数十万参数,其大小相差超过 1000 倍,为适配不同的视觉任务提供了可能性。我们收集的训练数据大部分来自互联网,不仅具有相当程度的噪声,而且不包含准确的语义标签。为了充分利用这些数据,我们设计了自监督学习
42、方法,即通过某种或者某几种代理任务,教会模型如何理解视觉数据,在没有语义标签的情况下也能拟合复杂的数据分布。与此同时,我们在对比学习的基础上优化了相关代理算法,业界首创在对比度自监督学习中引入等级化语义相似度,即挑选那些距离相应聚类中心更近的最近邻作为正样本,并且在拉近语义相似样本的时候引入了混合样本增强,以减少样本选取过程中的噪声影响。在此基础上,我们拓展自监督学习算法中正样本的数目,使得正样本集合能够更加高效地被聚集,同时避免受到大量负样本优化的影响。我们采用的预训练算法(发表于 TPAMI 上)的简略示意图如下所示:(注:基于等级化语义聚集的对比度自监督学习)Encoder qEncod
43、er KCandidates in DatasetBottleneckBottleneckBottleneckBottleneckBottleneckMLPMLPConvBNReLUConvBNReLUConvConvConvConvConvConvBNBNBNBNBNBNReLUReLUConvBNReLUConvBNReLUMixMixed SampleAnchor SamplePositive SampleSemanticSearchAI 视频介绍|03华为云AI视频技术白皮书20效果展示盘古视觉大模型在 ImageNet 数据集的线性分类评估上,首次达到了与全监督相比拟的结果。同时,受
44、益于更好的语义对齐效果,我们的方法在小样本学习上表现优异:使用ImageNet上1%和10%的标签训练,我们的方法达到了 66.7%和 75.1%的分类精度,均显著超图表 8 盘古预训练模型分类性能比较列表图表 9 盘古预训练模型检测性能比较列表越对比方法。以此方法为基础,我们设计了具有 10 亿参数量的基础模型,并在超过 10 亿张无标注图像组成的数据集上进行预训练。所得到的模型,在 ImageNet 上达到了 88.7%的分类精度,而 1%标签的半监督学习精度也达到 83.0%。同时,盘古大模型在超过 20 项下游任务上进行了测试,展现出良好的泛化能力,如下表所示。数据集业界最佳模型盘古预
45、训练模型1Aircraft(飞行器)90.4389.322CUB-200-2011(鸟类)86.9091.803DTD(纹理)80.0585.004EuroSAT(卫星图块)98.8598.985Flowers102(花)97.0799.696Food101(食物)92.2194.587Pets(动物)95.2995.918SUN397(场景)71.5178.929StanfordCars(车)92.4894.0910StanfordDogs(狗)87.4191.2811Average89.2291.96数据集业界最佳模型盘古预训练模型1VOC(自然场景)72.276.62Comic(风格变换
46、)35.638.03Clipart(风格变换)57.561.04Watercolor(风格变换)34.436.95DeepLesion(医疗)36.738.16Dota 2.0(遥感)21.221.07Kitti(自动驾驶)29.632.98Wider Face(人脸)35.336.39LISA(红绿灯)43.542.710Kitchen(厨房场景)53.655.0average41.9643.8503|AI 视频介绍华为云AI视频技术白皮书213.5.1 业务需求在特定场景分析基础上,开放式场景分析和识别需求越来越强烈,尤其是针对应急事件的处理。包括但不限于以下需求:智能视频检索,通过自然语
47、言对摄像机,或者视频存储进行开放式检索,如检索发生在特定时间,地点的特殊事件;检索多个线索关联的场景等等;视觉标签库,通过对视觉数据进行标签化处理,可以对所有视频流的标签进行精细化管理,提升全域摄像机标签数据的准确性和实用性,同时还可以动态刷新,确保数据的实时性和有效性;关键帧定位,借助视频向量化能力,可以实现对关心事件检索时,可以定位到摄像头关键帧,并对关键帧前后视频直接查看,提升问题定位的效率;智能视频摘要,借助大语言模型的能力,汇总摄像机关键标签,摘要文本数据,生成一句话摘要或分析报告,将摄像机所拍摄的关键内容报告给管理者,实现让摄像机说话。3.5 盘古视频解译大模型AI 视频介绍|03
48、华为云AI视频技术白皮书223.5.2 方案建议盘古视频解译大模型,是在视频智能分析服务(VIAS)和盘古 CV 大模型基础上,融合多模态大模型能力,进一步延伸人工智能在视频领域的应用。此方案依托大模型的万物理解能力,实现视频检索、视频标签、以及视频摘要能力。将摄像机拍摄的画面描述出来,实现让摄像机开口说话。如上图所示,此方案主要包括四个主要部分。中间核心为“盘古大模型重构 AI 视频服务交互”,CV 大模型+多模态大模型双轮驱动,开放场景视觉分析,快速覆盖数千个场景,并兼容专家模型支持专属场景准确识别。盘古大模型基础上,用“Agent 驱动视觉感知”,作为视觉感知能力入口,通过可编排可组合可
49、插拔特性,实现大语言模型对视觉感知能力的驱动。最后向上,可以覆盖海量“场景应用”从视觉+文本协调应用出发,牵引视觉感知能力“可看”向“可交互”转变;向下重构“摄像头&标签资源”,构建分层分类视觉标签体系、动态标注,并实现视频存储资源的精细治理,释放视频数据资源价值。图表 10 视频解译大模型架构图盘古大模型重构 AI 视频服务交互盘古大模型(Core)多模态|CV|NLP视频数据智能+盘古视频任务管理+盘古端边云协同+盘古AI 视频框架+盘古场景应用大模型驱动视觉任务管理视觉场景智能问数智能标签检索智能视频摘要标签指引的精细化存储业务自适应弹性调度多摄像头联动分析视觉建议生成Agent 驱动视
50、觉感知Agent 平台盘古 Inside 视觉算法AI 视频开发平台开放视频分析盘古 LLM 调度 CV 能力摄像头&标签资源视觉接入资源视觉存储资源视觉标签体系 全域摄像头接入 多协议解析 视频存储 事件存储 基础标签 场所标签 部件标签 事件标签04|AI 视频应用案例华为云AI视频技术白皮书23AI 视频应用案例秉承“自己的降落伞自己先跳”的原则,华为率先将行业视频管理服务(IVM)应用于华为门店管理。华为终端 BG 有超过 1 万家门店,每个门店都有若干摄像机,对门店进行管理。为了管理高效,华为终端 BG 需要一套集中式管理系统,实现对超过10 万路摄像机统一管理,统一调阅和统一存储。