1、20220420-企业级AI数字人白皮书.indd 120220420-企业级AI数字人白皮书.indd 12022/4/22 下午4:062022/4/22 下午4:06目录导语篇:L4 级以上的才是数字人未来认知篇:AI 数字人的特征和价值多模态交互、深度学习和 AIGC 是 AI 数字人的三大特征从“替代”到“连接”,AI 数字人应用的三大方向生态篇:AI 数字人产业生态“拼图”底层软硬件技术决定数字人系统“进化”水平AIGC 赋能平台创造“低代码”数字人开发环境运营管理平台打通技术到应用的“最后一公里”多终端覆盖与数字人随时随地建立连接行业应用推动数字人价值的“增长飞轮”能力篇:商汤赋
2、能 AI 数字人走入千行百业AI 技术“双维度”研发投入,夯实 AI 数字人生产力底座AIGC“全栈式”布局,打造“一站式”生产流水线智能化生成引擎:增强人物形象的生动性智能化驱动引擎:提升人物动作的协调性智能化交互引擎:提高人物理解的智慧性制作运营“一体化”,面向行业“全链路”赋能全终端、全行业方案覆盖,让数字人走入千行百业0406101420220420-企业级AI数字人白皮书.indd 220220420-企业级AI数字人白皮书.indd 22022/4/22 下午4:062022/4/22 下午4:06实践篇:AI 数字人应用八大场景场景一:金融网点“新窗口”场景二:在线互金“新入口”
3、场景三:商场交互“新触点”场景四:文博讲解“新体验”场景五:品牌营销“新代言”场景六:企业前台“新形象”场景七:智慧车舱“新助手”场景八:虚拟活动“新服务”展望篇:AI 数字人未来十大展望展望一:产业数字化转型的重要抓手展望二:企业竞争的核心“人力”资产展望三:老龄化催生“陪伴型”数字人需求展望四:开发平台“在线化”(DHaaS)是趋势展望五:未来虚实融合世界的基本组成展望六:数据安全和用户隐私保护仍是关键展望七:高等级数字人依赖通用 AI 技术发展展望八:“云边端”协同计算支撑规模化应用未来展望九:数字人资产确权和流通将促进交易市场活跃展望十:数字人市场发展将诞生一批新业态、新机遇19272
4、0220420-企业级AI数字人白皮书.indd 320220420-企业级AI数字人白皮书.indd 32022/4/22 下午4:062022/4/22 下午4:064导语篇:L4 级以上的才是数字人未来导语篇L4 级以上的才是数字人未来2021 年是元宇宙元年,随着元宇宙概念的火爆也一同带动了数字人市场的快速升温。据计算全球平均每天都会诞生一个数字人。数字人正成为一股潮流,涌入人们的日常生活会“捉妖”的虚拟美妆达人柳夜熙,抖音出道三天点赞即超百万,一夜之间成为国内虚拟偶像界的“顶流”;在江苏卫视跨年演唱会上,昔日歌后邓丽君“重返”舞台,与歌手周深同台对唱,交织几代人的青春记忆;而在刚刚落
5、幕的冬奥会上,二十多位数字人同台亮相,担当起手语主播、气象主播、奥林匹克公益宣传大使、冬奥官方周边带货主播等各式角色,代替真人为冬奥赛事提供服务支持数字人的热度吸引着众多参与者纷纷入局,据企查查数据显示,国内现有“数字人”相关企业超过 28 万家,近五年的新增注册企业增速复合增长率达到近 60%。与此同时,资本也在不断涌入数字人赛道。据天眼查数据不完全统计,2021 年全年,数字人相关投资共 27 笔,融资金额从数百万元人民币到数千万元美元不等。2022 年开年不到一个月的时间,数字人领域即完成了近百起融资,累计额度超过 4 亿元人民币。数字人市场的热度不减,除与元宇宙概念加持的关系外,技术驱
6、动和需求牵引也是助力的关键。数字人的核心是“人”,本质上是通过数字技术提高数字人的综合体验,使之带来真人般的感受和互动。一方面,随着人工智能、虚拟现实、高精度渲染等技术的发展和融合,数字人的拟人化程度愈来愈高,从形象、表情、姿态、动作,再到语音、语意、语态等方方面面正在逐步逼近真人水平。例如,超写实数字人(Metahuman)已成为当前主流,柳夜熙、“邓丽君”等都是超写实数字人的代表,拥有高度逼真的数字化外观形象。另一方面,人工智能技术在数字人形象生成、动作驱动和语言交互等环节的深入应用,也将进一步提升数字人制作的自动化水平,推动数字人市场从利基走向大众。在需求侧,消费领域的流量经济和产业领域
7、的人口红利都在面临增长瓶颈,对生产效率与成本提出了更多要求。数字人的高度拟人化代替真人角色进入生产生活各个领域,将成为数字经济发展的“新动能”,为 Z 时代新消费市场,以及产业数字化转型构筑巨大的想象空间和应用前景。据头豹研究所测算,2030 年我国数字人整体市场规模将达到 2700 亿元。20220420-企业级AI数字人白皮书.indd 420220420-企业级AI数字人白皮书.indd 42022/4/22 下午4:062022/4/22 下午4:065企业级 AI 数字人|数字经济发展“新动能”数字人的拟人化,以及生产制作的自动化程度反映数字人系统整体进化和发展水平,代表着数字技术综
8、合运用能力和成熟度体现。根据“拟人化”和“自动化”两个维度,我们可以将数字人分成 L1-L5 五个等级,如下图所示。以人工制作为主场景:平面展示等主要依赖外部动捕设备采集口型、表情、肢体动作信息场景:视频录播等主要依赖算法驱动口型、表情、肢体动作场景:实时互动等智能化交互,但在特定场合需要人工接管场景:垂直领域逐步代替真人服务等完全实现智能化交互,可处理全局性、通用性问题场景:个性化虚拟助手理解智能拟人化程度动作协调形象写实自动化水平Al 在各个制作环节的渗透程度L1L2L3L4L5数字人 L1-L5 等级(来源:商汤智能产业研究院)其中,我们将 L4 和 L5 等级的数字人统称为“AI 数字
9、人”。Ta 们不仅具备高度的拟人化呈现,在形象、动作和智力层面都更接近于真人水平,能够听懂、看懂、有记忆、自学习,与人进行自然交互;同时,在制作流程中也融合了大量的人工智能算法技术来提升数字人的生产效率,降低数字人的制作成本。我们认为,只有达到 L4 级别及以上的数字人才能真正的走入千行百业,在消费和产业领域大放异彩。那么,AI 数字人具有哪些特征?它的市场价值、产业生态和发展趋势又是如何?商汤科技作为一家人工智能企业,我们在生态中扮演怎样的角色,又是如何赋能AI数字人产业的可持续发展?白皮书将分别从认知、生态、能力、实践和展望五个方面为大家展现数字人发展的未来图景。20220420-企业级A
10、I数字人白皮书.indd 520220420-企业级AI数字人白皮书.indd 52022/4/22 下午4:062022/4/22 下午4:0601认知篇AI 数字人的特征和价值多模态交互、深度学习和 AIGC 是 AI 数字人的三大特征从“替代”到“连接”,AI 数字人应用的三大方向认知篇 生态篇 能力篇 实践篇 展望篇070820220420-企业级AI数字人白皮书.indd 620220420-企业级AI数字人白皮书.indd 62022/4/22 下午4:062022/4/22 下午4:067企业级 AI 数字人|数字经济发展“新动能”多模态交互、深度学习和 AIGC是 AI 数字人
11、的三大特征我们认为,具备足够自然和拟真的多模态交互能力,是数字人在更广泛的应用场景中逐步替代真人角色的关键。所谓“多模态交互”,即是将深度学习神经网络和计算机图形学相结合,充分模拟人与人之间自然真实的交互方式,实现“听得懂,看得见,说得出”的人机交互效果。拥有多模态交互能力的 AI 数字人,不仅能够呈现传统语音对话无法展现的多媒体信息,通过结合计算机视觉技术,还能完成身份识别、手势识别、情感识别等多项交互任务,让交互过程更加丰富且高效。与此同时,可视化的写实形象也赋予了 AI 数字人独特的情感温度,有助于建立人性化的情感纽带。每一个 AI 数字人背后都有一个“智慧的大脑”,可以基于语音语义理解
12、等技术,结合不同领域的知识库和海量数据训练,进行深度学习和迭代升级,让自己变得越来越“聪明”,越来越专业,从而能够快速适应瞬息万变的市场变化和细分化的场景需求,不断打破即有的应用边界,为用户持续创造新价值和新体验。应用价值制作AI 数字人三大基本特征多模态交互是“核心力”替代真人角色的关键深度学习是“创造力”越来越“聪明”AIGC 是“生产力”降低制作门槛AI 数字人的三大基本特征(来源:商汤智能产业研究院)首先,在应用层面,多模态交互是 AI 数字人的“核心力”。其次,在价值层面,深度学习是 AI 数字人的“创造力”。20220420-企业级AI数字人白皮书.indd 720220420-企
13、业级AI数字人白皮书.indd 72022/4/22 下午4:062022/4/22 下午4:068认知篇:AI 数字人的特征和价值第三,在制作层面,AIGC 是 AI 数字人的“生产力”。方向一:主要以创建 IP 影响力或打造粉丝经济为目的的 AI 数字人应用,包括虚拟偶像、虚拟 KOL、虚拟演员、虚拟主播等。高制作成本和长制作周期掣肘数字人产业规模化发展。传统数字人生产过程中,从人物建模到动画设计和制作等各个环节几乎都依赖人工“雕琢”而成。譬如,以人物建模为例,传统建模环节大概要花费数月时间。此外,要让模型动起来,前面的准备工作(蒙皮、BlendShape 等)以及后续的动画制作及优化环节
14、也需要花费数月时间,无论是时间成本还是人工成本都是一个相对较大的投入。AIGC 重塑生产流程,在人物模型的重建、动画准备和制作等各个环节辅助数字人自动化生成,大幅加速数字人生产,降低制作门槛和成本投入,是 AI 数字人生产力之本。以人物建模环节为例,例如,商汤科技为软银大会打造的软银 COO 今井康之的 AI 数字人形象,即是基于少量照片的面部扫描,结合 AI 算法快速生成数字人高精度 3D 模型,将传统以月计算的制作周期缩短至数天内完成。根据使用目的和底层逻辑不同,AI 数字人可大致分成三大应用方向。从“替代”到“连接”,AI 数字人应用的三大方向AI 数字人应用方向(来源:商汤智能产业研究
15、院)虚拟偶像虚拟 KOL虚拟演员.IP 影响力粉丝经济替代真人服务降本增效人性化陪伴和智能化服务虚拟主持人虚拟主播虚拟代言人虚拟品牌官.虚拟客服虚拟导游虚拟专家虚拟讲解员.虚拟世界真实世界超级助手/入口随着智能化水平提升、成本下降使用目的底层逻辑未来替代连接20220420-企业级AI数字人白皮书.indd 820220420-企业级AI数字人白皮书.indd 82022/4/22 下午4:062022/4/22 下午4:069企业级 AI 数字人|数字经济发展“新动能”方向二:主要以替代真人服务、实现降本增效为目的的 AI 数字人应用,包括虚拟客服、虚拟前台、虚拟导游、虚拟主持人等。方向三:
16、随着人工智能、虚拟现实等相关技术的逐步成熟,通过深度学习和认知泛化,AI数字人将会全面突破应用边界,升级成为数字世界的“超级助手”。Ta 们根据各自领域所长,能够“724 小时”在岗不间断的提供服务支持,尤其针对标准化、重复性高的真人服务可以实现数字化替代,并结合业务流程自动化,帮助企业进一步提高生产效率、降低人工服务成本,为企业数字化转型提供新路径。相对真人服务,AI 数字人具有较高的灵活度。Ta 们可以随时随地上岗工作,不受主观、时间、环境或外界不确定因素影响,企业可控性强,可以保证服务的稳定性和连续性,也能降低企业因不确定性所带来的隐性成本问题。同时,AI 数字人的边际效益递增现象显著。
17、一方面,虽然前期数字人制作需要一定投入,但数字资产复制使用的边际成本很低,单个数字人的可变成本也低于真人;另一方面,正如上文所述,AI 数字人具有较强的深度学习能力,结合知识图谱技术和数据训练,可以不断优化服务精度、扩展业务广度,从而提升企业数字人“人力”资产的投入产出效率。与前两个应用方向不同,AI 数字人的第三大应用方向不再仅遵循真实世界的“替代”逻辑,初衷更在于满足用户与数字世界的连接和交互需求,实现对于数字世界的直接操作。正如元宇宙”破壁人“:做虚实融合世界的赋能者白皮书中所描绘的图景一样,“这些数字人将成为我们在数字世界的 AI 代理人”。通过与 Ta们的直接交互,可以“随机应变”的
18、针对用户个性化、多样化需求,提供全天候、全方位的人性化陪伴和智能化服务,成为人们通向虚实融合世界的超级入口。基于“IP 孵化+内容运营”,赋予 Ta 们独特的人设和人格特质,以此来吸引不同受众群体的关注,从而形成一定规模的流量基础和情感链接,再通过诸如直播带货、跨界品牌代言、IP 授权周边衍生品、娱乐演艺等多种手段来实现价值闭环或进行商业化变现。相对真人 IP,数字人 IP 的可塑性更强。包括形象、人设及背景故事的创作自由度为数字人 IP 的商业创新带来了更大的想象空间,重塑粉丝经济。例如,可邀请用户或粉丝一起参与数字人IP的创建和孵化过程,通过“共创”的方式建立起 IP 与用户间的强情感关联
19、,让 IP 更具真实感和生命力。尤其在品牌自建数字人 IP 路径中,契合品牌调性和消费者心理预期的数字人 IP,更有利于品牌理念的有效传递和快速破圈,进而获得在转化层面的更多收益。同时,数字人 IP 也更具可控性。Ta 们不会受到人设崩塌、负面新闻、档期或合约问题等不确定性因素影响,商业安全性和稳定性更高。20220420-企业级AI数字人白皮书.indd 920220420-企业级AI数字人白皮书.indd 92022/4/22 下午4:062022/4/22 下午4:0602生态篇AI 数字人产业生态“拼图”底层软硬件技术决定数字人系统“进化”水平AIGC 赋能平台创造“低代码”数字人开发
20、环境运营管理平台打通技术到应用的“最后一公里”多终端覆盖与数字人随时随地建立连接行业应用推动数字人价值的“增长飞轮”认知篇 生态篇 能力篇 实践篇 展望篇111212131320220420-企业级AI数字人白皮书.indd 1020220420-企业级AI数字人白皮书.indd 102022/4/22 下午4:062022/4/22 下午4:0611企业级 AI 数字人|数字经济发展“新动能”交互层平台层价值层基础层手机端 PC 端 平板/电视 一体机/大屏 AR/VR 设备 车机泛娱乐建模软件渲染引擎驱动技术5G 网络云边计算芯片/传感器/AIOT 等智能化生成平台智能化驱动平台智能化交互
21、平台服务管理平台内容运营平台金融服务政务服务品牌代言IP 授权主播带货文娱演艺商业零售文旅文博移动助手 情感陪伴汽车交通多终端覆盖三大应用方向底层软硬件AIGC 赋能平台运营管理平台IP 影响力和粉丝经济传统 CG 技术人工智能技术通用设施技术企业客服大堂经理专家顾问智能导购前台服务讲解主持替代真人服务、降本增效数字世界的超级助手 实现价值闭环 决定 AI 数字人“进化”水平 打造“低门槛 的数字人开发环境 打通技术到应用最后一公里AI 数字人产业生态“拼图”(来源:商汤智能产业研究院)良好的生态是价值创新的保障。生态内不同资源和组织通过整合优化和价值共创,促进产业生态的有序发展。AI 数字人
22、产业生态主要由基础层、平台层、价值层和交互层共同组成,通过各层不同的价值定位和组织形式,从而推动 AI 数字人产业的可持续发展和价值创新。基础层为AI数字人提供底层软硬件技术支撑,包括计算机图形学(CG)技术、人工智能技术和通用设施技术等。正如导语中所述,这些技术的综合运用能力和成熟度将决定数字人系统整体进化和发展水平。通用设施技术,包括 5G 通信网络,云边协同计算,以及芯片、传感器和 IoT 等软硬件技术设施。高拟真的3D 数字人模型在数据传输方面对网络带宽和稳定性有较高要求。基于 5G 网络的高速率传输,结合云边协同计算,能够实现数字人模型的高精度、实时渲染效果;传感器用于数字人原始数据
23、及用户数据的采集;芯片用于传感器数据预处理和数字人模型渲染、AI 计算等。通用设施技术为数字人系统的创建和落地打好数字化基础。底层软硬件技术决定数字人系统“进化”水平计算机视觉:视觉分析理解/视觉内容生成语音语义理解:NLP/ASR/TTS/STA.20220420-企业级AI数字人白皮书.indd 1120220420-企业级AI数字人白皮书.indd 112022/4/22 下午4:062022/4/22 下午4:0612生态篇:AI 数字人产业生态“拼图”传统 CG 制作,主要基于专业 CG 软件进行相应的建模、动画制作和渲染等。专业的建模软件,能够对数字人的人体、衣物、配饰等进行三维建
24、模,例如 Maya,3Dmax,Zbrush 等都是 3D 建模的主流软件;在建模的基础之上,经过骨骼搭建及绑定,以及蒙皮、BS 等一系列的准备工作后,动画师再根据角色需求进行动画制作,让数字人“动”起来。整个过程漫长且复杂,除了要反复检查活动的皮肤与骨骼外,还需要删除不必要(多余)的骨骼,以及解决各种穿模问题;渲染引擎,能够对灯光、毛发、布料、纹理等进行细节渲染,达到以假乱真的视觉效果呈现。主流引擎有 Unity、Unreal Engine 等。传统 CG 技术脱胎于游戏行业,可以做出从外形、表情到动作 1:1 还原真人的影视级效果,但主要依赖于人工制作,成本高、周期长,且制作门槛对开发者专
25、业要求比较高,掣肘数字人向其他非游戏领域规模化推广。人工智能技术,主要包括计算机视觉和语音语义理解两大部分相关技术族。其中,计算机视觉又分成视觉理解分析技术和视觉内容生成技术;而语音语义理解则包含语音识别(ASR)、语音合成(TTS)、语音动画合成(STA)、自然语言理解(NLP)等。一方面,与传统 CG 技术结合,可以优化数字人生产流程,提高生产效率;另一方面,人工智能技术的集成运用能够有助数字人多模态交互和深度学习能力的提升,增强数字人物角色的表现力、理解力和营业力,向更高等级数字人持续演进。数字人制作完成后,无论是创建 IP 影响力、打造粉丝经济,抑或是替代真人服务,实现企业的降本增效,
26、数字人的运营和管理都是不容忽视的重要环节。通过运营管理平台的“架桥通路”,实现与商业化的最终链接,打通创新技术到产业应用的“最后一公里”。然而,人工智能技术的复杂性高,在具体应用环节上一般需要较大的研发投入。这就需要从行业分工入手,一些人工智能技术研发能力强、资源整合能力大的企业,可以通过整合技术优势和行业资源,结合数字人制作不同环节,着重研发 AIGC 赋能平台以人工智能技术为核心生产力,通过算法程序模块化、技术服务组件化、生产流程标准化,为开发者创造“低代码”的数字人开发环境。AIGC 赋能平台可按照数字人生产流程,主要包括人物形象的智能化生成引擎、人物动作的智能化驱动引擎,以及智能化交互
27、引擎,分别对应的是传统 CG 技术的建模环节、动画设计和制作环节,以及针对数字人多模态交互和深度学习的能力构建环节。基于此,开发者可以在数字人制作的不同环节,根据需要直接调用不同平台上的算法能力与资源,从而真正的将人工智能技术作为数字人制作的第一生产力要素从理论落到现实。AIGC 赋能平台创造“低代码”数字人开发环境运营管理平台打通技术到应用的“最后一公里”20220420-企业级AI数字人白皮书.indd 1220220420-企业级AI数字人白皮书.indd 122022/4/22 下午4:062022/4/22 下午4:0613企业级 AI 数字人|数字经济发展“新动能”数字人制作完成后
28、,无论是创建 IP 影响力、打造粉丝经济,抑或是替代真人服务,实现企业的降本增效,数字人的运营和管理都是不容忽视的重要环节。通过运营管理平台的“架桥通路”,实现与商业化的最终链接,打通创新技术到产业应用的“最后一公里”。按照应用方向的不同,运营管理平台可分为面向 IP 影响力塑造的内容运营平台,以及面向企业业务运营的服务管理平台。内容运营平台着重于数字人 IP 的孵化、管理和授权,以及内容的创作、分发和营销等环节。以“用户心智链接”为逻辑基础,“IP 价值转化”为最终目标,平台通过整合行业资源和商业线索,通过内容运营和商业合作等不断提升 IP 价值空间和时间生命力。服务管理平台着重于数字人资产
29、和服务的标准化管理。一方面,通过汇聚前端业务数据,可实现数字人知识库的持续更新,提升数字人的业务服务能力,也可根据不同的业务侧重,定制不同业务领域的知识库,做到对数字人知识体系的层级化管理;另一方面,通过对高频场景需求的后台分析,为数字人服务升级迭代、业务方向规划等提供数据推动的“原动力”。用户终端是数字人交互的重要载体。不同终端的硬件规格、软件系统,以及呈现形式各有不一。通过跨屏、跨系统支持 APP、小程序、公众号、H5 页面等展示形态,以及 IOS/Android/Windows/Linux 等软件系统,以及覆盖包括手机、电脑、平板、电视、一体机、智慧屏、车机等主流屏幕设备,人们可由任一用
30、户终端进入,与数字人建立随时随地的连接和交互。多终端覆盖与数字人随时随地建立连接终端用户的应用和体验既是数字人价值创造的终点,也是价值再造的起点。一方面,随着落地场景愈加丰富,价值逐步得到验证。品牌代言、虚拟偶像、数字员工、虚拟客服、虚拟助手等等,在流量红利和人口红利双双见顶的关键节点,无论是 IP 的流量价值、降本增效的服务价值,还是数字世界的连接价值,在泛文娱、商业零售、金融服务、文旅文博、政务服务等各个领域都在逐步显现。另一方面,在场景落地的过程中形成的数据反馈,以及增量需求等,也在不断反哺、增进数字人的能力空间,再造新价值。例如,随着金融场景的纵深化发展,数字人将打破既定的服务边界。虚
31、拟客服既可以“走向”前台担任理财销售顾问,也可以“走出”企业,兼职形象代言人,传播企业品牌理念。而随着数字人应用边界的扩展和延伸,数字人或将成为企业与用户连接和交互的统一入口,全方位、全天时获取用户信息,从而进一步指导企业未来规划、满足服务迭代需求。行业应用推动数字人价值的“增长飞轮”20220420-企业级AI数字人白皮书.indd 1320220420-企业级AI数字人白皮书.indd 132022/4/22 下午4:062022/4/22 下午4:0603能力篇商汤赋能 AI 数字人走入千行百业AI 技术“双维度”研发投入,夯实 AI 数字人生产力底座AIGC“全栈式”布局,打造“一站式
32、”生产流水线智能化生成引擎:增强人物形象的生动性智能化驱动引擎:提升人物动作的协调性智能化交互引擎:提高人物理解的智慧性制作运营“一体化”,面向行业“全链路”赋能全终端、全行业方案覆盖,让数字人走入千行百业认知篇 生态篇 能力篇 实践篇 展望篇1515161717181820220420-企业级AI数字人白皮书.indd 1420220420-企业级AI数字人白皮书.indd 142022/4/22 下午4:062022/4/22 下午4:0615企业级 AI 数字人|数字经济发展“新动能”商汤作为一家技术领先的人工智能平台型企业,如何在生态中发挥好技术的领先优势、利用好平台的优质资源,通过高
33、效的资源组织和创新模式,帮助降低 AI 数字人的应用门槛,推动数字人走入千行百业、创造更大的商业空间,是商汤在生态“拼图”中的价值定位和使命愿景。正如上文所述,人工智能技术作为生态基础层的核心要素,既关系到数字人的拟人化程度,包括形象和动作的逼真性,以及深度学习和多模态交互能力的发展,也是数字人制作效率提升的关键引擎。商汤围绕上述两大维度,也即“拟人化”和“自动化”,对数字人相关的人工智能技术和算法进行投入和研发。基于 AI 大装置的超大算力支撑,商汤进行 AI 全栈技术能力的研发布局,从而建立并夯实 AI 数字人的生产力底座。在计算机视觉方面,视觉相关的算法模型已累计超过 30000 个,覆
34、盖视觉信号的分析理解,以及实现数字内容的生成,并研发建成了世界上最大的计算机视觉基模型,参数高达 300 亿,可以支持数字人在图像、视频等视觉信号处理的复杂长尾应用。在语音语义理解方面,商汤也自研并具备了包括语音识别(ASR)、语义理解(NLP/知识图谱)、语音合成(TTS)以及语音动画合成(STA)等多项技术能力。AI 技术“双维度”研发投入,夯实 AI 数字人生产力底座AIGC“全栈式”布局,打造“一站式”生产流水线快速模型生成人物模型美化人物虚实融合交流对象识别分析语音语义理解知识库Al 驱动准备脸部 AI 驱动肢体 AI 驱动语音文字 AI 驱动智能化生成智能化驱动智能化交互商汤 AI
35、GC“一站式”数字人生产流水线20220420-企业级AI数字人白皮书.indd 1520220420-企业级AI数字人白皮书.indd 152022/4/22 下午4:062022/4/22 下午4:0616能力篇:商汤赋能 AI 数字人走入千行百业智慧化生成引擎将人工智能技术与 CG 建模环节融合,能够支持 3D 超写实、3D 拟真、3D 卡通,2D 真人等多种数字人风格的快速生成。在人物形象生成方面,引擎不仅可以基于少量照片的面部扫描,算法自动生成高精度的 3D 面部模型,达到毛孔级的真实效果,或基于一张照片快速生成 3D 卡通的风格化形象;还可以调用相应的算法模块,进行人物形象的自动美
36、化、脸部/头发细节处理等,帮助开发者在 CG 建模环节降低所需投入的成本和时间。商汤通过人工智能技术的集成和应用,并与数字人生产流程进行融合优化,针对传统CG建模和动画制作环节,以及数字人的多模态交互和深度学习能力构建,分别推出了智能化生成、智能化驱动和智能化交互三大引擎,并通过三大引擎间的流程打通和标准化处理,打造“一站式”AI 数字人生产流水线。真人照片模型美化后效果照片生成高精三维模型商汤不同风格的 AI 数字人照片快速生成高精模型和 AI 模型美化效果智能化生成引擎|增强人物形象的生动性20220420-企业级AI数字人白皮书.indd 1620220420-企业级AI数字人白皮书.i
37、ndd 162022/4/22 下午4:062022/4/22 下午4:0617企业级 AI 数字人|数字经济发展“新动能”智慧化驱动引擎将人工智能技术与动画设计和制作环节相融合,包括 AI 驱动准备和动作 AI 驱动两大能力。前者通过算法代替人工加速蒙皮和 BS 制作,后者通过真人大数据的深度神经网络训练,基于 STA 算法惟妙惟肖的模拟重现真人说话的口型、表情和肢体动作,让 AI 数字人整体动作表现自然协调,不仅在动作协调上提升了 AI 数字人的拟人化程度,也可替代传统 CG 动画制作环节,大幅减轻动画师的工作强度和人工成本。目前,基于 AI 大数据训练的超高精度口型驱动,对准率超过 98
38、%,而在肢体动作上,可以支持上百项含语义的动作驱动,减轻数字人动作对模板的依赖。智能化交互引擎包括交流对象识别分析、语音语义理解和知识库三大核心组件,与智能化驱动引擎联动,高效构建 AI 数字人的多模态交互和深度学习能力。在交流对象识别分析上,主要依赖视觉和语音识别等算法组合,帮助 AI 数字人在实际应用场景下能够与用户快速、高效建立对话关系。主要包括:1)主动式交互。当视觉算法识别到人脸注视时,可自动开启语音交互,无需通过传统语音唤醒,即可进行主动式问候及触发后续服务;2)杂音过滤。结合视觉 AI 识别用户口型,判断当前用户是否说话,从而过滤掉背景噪音干扰;3)主体人识别。当有多个用户在数字
39、人面前说话时,数字人可通过视觉与声音的多模态信号,提取主要说话人的音频并进行语音识别,保证对话目标的准确性。智能化驱动引擎|提升人物动作的协调性智能化交互引擎|提高人物理解的智慧性语义驱动动作,减少数字人动作对模板的依赖20220420-企业级AI数字人白皮书.indd 1720220420-企业级AI数字人白皮书.indd 172022/4/22 下午4:062022/4/22 下午4:0618能力篇:商汤赋能 AI 数字人走入千行百业商汤通过运营管理平台打通技术到应用的“最后一公里”,为AI数字人行业应用提供终端管理、数据管理和分析、数据训练、资源管理等主要服务,上接 AIGC 生产平台形
40、成制作运营“一体化”模式,面向行业进行“全链路”赋能。1)终端管理。针对所有上线的终端设备和系统,进行实时运行状态监测及软件 OTA 更新等;2)数据管理和分析。针对数字人所有交互数据进行统计分析,并依据内容属性进行自动分类,譬如业务问答、闲聊回答、寒暄互动、兜底回答等;3)数据训练和知识库更新。针对业务问题未回答进行兜底的情况,结合正确答案进行泛化训练,将更新的业务问答同步到知识库中;4)资源管理。包括多媒体资源、数字人素材和资产管理,以及广告资源管理和营销转化分析等其他服务。商汤以赋能百业为目标,面向泛娱乐、商业零售、金融服务、文博文旅、政务服务等全行业提供企业级 AI 数字人解决方案,并
41、通过跨屏、跨系统支持,不仅可以兼容 app、小程序及 H5 等不同展现形式,还覆盖了超过200 款手机、平板电脑、AR/VR 眼镜、智慧大屏及线下一体机等多种终端设备上线 AI 数字人应用。制作运营“一体化”,面向行业“全链路”赋能全终端、全行业方案覆盖,让数字人走入千行百业状态监控异常报警系统 OTA 更新.数据汇总统计分析问题聚类.数据训练迭代标注知识审核.形象管理素材管理自主换装广告管理.终端管理数据管理和分析数据训练资源管理运营管理平台主要服务语音语义理解和知识库共同组成数字人的“AI 大脑”。基于语音识别(ASR)、语音合成(TTS)、自然语言理解(NLP)等技术组合,结合商汤所积累
42、的海量特定知识领域的知识问答库,以及语料自动获取和 NLP模型训练能力,可以根据不同行业业务需求,快速定制 AI 数字人的智能语音对话和问答系统,并可通过接入后台运营管理平台,支持知识库的在线更新和维护,从而实现 AI 数字人的深度学习和迭代升级。20220420-企业级AI数字人白皮书.indd 1820220420-企业级AI数字人白皮书.indd 182022/4/22 下午4:062022/4/22 下午4:0604实践篇AI 数字人应用八大场景场景一:金融网点“新窗口”场景二:在线互金“新入口”场景三:商场交互“新触点”场景四:文博讲解“新体验”场景五:品牌营销“新代言”场景六:企业
43、前台“新形象”场景七:智慧车舱“新助手”场景八:虚拟活动“新服务”认知篇 生态篇 能力篇 实践篇 展望篇202122232424252620220420-企业级AI数字人白皮书.indd 1920220420-企业级AI数字人白皮书.indd 192022/4/22 下午4:062022/4/22 下午4:0620实践篇:AI 数字人应用八大场景商汤 AI 数字人面向全行业提供企业级解决方案,目前已落地金融网点、手机银行、购物中心、党建展厅、政务前台、品牌营销、智慧车舱等多个场景。虽然金融行业客户线上化已是不争的事实,但线下服务网点仍然不会消失。在数字化转型的浪潮下,金融网点正朝着“智能化、无
44、人化”方向发展,以全新的科技理念,优化网点服务标准、质量和效率。商汤为宁波银行上海分行打造的超写实型 AI 数字人大堂经理“小宁”,以栩栩如生的客服形象为银行客户提供各类业务咨询和服务办理。在前端,“小宁”代替真人大堂经理,能够自动识别前来办理业务的客户,主动接待问好,并通过专业、自然的交流和互动,针对客户需求实现自动化引导和智能分流。在后端,“小宁”连接了运营管理平台,可以实现知识库的持续更新和业务数据分析。依托知识库体系,“小宁”可以回答各类复杂的业务问题。当遇到超出知识库范围的问题时,还可以由管理人员远程接管,及时回复。同时,平台还会自动将该问题进行收集和记录,在完善答案后,及时更新到知
45、识库当中。不仅如此,运营管理平台还可以汇聚前端数字人产生的业务信息,对各网点关注问题方向,以及通过对高频问题、业务需求的后台统计,为银行内部产品迭代、业务方向预测等提供数据推动的“原动力”,从而对分行、支行等各网点的业务进行有效的统筹规划。生动的形象和拟真的交互体验,AI 数字人让银行客户倍感新鲜,有效提升了客户关注时间,不仅能为银行创造更多业务推广机会,在网点“智能化、无人化”的趋势下,成为银行服务线下客群的“新窗口”,以及提升服务效率、提高服务质量和标准的重要载体。场景一:金融网点“新窗口”20220420-企业级AI数字人白皮书.indd 2020220420-企业级AI数字人白皮书.i
46、ndd 202022/4/22 下午4:062022/4/22 下午4:0621企业级 AI 数字人|数字经济发展“新动能”随着互联网金融发展,手机银行已成为银行提供客户服务、与客户交流沟通的重要平台。然而,从客户体验角度出发,手机银行服务仍然存在诸多痛点:1)线上渠道承载的银行业务日益增多,自助式服务操作愈加复杂,难以形成“一站式”客户体验。尤其对于一些手机操作不熟练的特殊群体(譬如老年人)不太友好。2)远程服务缺乏人情温度。3)面对线上长尾客群,理财营销规模受限,难以根据客群特性进行精准推荐、形成有效转化。基于手机银行在线服务问题,渤海银行与商汤合作开发 AI 数字人“小海豚”,以生动、可
47、爱的 3D 卡通形象,为渤海银行的线上用户提供全程“贴身服务”,包括自助式业务引导和办理、金融知识的专业讲解,以及理财产品的智能推荐等,为客户创造全新的交互触达式体验,成为手机银行提供在线互金服务的“新入口”。例如,在自助业务办理上,小海豚可以正确“理解”客户需求,并快速定位到客户所需办理的业务界面,大大缩减了繁琐的操作流程,帮助客户高效完成业务办理,为客户提供了一个亲切交互、快捷便利的无障碍金融体验。此外,从银行运营角度出发,通过“小海豚”的智慧交互帮助客户解决业务相关疑问,提升客户体验的同时,也降低了人工转接频次,一定程度上降低了人工客服的在线数量,实现银行的降本增效。场景二:在线互金“新
48、入口”20220420-企业级AI数字人白皮书.indd 2120220420-企业级AI数字人白皮书.indd 212022/4/22 下午4:062022/4/22 下午4:0622实践篇:AI 数字人应用八大场景基于上述问题,广州新塘的永旺梦乐城与商汤联合打造了超写实型AI数字人“小糖”,主要承担商场内客服咨询、导航导购等多项服务工作。例如,作为虚拟客服人员,“小糖”可以随时随地为顾客提供准确、快速的店铺位置导览、停车路线指引、积分兑换等问询服务。当遇到“超纲”问题时,后台管理人员可以及时进行远程接管。作为虚拟导购员,“小糖”通过与顾客的自然交互和意图理解,判断顾客的实地需求,将新品上线
49、、新店开业、优惠活动等商场或店铺信息更有效的向顾客进行精准推荐,有助于营销转化效果的提升。目前,“小糖”的知识库已经覆盖寒暄类、用户吃喝玩乐意图类、购买某特定品类、门店导航类多个内容体系和对应内容的扩展问题,针对顾客的日常问题,回答准确率超过 90%以上,并在日常“学习”中逐步提升。在新零售浪潮的推动下,传统商业正在积极寻求数字化转型,利用新技术、新理念重构“人、货、场”关系打造流量和场景增长的双引擎。从对“人”的服务和体验出发,当前商场经营存在三大主要痛点亟待解决:1)商场空间大、店铺多分布广,商场内虽在各层设有多媒体大屏提供地图导览、品牌广告、活动推广等信息类服务,也同时会在空间各处置入平
50、面硬广,但纯屏幕视频播放或平面展示缺少与顾客的主动交互,服务体验一般,营销转化效率也难以统计;2)咨询台作为商场线下服务的主要窗口,面临人工成本高,人员流失大,服务质量参差不齐,且服务延展性不高等诸多困境;3)此外,在新零售趋势下,商场亟需与顾客建立直接连接,精准把握顾客消费需求和兴趣风向,以更科学的数据化方式赋能商场运营决策和服务提升。场景三:商场交互“新触点”20220420-企业级AI数字人白皮书.indd 2220220420-企业级AI数字人白皮书.indd 222022/4/22 下午4:062022/4/22 下午4:0623企业级 AI 数字人|数字经济发展“新动能”永旺正在打