基于神经网络和虚幻引擎的数字人客服系统.pdf

资源描述

1、第26卷第10期2023年10月软件工程 S O F T W A R E E N G I N E E R I N GVol.26 No.10Oct.2023文章编号:2096-1472(2023)10-0049-04DOI:10.19644/ki.issn2096-1472.2023.010.011收稿日期:2 0 2 3-0 2-2 2基于神经网络和虚幻引擎的数字人客服系统豆子闻,李文书(浙江理工大学计算机科学与技术学院,浙江杭州 310018);摘要:为了改善传统智能客服在基于文本交互的情境下,用户体验较差的问题。基于人脸的三维重建赋予数字人真实面孔,同时结合虚幻引擎进行实时渲染,采用

2、R a s a(用于构建对话机器人的开源机器学习框架)针对不同情景进行中文问答训练,经由T T S(T e x t T o S p e e c h)算法转化文本为音频,再通过唇形同步算法将音频映射为数字人面部变形权重,该权重最终用于驱动面部动画,实现了用户和高保真数字人语音对话的功能。经过在不同年龄段群体进行测试和统计,用户对系统的满意率高达9 6%,为提升智能客服的体验提供了优化方案。关键词:三维重建;中文问答;数字人;唇形同步;语音合成;虚幻引擎中图分类号:T P 3 9 1 文献标志码:AD i g i t a l H u m a n C u s t o m e r S e r v i

3、c e S y s t e m B a s e d o n N e u r a l N e t w o r k s a n d U n r e a l E n g i n e DOU Ziwen,LI Wenshu(School of Computer Science and Technology,Zhejiang Sci-Tech University,Hangzhou 310018,China);A b s t r a c t:In order to improve the problem of poor user experience in traditional intelligent

4、 customer service based on text interaction,this paper proposes to endow digital humans with real faces based on 3D reconstruction and use virtual engine for real-time rendering.Rasa(an open-source machine learning framework for building dialogue robots)is used to train Chinese Q&A for different sce

5、narios.Text is transformed into audio by TTS(Text To Speech)algorithm,and then the audio is mapped to digital human facial deformation weights by lip synchronization algorithm.This weight is ultimately used to drive facial animation and realize the function of voice conversation between users and hi

6、gh-fidelity digital humans.After testing and statistics in different age groups,the user satisfaction rate is as high as 96%,providing an optimization solution for improving the experience of intelligent customer service.K e y w o r d s:3D reconstruction;Chinese Q&A;digital human;lip synchronization

7、;speech synthesis;unreal engine0引言(I n t r o d u c t i o n)在数字化时代,客户服务经历了重大变革,越来越多的消费者倾向于通过数字方式与企业沟通,而企业也在探寻更加可靠且高效的客户服务系统1。随着计算机算力的不断增强,神经网络参数量的快速提升使得智能客服更加“聪明”、完善。人工智能及时的应用彻底改变了客户服务行业,而三维重建以及软件工程2023年10月图形渲染的发展,也使得数字人更加逼真,其皮肤纹理清晰可见。数字人和客服系统相结合是数字客服这一领域最前沿的发展趋势,而在系统开发中结合使用神经网络和虚幻引擎是一种独特的方法,在以前的研究中未

8、被广泛探索2。本文主要研究基于神经网络和虚幻引擎的数字人客服系统的开发,该系统旨在为客户创造沉浸式的互动体验,提高他们对产品或服务提供企业的满意度和忠诚度。通过模拟类人交互,数字人客服系统可以对客户的查询和投诉提供有效且个性化的响应,能显著提升客户的整体体验感。1系统与功能模块设计(S y s t e m a n d f u n c t i o n m o d u l e d e s i g n)数字人客服系统架构主要包含数字人构建、中文问答、语音合成、唇形同步四大模块。用户只需要对录音设备提出自己的问题,系统的语音识别模块会自动识别出用户的语音,并转换为文字输入中文问答模块,然后中文问答模块

9、给出回答,并经过语音合成及唇形同步模块,最终得以输出逼真的数字人面部表情和合成语音。数字人客服系统总体架构图如图1所示。图1 数字人客服系统总体架构图F i g.1 O v e r a l l a r c h i t e c t u r e d i a g r a m o f d i g i t a l h u m a n c u s t o m e r s e r v i c e s y s t e m2基于图像的三维人脸重建(I m a g e-b a s e d 3 D f a c e r e c o n s t r u c t i o n)在虚拟形象的构建中,本文采用基于生成器-判别器

10、的三维可变形人脸模型(3 D M o r p h a b l e M o d e l s,3 DMM),主要用于从每张单独的图片中得到人脸的基础模型3。在3 DMM生成器阶段,使用卷积神经网络从输入图片中提取出面部姿态和光照的向量表示,以及模型中所需的参数,然后提取出面部的颜色贴图和立体构型。生成器模块的主要作用是将输入的图片转化为3 D模型。首先,使用人脸识别算法从输入图片中提取特征,这其中有两个目的:一是用于估计主体偏差并计算网络主体偏差的损失函数;二是细化纹理4。其次,使用图卷积网络技术,并使用解码器、精炼器、组合器三个贴图优化模块接收生成器中的结果作为输入,并输出贴图的细化版本。人脸识

11、别算法的输出被传递到解码器,同时3 DMM的结果传递到精炼器中以优化人脸的顶点颜色。最后,组合器综合解码器与精炼器给出的每个顶点的颜色,并将其与原始点、线、面信息结合,作为最终的输出。判别器将输出的模型再次映射到一个平面上5。通过识别这张图片是原始图片还是重投影,生成器和判别器进行网络对抗训练,从而提升模型的最终生成效果。人脸三维重建流程如图2所示。图2 人脸三维重建流程F i g.2 3 D r e c o n s t r u c t i o n p r o c e s s o f f a c e3文本对话系统(T e x t d i a l o g s y s t e m)在对话系统的构建

12、上,本文使用R a s a为基础框架,R a s a由自然语言处理库组件和核心组件两个部分组成6。自然语言处理库可用于问答机器人的意图分类和实体识别,并且是一个基于有向无环图的通用型自然语言处理框架。R a s a的组件之间相互连接,形成有向无环图,并按一定的顺序运行。例如,命名实体组件必须在分词器之前运行才能正常工作。本文使用C h a t i t o工具(C h a t i t o是用于创建聊天机器人训练数据集的自然语言生成工具和领域特定语言)快速构建R a s a N L U训练意图识别数据集,并使用R a s a t r a i n n l u命令训练模型。核心组件可以指定问答机器人的

13、行为(A c t i o n s)。R a s a C o r e还提供了训练预测概率模型的工具,以便根据当前或历史会话预测下一步动作。首先,须要创建D o m a i n文件,它包括意图、实体、词槽、模板和动作。其次,通过编写自定义动作(a c t i o n s.p y)调用A P I和执行相关操作。再次,构建故事(s t o r y),即模拟用户与问答机器人的实际对话。用户输入的内容会被转换为意图和实体,机器人对用户的响应则被视为动作。完成以上配置(n l u、d o m a i n、s t o r i e s、c o n f i g)后,即可对整个R a s a模型进行训练。R a s

14、 a的消息处理流程如图3所示。R a s a的消息处理流程包括用户输入文本信息或语音信号,由自然语言解释器(I n t e r p r e t e r)将其转换成意图信息和实体信息,然后构建语义词典,包括原始文本、意图和实体,并将其传递给核心组件。R a s a的对话状态追踪器会获取当前的对05第 26卷第 10期豆子闻等:基于神经网络和虚幻引擎的数字人客服系统图3 R a s a的消息处理流程F i g.3 M e s s a g e p r o c e s s i n g f l o w o f R a s a话状态,包括实体信息和词槽情况,并记录下来。当策略接收到当前的对话状态后,会利用

15、特征提取组件提取对话状态的特征,并根据这些特征预测和选择下一个动作。追踪器会记录当前执行的动作,最终执行动作并将结果反馈给用户。R a s a的工程目录文件主要包括c o n f i g.y m l、c r e d e n t i a l s.y m l、a c t i o n s.y m l、d o m a i n.y m l、e n d p o i n t s.y m l、d a t a/n l u.y m l、d a t a/r u l e s.y m l、d a t a/s t o r i e s.y m l、a c t i o n s.p y、d a t a.j s o n、d a

16、t a_t o_n e o 4 j.p y、n e o 4 j_K n o w l e d g e.p y、m o d e l s。其中,c o n f i g.y m l用来存放组件配置的信息;d a t a/n l u.y m l用来存放训练模型的数据;m o d e l s用来存放训练好的模型;d o m a i n.y m l定义了问答机器人的所有信息,包括意图、实体、词槽、动作、表单和回复等;a c t i o n s.y m l用来存放动作的代码;c r e d e n t i a l s.y m l用来连接到其他服务;d a t a/s t o r i e s.y m l用于训练

17、核心模型的故事数据集。4语音合成(T e x t-t o-s p e e c h)本文的语音合成策略是采用一种端对端的T T S神经网络模型,其基于典型的编码器-解码器(E n c o d e r-D e c o d e r)结构7。E n c o d e r用来将文本特征转化为中间特征;D e c o d e r使用自回归的方式,使用中间特征与上一时刻的梅尔特征输出生成当前时刻的梅尔特征。在E n c o d e r层,首先将字母转换为5 1 2维词向量,其次经过多层卷积操作对输入的文本序列进行上下文建模,以获得上下文特征关系,最后经过双向L S TM层生成编码特征。D e c o d e

18、r是一个注意力机制模块,在训练时预训练网络采用真实的梅尔频谱特征作为输入进行训练,而在测试时,上一时刻线性映射的输出作为预训练网络当前时刻的输入。预训练网络为两层维度为5 1 2的全连接网络,作为信息瓶颈层,对学习注意力是必要的,其输入为特定一帧的梅尔频谱特征,将该时刻输出与注意力模块输出的上一时刻上下文特征进行拼接操作后,送入两层由1 0 2 4单元组成的L S TM层中,获得L S TM的输出。将E n c o d e r输出、L S TM输出以及累加的注意力权重变量(初始值为0)作为注意力机制的输入,并输出这一时刻的注意力权重与这一时刻的上下文特征。其中,E n c o d e r的输出

19、可以视为V a l u e,L S TM的输出视为Q u e r y,累加的注意力权重变量可以视作位置特征,获得注意力权重后,与E n c o d e r的输出做加权和,得到当前时刻的上下文特征。此时,当前时刻的上下文特征再与L S TM的输出拼接,经过线性映射,输出目标频谱帧,最后使用G r i f f i n-L i m算法将梅尔频谱重建为时域的音频信号8。5唇形同步算法(L i p s y n c h r o n i z a t i o n a l g o r i t h m)音频信号最终需要转化为面部动画,本文使用唇形同步算法A u d i o 2 F a c e9。A u d i o

20、 2 F a c e网络由三部分组成,其中第一部分包含1个自相关分析层和5个卷积层,在数据分析阶段,使用线性预测编码提取音频特征,再通过卷积神经网络对特征进行压缩,提取短时特征,该特征反映了人发音时面部动画附带的特定语气、音素等。在发音阶段,压缩后的短时特征再经过5个卷积层,提取相邻序列帧的相关性,最终输出整体特征图。除此之外,发声时的情绪状态也至关重要,该参数由神经网络自动学习生成,并逐层拼接到发音网络。在输出网络,数据需要经过两个全连接层,该网络将特征数据映射到面部模型的6 1维变形权重(B l e n d S h a p),其中第一个全连接层将特征映射到表情系数,第二个全

21、连接层将表情系数映射到B l e n d S h a p1 0。唇形同步算法流程如图4所示。图4 唇形同步算法F i g.4 L i p s y n c h r o n i z a t i o n a l g o r i t h m最终输出的权重用于控制面部动画,如图5所示为权重对面部动画的影响,例如当权重M o u t h R i g h t的值变大时,面部网格的嘴部表现出右撇的姿态。图5 权重M o u t h R i g h t为0.5 0 5 1 4时对面部动画的影响F i g.5 I n f l u e n c e o n f a c i a l a n i m

22、a t i o n w h e n M o u t h R i g h t i s 0.5 0 5 1 46系统实现(S y s t e m i m p l e m e n t a t i o n)在虚幻引擎中,将三维重建的人脸模型重新映射为M e t a h u m a n模型,这是一种带有身体骨骼绑定以及毛发的虚15软件工程2023年10月拟人制作系统,面部动画的表达由变形权重的曲线经由姿势映射形成,本文使用L i v e l i n k数据流作为P y t h o n端和虚幻引擎的通信方式,总共将6 1维权重传输给虚幻引擎,权重名分别如下:E y e B l i n k L e f t,

23、E y e L o o k I n L e f t,E y e L o o k U p L e f t,E y e S q u i n t L e f t,E y e W i d e L e f t,E y e B l i n k R i g h t,E y e L o o k D o w n R i g h t,E y e L o o k I n R i g h t,E y e L o o k O u t R i g h t,E y e L o o k U p R i g h t,E y e S q u i n t R i g h t,E y e L o o k D o w n L e f

24、t,E y e W i d e R i g h t,J a w F o r w a r d,J a w L e f t,J a w R i g h t,J a w O p e n,M o u t h C l o s e,M o u t h F u n n e l,M o u t h P u c k e r,M o u t h L e f t,M o u t h R i g h t,E y e L o o k O u t L e f t,M o u t h S m i l e L e f t,M o u t h S m i l e R i g h t,M o u t h F r o w n L

25、e f t,M o u t h F r o w n R i g h t,M o u t h D i m p l e L e f t,M o u t h D i m p l e R i g h t,M o u t h S t r e t c h L e f t,M o u t h S t r e t c h R i g h t,M o u t h R o l l L o w e r,M o u t h R o l l U p p e r,M o u t h S h r u g L o w e r,M o u t h S h r u g U p p e r,M o u t h P r e s s

26、L e f t,M o u t h P r e s s R i g h t,M o u t h L o w e r D o w n L e f t,M o u t h L o w e r-D o w n R i g h t,M o u t h U p p e r U p L e f t,M o u t h U p p e r U p R i g h t,B r o w D o w n L e f t,B r o w D o w n R i g h t,B r o w I n n e r U p,B r o w O u t e r U p L e f t,B r o w O u t e r U

27、p R i g h t,C h e e k P u f f,C h e e k S q u i n t L e f t,C h e e k S q u i n t R i g h t,N o s e S n e e r L e f t,N o s e S n e e r R i g h t,T o n g u e O u t,H e a d Y a w,H e a d P i t c h,H e a d R o l l,L e f t E y e Y a w,L e f t E y e P i t c h,L e f t E y e R o l l,R i g h t E y e Y a w,

28、R i g h t E y e P i t c h,R i g h t E y e R o l l。在虚幻引擎端,该6 1维权重实时修改动画蓝图中的动画曲线值,如图6所示。图6 虚幻引擎中动画蓝图权重应用F i g.6 A p p l i c a t i o n o f a n i m a t i o n b l u e p r i n t w e i g h t i n u n r e a l e n g i n e数字人客服系统虚幻引擎端如图7所示,本文研究抽取不同年龄段的实验者共5 0人,其中本科生3 0人,硕士研究生1 5人,教师5人,实验者针对不同的问题向数字人客服提问,其中4 8人

29、表示对数字人客服的服务高度满意,整体满意度为9 6%。图7 数字人虚幻引擎端展示F i g.7 U n r e a l e n g i n e e n d d i s p l a y o f d i g i t a l h u m a n7结论(C o n c l u s i o n)本文设计并实现的基于神经网络和虚幻引擎的数字人客服系统,创造性地将客服系统与数字人相结合,利用神经网络和虚幻引擎创建了一个高度逼真和交互性强的虚拟对象,使客户能够以自然和直观的方式与数字人进行交互。调查和测试结果显示,客户对这种新的服务方式反应积极,多数实验者对数字人客服系统的服务表示高度满意。统计结果也表明,数

30、字人客服系统的使用对客户服务运营的效率和有效性产生重大影响,同时能帮助企业降低成本,提高客户满意度,以及增加收入。参考文献(R e f e r e n c e s)1 宋倩茜,马双.电商平台智能客服与人工客服的顾客感知价值对比研究J.商展经济,2 0 2 2(2 2):3 8-4 0.2 王泓贤.基于虚幻引擎的3 D动画创作研究与应用J.文化产业,2 0 2 0(3 0):1 0-1 1.3 黄炎辉.基于图像的三维人脸建模及其应用研究D.西安:西北工业大学,2 0 1 9.4 T A V O O S I J.D e s i g n i n g a n e w r e c u r r e n t

31、 c o n v o l u t i o n a l n e u r a l n e t w o r k f o r f a c e d e t e c t i o n a n d r e c o g n i t i o n i n a c o l o r i m a g eJ.I r a n J o u r n a l o f C o m p u t e r S c i e n c e,2 0 2 1,4(3):1 8 5-1 9 4.5 徐志良.基于G A N的人脸属性解耦编辑研究D.武汉:华中科技大学,2 0 2 1.6 刘宇杰,陈家豪,宋晖,等.基于R a s a的任务型对话系统设计与

32、实现J.现代计算机,2 0 2 2,2 8(3):1 0 8-1 1 2.7 C H E N L J,R E N J,C H E N P F,e t a l.L i m i t e d t e x t s p e e c h s y n t h e s i s w i t h e l e c t r o g l o t t o g r a p h b a s e d o n B i-L S TM a n d m o d i f i e d T a c o t r o n-2J.A p p l i e d I n t e l l i g e n c e,2 0 2 2,5 2(1 3):1 5

33、1 9 3-1 5 2 0 9.8 MA S U Y AMA Y,Y A T A B E K,K O I Z UM I Y,e t a l.D e e p G r i f f i n-L i m i t e r a t i o n:t r a i n a b l e i t e r a t i v e p h a s e r e c o n s t r u c-t i o n u s i n g n e u r a l n e t w o r kJ.I E E E J o u r n a l o f S e l e c t e d T o p i c s i n S i g n a l P r

34、 o c e s s i n g,2 0 2 0,1 5(1):3 7-5 0.9 蔡国鑫.A u d i o 2 F a c e基于音频文件智能生成虚拟角色面部动画J.现代电影技术,2 0 2 1(9):6 0-6 1.1 0 P A R K J H,K I M J,S O N G J,e t a l.S i m u l t a n e o u s s i m p l i f i-c a t i o n o f m u l t i p l e t r i a n g l e m e s h e s f o r b l e n d s h a p eJ.J o u r n a l o f t h e K o r e a C o m p u t e r G r a p h i c s S o c i e t y,2 0 1 9,2 5(3):7 5-8 3.作者简介:豆子闻(1 9 9 4-),男,硕士生。研究领域:三维重建,虚拟现实。李文书(1 9 7 5-),男,博士,教授。研究领域:图像处理,认知建模,虚拟现实,物联网集成开发。25

展开阅读全文