1、 57 2023 年 8 月第 50 卷 第 8 期2023 年 8 月Vol.50 No.8Aug.2023天 津 科 技 TIANJIN SCIENCE&TECHNOLOGY收稿日期:2023-08-040 引 言随着计算机科学和移动设备的不断进步和发展,对于计算机智能化的需求和期盼越来越大,期盼着计算机可以实现更加符合要求的人机交互,以及更好地根据人类的指令工作1。语音情感识别已经成为人机交互实现的关键部分。人类的情感复杂多变,是由多种生理信号相互作用而成的,所以不容易使用人工智能的方法去准确地感知情感,并且如何使得人机交互更加便捷和人性化也是信号处理、模式识别等学科和领域所重点研究的话
2、题2。运营商外呼语音的语音情感质检目前更多地依赖于人工,费时费力,效率低下;智能化的语音情感质检能降低对人类的依赖,能将服务人员解放出来,从事更多精细化服务管理并提高效率。语音情感识别在安全驾驶、健康监测等领域也有着广阔的应用前景,尤其在实现人机交互方面有着巨大的潜力3。情感计算的目标是赋予计算机感知、理解与表达情感的能力,从而使计算机能够像人一样进行自然、亲近和生动的交互。语音情感识别已经成为人机交互的关键,对语音情感识别的研究具有重大意义。语音是表示语言的一种声音符号,它不仅可以表达出人类的思想,而且还包含很多如音高、响度、韵律等与情感相关的声学信息。语音之所以可以获得情感信息,关键在于声
3、学信息的参数随着时间变化的过程可以体现出语音的情感信息,从语音中提取声学参数来判断情感是语音情感识别的关键一步。语音情感识别相较于人脸、肢体动作等情感识别具有不易遗 科学与社会基于RoBERTa模型的客户服务热线不满情绪识别系统赵东明,张继军(中国移动通信集团天津有限公司人工智能实验室 天津 300020)摘 要:提出一种基于RoBERTa模型的服务热线潜在不满情绪识别方法,从海量的服务热线语音数据中抽取负面情感信息,并进行潜在不满问题解决。在传统文本情感分析模型基础上通过增加RoBERTa语句向量模块,同时引入注意力(Attention)机制,从而使文本情感分析技术在长篇文本学习中获得更好的
4、效果。该系统在天津移动客户服务工作中体现出了优异的应用效果,显著提升了客户满意度。关键词:情感计算 文本情绪识别 注意力机制 深度学习中图分类号:TP391.1 文献标志码:A 文章编号:1006-8945(2023)08-0057-03Customer Service Hotline Dissatisfaction Identification System Based on RoBERTa Model ZHAO Dongming,ZHANG Jijun(Artificial Intelligence Laboratory of Tianjin Co.,Ltd.,China Mobile C
5、ommunications Group,Tianjin 300020,China)Abstract:This paper proposes a method to identify potential dissatisfaction of service hotline based on RoBERTa model,which extracts negative emotional information from massive voice data of service hotline to solve potential dissatisfaction problems.Based on
6、 the traditional text sentiment analysis model,by adding the RoBERTa statement vector module,and introducing the attention mechanism,the text sentiment analysis technology can obtain better results in long text learning.The system has demonstrated excellent application effect in the customer service
7、 work of Tianjin Mobile and significantly improved the customer satisfaction.Key words:emotional computing;text emotion recognition;attention mechanism;deep learning 58 天 津 科 技第 50 卷 第 8 期忘、准确度高、特征提取简便等优点。情感的识别和质检技术的快速发展应用前景广阔。尤其是对电信运营商来说,针对其 10086 服务热线语音文件进行转写,可以将文本信息中的信息进行用户评论情感分析,识别潜在不满情绪,从而改进服务质
8、量,了解用户的倾向性和提高自身服务水平。1 技术方案本项目基于深度学习文本情感分析方法,以实现“面向场景、面向需求、面向情感”的服务运营体系。仔细挖掘客服与用户对话的数据信息与价值,基于客户情绪、文本特征判断用户的情感。根据负面情绪程度将细粒度划分为高、中、低、其他 4 个类别,通过训练与优化提高模型的分类能力和准确度。主要研究内容为:应用常用的基于Albert、注意力机制、CNN等主要的文本情绪分类模型构建基于文本情绪的分类体系,并给出相应的算法结构;搭建文本情感分类算法应用环境,利用AlbertTextcnn算法对情绪进行分类和预测,通过修改参数来优化模型和提高性能;通过对客户语音资料和文
9、字资料的情感特征进行分析,结合文本情感分类模型所得出的情感得到正确的结果,并对其在运营商服务热线中的运用进行分析。本文提出了一种基于 RoBERTa 模型的服务热线潜在不满情绪识别方法,从海量的数据中抽取有用的信息,然后简化问题,并在每次迭代过程中不断地更新数据,从而达到学习的目的。AlBert 模型在分类、识别等方面得到了广泛应用,并获得了较好的结果。本方案在此基础上增加了 RoBERTa 语句向量模块,同时引入了注意力(Attention)机制,从而使文本情感分析技术在长篇文本学习中获得了更好的结果。1.1 构建文本情感分析技术体系架构文本情感分析技术的技术架构如图 1 所示,自底向上分别
10、为基础数据层、数据预处理层、情感/语义理解层、能力输出层、应用层。基础数据层是从投诉语音、标签记录、会话记录等语音文件获取语音数据并进行统一存储;数据预处理层对数据进行预处理,将语音通过科大讯飞离线SDK转写为文本,然后提取语音特征和文本特征,并初步进行篇章段落分配,以实现语音的结构化理解;情感/语义理解层主要是对长文本及上下文进行分析,提取出用户实际的问题,并对问题进行分类,从而识别出用户投诉原因和理解用户投诉意图;能力输出层是对模型所拥有的能力进行统一封装,为应用场景提供统一的接口服务,并且通过URL方式支持外部嵌套;应用层包括多种业务场景,能实现场景化。图 1 文本情感分析技术的技术架构
11、Fig.1 Technical architecture of text emotion analysis technology1.2 打造文本情感识别系统框架文本情感识别框架包括训练和测试 2 个模块,如图 2 所示。首先将语音信息通过讯飞开放平台转写为文本,并隐蔽嵌入进行文本编码,之后对文本信息进行特征提取,在此基础上,采用有监督的方法训练该模型,并利用该模型对新文本的情感极性进行预测。极性包括正向和负向,对于运营商而言,负向情绪至关重要,故又将负向分为高、中、低 3 个极性,将正向归为其他类型。图 2 文本情感分类框架Fig.2 Text emotion classification f
12、ramework针对客服对话场景,大多数研究者承认的 6 种基本情感不能够完全沿用,根据常识及数据集统计判断,恐惧、惊讶的情绪几乎不会出现在客服对话中,从而我们提出 4 种情感分类模型:将高兴归为其他,即正向或中性,不需做太多的研究和回访;将愤怒、厌恶、伤心归为负向,由于运营商最需要在意的就是负向情绪,所以进一步将负向情绪进行细 59 2023 年 8 月 赵东明等:基于RoBERTa模型的客户服务热线不满情绪识别系统粒度划分,依次为高、中、低,以此来提高效率和提升客服体验。1.3 构建情感分析系统平台实现情绪精准识别传统的情感分析方法是基于词典进行判断,通过对人的记忆判断最初的模拟和形成积极
13、、消极、否定词、程度副词的情感词典。在机器学习中,情感分析可以作为二分类问题分析,人为标注大量的样本数据,标注样本分为积极、消极 2 种。目前所存在的做法过分地依靠数据的纯度,并没有考虑到数据不平衡的问题,序列标注算法普遍缺点是训练速度过慢,当文本句子长度过长时,效果会变得不佳。在传统的句向量产生中,常用的是“word-embedding”取加权平均,这种方法的缺点是不能理解上下文和无法动态更新情感词典。本文重点对传统的文本情感分析进行进一步优化和改进,利用一种基于 RoBERTa 句向量优化的文本情感细粒度分析方法进行语音情感分析,通过挖掘客服与用户对话文本数据价值,并基于客户情绪、语义信息
14、,根据负面情绪程度细粒度进行划分,分别为高、中、低和其他4 个类别。文本情感分析平台模型流程图如图 3 所示,主要包括 RoBERTa 预训练模型、注意力机制和 Textcnn文本分类模型。具体实现流程为:参数初始化,使用语音转文本并进行隐蔽嵌入和文本编码,通过RoBERTa 预训练模型对文本进行向量化,以便于后期计算机处理,之后利用注意力机制降低维度、减小计算量,经过 Textcnn 训练求出卷积特征值,以完成最终的文本分类,经过池化层、全连接层,由Softmax 层输出结果并验证其准确度,利用交叉熵机制进行训练,减小误差,最后结束训练,输出文本分类情感的结果。图 3 文本情感分析平台模型流
15、程图Fig.3 Flow chart of text emotion analysis platform model2 技术创新本文提出一种基于 RoBERTa 模型的服务热线文本情感分析方法,意在提出基于 RoBERTa 句向量优化的文本情感细粒度分析方案,其中针对移动客服与用户对话数据,实现场景化客服文本分析,通过挖掘负面投诉对话文本价值,并基于识别的客户情绪、语义信息等进行质检,提前获知客户的潜在不满倾向,进而持续提高客户的服务体验。2.1 面向运营商热线语音文本数据实现情感分析模型构建本文设计的系统基于 RoBERTa 模型的服务热线文本情感分析模型方法及流程,采用 RoBERTa 替
16、换word-embedding实现了网络初始化参数优化,提升了预测的准确度。增加情感分类,设计更加细粒度化的文本情感分类模型,建立充足的情感词库;将文本多特征融合进行实际设计与应用,提高准确度;结合语音特征与文本特征对情感进行多模态分析,通过调整特征占有比提升系统性能。2.2 面向文本情感分析模型关键技术环节进行优化改进文本情感分析模型分为训练和预测两部分,其对于数据处理有着更为细致的步骤。在处理文本时,需将其转换为计算机可以处理的向量形式,此时用到了 BERT 词向量,并且通过 jieba 分词工具对长文本进行处理。通过所设计的文本情感分析模型对实际数据进行预测,分析数据可知,加入 RoBE
17、RTa 预训练模型的 Textcnn 算法的准确率更高一些、性能更好,情感分类的准确率可以达到 83%,召回率也高达93%,便于客服对客户的不满情绪进行及时反映,并对其进行及时调整。另外,本文对文本多特征融合进行了优化。通过学习文本情感分类中存在的问题,得到了结合词性特征、汉字字符特征、拼音字符特征、词向量特征的多特征融合方式,解决了理解偏差、错误字符等带来的问题。3 效益及应用3.1 服务效益项目极大地提升和优化了天津移动业务运营和客户服务水平,并纳入了中国移动智慧中台整体战略规划,在“智能应答”场景中实现了集中化系统建设和全网服务支撑,承接了 31 个省的运维服务工作,基于智能语音情感分析
18、技术的RPA机器人系统属于移动集团内首创,行业领先,其服务端部署在集团统一资源池(呼哈基地)。目前共分配 64 台虚拟机的集群,AI模型训练、推理等部署在哈池(统一AI下转第 63 页 63 2023 年 8 月 毛维娜等:我国体育数字化发展趋势分析及对策建议参考文献张立,张宇航,陈晓龙,等.奥运史中的信息技术应用及其技术特点和发展特征 J .北京体育大学学报,2006,29(12):1606-1608.毛维娜,李梅,毛卫南,等.2022 年北京冬奥会对我国转播技术发展的影响 J .科技中国,2022(6):66-69.陈雯雯,黄海燕.元宇宙视域下的体育产业:诉求、变革与展望 J .西安体育学
19、院学报,2022,39(4):396-402.123上接第 59 页柴王军,李杨帆,李国,等.数字技术赋能体育产业高质量发展的逻辑、困境及纾解路径 J .西安体育学院学报,2022(3):292-300.孙晋海,王静.“双循环”新发展格局下体育产业数字化转型路径研究 J .沈阳体育学院学报,2022,41(5):103-110.江小涓.数字时代中国体育产业发展展望 N .中国体育报,2021-01-04.456平台)。现已具备 18 卡的 GPU,在架构层面支持各省公司、专业公司进行租户入驻或接口对接,实现了一点部署、全网赋能。目前已承接内蒙古移动、江西移动的客服工作,陕西、吉林、河北、海南等
20、省公司均正在接入中,后续将增强与大数据、机器学习、认知理解等技术的融合,以持续为服务运营工作赋能。3.2 运营效益在互联网时代激烈的竞争环境下,天津移动基于人工智能技术,提出投诉热线智能分析RPA机器人系统建设方案并实施。项目引入“自服务,预服务,精准服务”的新理念,打造以AI技术驱动的智能机器人系统,以多媒体自助服务、QA问答、多轮对话、知识图谱、语音转写、人脸识别等为功能,快速响应一线,提升了满意度。人工智能技术实现了全量录音的听取,总服务能力是人工的 10 倍,单位时间服务分析能力提升 3.5 倍,服务满意度指标持续提升。原有热线录音听取人员获得了释放,降低了人力成本,冗余人力投入到一线
21、营销工作中,显著提升了公司的经济效益。参考文献佟德超.基于Multi-attention的文本语音多媒体情感分析 J .电子技术与软件工程,2020(19):134-135.赵东明,石理,田雷,等.天津移动知识图谱驱动的智能应答机器人系统 J .天津科技,2020,47(12):27-29.姚鸿勋,邓伟洪,刘洪海,等.情感计算与理解研究发展概述 J .中国图象图形学报,2022,27(6):2008-2035.1234 结 语本文提出了一种基于 RoBERTa 模型的服务热线潜在不满情绪识别方法,主要目标是从海量的服务热线语音文本数据中抽取潜在负面情感信息,并对现有文本情感分类模型进行优化,在模型初始化阶段添加 RoBERTa 代替 Albert 句向量模块,提出了一种全新的基于 RoBERTa 模型的服务热线潜在不满情绪识别方法,在移动客服与用户对话文本数据集进行了验证,效果显著。本项目有效助力天津移动提升了客户服务精细化程度、减少了人工失误、提高了运营效率、降低了运营成本。