DB34T4554-2023儿童智能语音识别技术规范.pdf

资源描述

1、 ICS 35.240 CCS L 77 34 安徽省地方标准 DB34/T 45542023 儿童智能语音识别技术规范 Specification for intelligent speech recognition technology of children 2023-10-07 发布 2023-11-07 实施安徽省市场监督管理局发布DB34/T 45542023 I 前言本文件按照 GB/T 1.12020标准化工作导则第1部分：标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由安徽淘云科技股份有限公司提出

2、。本文件由安徽省经济和信息化厅归口。本文件起草单位：安徽淘云科技股份有限公司、科大讯飞股份有限公司、安徽工程大学计算机与信息学院、合肥巴灵瑞教育科技有限公司、合肥赑歌数据科技有限公司、安徽长三角数据感知与治理研究院、江苏理工学院、合肥师范学院、合肥智能语音创新发展有限公司。本文件主要起草人：王晓斐、刘庆升、朱翠玲、叶娟、方明、叶剑鸣、陶皖、陈慧珺、毛四方、吕雪、胡连峰、宋若淼、高群、谢秀琴、姜志文、孙艳、张泽之、武方芳。DB34/T 45542023 1 儿童智能语音识别技术规范 1 范围本文件规定了儿童智能语音识别技术的术语和定义、技术路线和要求。本文件适用于儿童智能语音识别技术的应用。2

3、规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中，注日期的引用文件，仅该日期对应的版本适用于本文件；不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。GB/T 21023-2007 中文语音识别系统通用技术规范 3 术语和定义下列术语和定义适用于本文件。语音智能识别技术 Speech intelligent recognition technology 通过人工智能技术识别声音，并将声音信号转化为文字或指令的过程。声学模型 Acoustic model 输入音频经特征提取和标注后，进行深度学习获得的模型参数即为声学模型；其中，特征提取是将音

4、频数据转换为特征向量；标注是将音频数据上的文本与其对应的特征帧对齐。注1：声学模型的训练过程包括：数据录制、数据标注、特征提取和模型训练。注2：声学模型训练过程中提取特征通常使用 Mel频率倒谱系数（MFCC）等特征提取方法。注3：深度学习也指模型训练，是使用已对齐数据训练声学模型，通常使用深度学习模型包括卷积神经网络（CNN）、长短时记忆网络（LSTM）等模型。语言模型 Language model 利用自然语言处理技术，在词级别上对文本进行建模，输出概率最大的词序列，以解决声学模型无法解决的同音词、近义词等因素干扰的歧义性问题；其中，建模的过程是根据语言学规则、语料库语言统计等多种因素，以

5、概率形式估计一个给定文本的出现概率，并根据这个概率来确定识别结果。4 技术路线儿童语音智能识别的技术路线见图1。DB34/T 45542023 2 图1 儿童语音智能识别技术路线 5 要求语音信号采集 5.1.1 采样率应为 16 KHz，采样位深应为 16 bit。5.1.2 音频采集应保证完整，避免截断或缺失情况的发生。5.1.3 人声和环境噪音的信噪比应不低于 10 dB。5.1.4 人声应是汉语通用语发声，应满足 GB/T 21023-2007 中 6.1（b）的要求。5.1.5 应支持对 314 岁年龄段人群语音信号的采集。信号处理和特征提取 5.2.1 语音信号中有回声存在，应

6、对语音信号进行回声消除处理。5.2.2 语音信号中有较大混响存在，应对语音信号进行去混响处理。5.2.3 语音信号中存在较大周围噪声，应对语音信号进行降噪处理。5.2.4 语音信号中存在特定波段频率的干扰，应对其进行滤波处理。5.2.5 在采集特定方向的语音信号时，应对语音信号进行增强处理，从而起到加强特定方向的语音信号，并抑制其他方向的语音信号。5.2.6 在进行批量语音信号处理时，应根据指定的语音信号长度（时间段或者采样数）进行分段处理。5.2.7 将语音信号从时域转换到频域，提取语音信号中的特征向量。识别 5.3.1 概述对输入的语音信号，在由语句或者单词序列构成的空间当中，按照一定的

7、优化准则，并且根据声学模型、语言模型，生成一个用于搜索的状态空间，在该状态空间中搜索到最优的状态序列，即寻找能够以最大概率输出该信号的词序列。5.3.2 声学模型 DB34/T 45542023 3 5.3.2.1 训练声学模型的训练数据集中儿童数据占比不能低于 40，其中，36 岁儿童的数据不低于20，612 岁儿童数据不低于 20。5.3.2.2 训练声学模型的覆盖各种场景的数据不低于 1 万小时。5.3.3 语言模型 5.3.3.1 识别解码过程中的语言模型的训练数据文本应包含儿童说话的习惯。5.3.3.2 训练语料数据量应达到千万级以上的句子、亿级以上的词级别语料。文本输出 5.4.1 声纹识别的输出结果是本次语音的注册人身份信息，并且含有可信度衡量。5.4.2 语音唤醒的输出结果是对关键词的检测状态判断数据，并且含有可信度衡量。5.4.3 语音听写输出结果为语音对应的文本信息和附属信息（如时间戳、置信度、词属性、拼音等）。5.4.4 语音转写输出结果为语音对应的文本和附属信息（如时间戳、置信度、词属性等）。

展开阅读全文