ImageVerifierCode 换一换
格式:PDF , 页数:10 ,大小:1.25MB ,
资源ID:5638965      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/5638965.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(汉语双模情感语音数据库标注及一致性检测.pdf)为本站上传会员【xrp****65】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

汉语双模情感语音数据库标注及一致性检测.pdf

1、2 0 1 5年 1 0月 第4 1 卷 第 l O 期 北 京 航 空 航 天 大 学 学 报 J o u r n a l o f B e i j i n g Un i v e r s i t y o f Ae r o n a u t i c s a n d As t r o n a u t i c s 0c t o b e r 2 O1 5 Vo 1 41 NO 1 O h t t p f f b h x b b u a a e d u c n b u a a b u a a e d u o n DOI:1 0 1 3 7 0 0 j b h 1 0 0 1 5 9 6 5 2 0 1 4

2、 0 7 7 1 汉语双模情感语 音数据库标 注及 一致性检测 景少玲,毛峡,陈立江,张娜娜(北京航空航天大学 电子信息工程学院,北京 1 0 0 1 9 1)摘 要:对缺少含有丰富情感标注信息的情感语 音数据库 问题,建立了一个包含语 音和 电声门图仪(E G G)信息的汉语双模情感语音数据库,并对其进行 了标 注和 一致性检测 首先,根据情感语音数据库的特色制定 了详细的标注规则和方法,由5名标注者按照制定的标 注规则对情感语音数据库进行标注 其次,为 了确保情感语音数据库的标注质量和测试标注规 则的完整性,标注者在正式标注之前先进行 了测试性标注,测试语音包含 2 8 0条语音(7种情

3、感 X 2 名说话人 2 O 条语音)最后,根据语音标注规则设计 了相应的一致性检测算法 结果表 明,在 5 m s的时间误差范围内,5名标注者对相 同语音标注 的一致性平均可 以达到 6 0 以上,当误 差 范 围增大 至 8 ms 和 1 0 ms时,一致 性平 均 可 提 高 5 和 8 实验 说 明 5名 标 注者 对 语 音 的理 解较 一致,制定 的标 注规 则 比较 完整,情感 语音 数据 库 的质 量 也较 高 关 键 词:汉语;双模;情感语音数据库;语音标注;一致性检测 中图分类 号:T P 3 9 1 4 文献标识码:A 文章编号:1 0 0 1 5 9 6 5(2 0 1

4、 5)1 0 1 9 2 5 1 0 情感语音中含有 丰富的情感交流信息,在人 们 日常生活中起着非常重要 的作用,对其研究可 以进一步了解人类相应 的心理状态,情感语音识 别在情感计算和智能交互领域有重要意义 情感 语 音 数据 库是情 感语 音识 别、合成 等研究 的基础 由于情 感 的复 杂性、数 据 收集 的 困难 性、录制 标准 的不统一性、情感分类 目的和任务的差异性等,导 致 目前大多数研究机构都是按照各 自的科研需求 建立相应 的情感语 音数据库。情感化 的智能 交互要求机器具有接近人类 的语音情感识别和表 达 能力,为 了 实 现 该 目标,建 立 一 个 真 实 自然 并且

5、拥有完整情感标注信息的优质情感语音数据 库 是 十分重 要 的 电声 门 图 仪(E l e c t r o g l o t t o g r a p h y,E G G)是 测 量说话人声门开启与闭合状态以及声门振动方式 的仪器 客观地反应了发元音时声带开闭的状态,对情感语音识别研究有重要作用 目前大多数情 感语音数据库都不含 E G G信息,而本文的汉语双 模情 感语 音数 据库 中采 用 了 E G G信 息 1 情感语音数 据库概 况 2 0 0 3年在 V e r v e r i d i s 和 K o t r o p o u l o s 总 结 的情 感语音数据库中,和汉语相关 的仅

6、列出了微软公 司从 电视剧 截取 录 音 片段 的数 据 库,表 1总 结 了语音情感识别研究 中常用的一些情感语音数据 库 的基 本情 况 从 表 1中可 以看 出,目前 的情 感 语 音 数 据 库 收稿 日期:2 0 1 4 1 2-0 8;录用 日期:2 0 1 5-01 1 6:网络出版时间:2 0 1 5-03 1 8 1 4:3 7 网络 出版地址:W W W c n k i n e t k c ms d e t a i l 1 1 2 6 2 5 V 2 0 1 5 0 3 1 8 1 4 3 7 0 0 2 h t m l 基金项 目:高等学校博士学科点专项科研基金(2 0

7、1 2 1 1 0 2 1 3 0 0 0 1);中央高校基本科研业务费专项资金(Y wF 1 4 D Z X Y-O 1 5)作者简介:景少 玲(1 9 8 7 一),女,山西永济人,博士研究生,j i n g s h a o l i n g 2 0 1 3 1 6 3 c o rn 通讯作者:毛峡(1 9 5 2 一),女,浙江义乌人,教授,mo u k y o u b u a a e d u c a,主要研究方 向为人工智能、模式识别、情 感计算、人机交互及 红外 目标检测、跟踪、识别和评价等;f 用格式:景少 玲,毛峡,陈立江,等汉语双模 恃感 语音数据 库标注及 一致性检 测 J 北

8、京航 空航天 大学 学报,2 0 1 5,4 1(1 0):1 9 2 5 1 9 3 4J i n g S L,Ma o X,C h e n L J,e t a 1 An n o t a t i o n s a n d c o n s i s t e n c y d e t e c o n f o r C h i n e s e du a l-mo d e e mo t i o n a l s p e e c h d a ta b a s e【J J o u r n a l o f B e r i n g U n i v e r s i ty o f A e r o n a u t i c

9、s a n d A s t r o n a u t i c s 2 0 1 5 4 1(1 0):1 9 2 5 1 9 3 4(i n C h i n e s e)1 9 2 6 北 京 航空 航 天 大 学 学 报 2 0 1 5年 存在的共同问题是:包含 E G G信息的情感语音 数 据 库 非 常 少,汉 语 中 尚未 有;大 多 数 库 规 模 小,如 N A T U R A L、E S MB S;录 制 标 准不 统 一,如 情感类别多样;一些库中记录的话语质量差,如 K I S ME T,采样率为 8 k H z;一些库不提供音标等 标注信息,如 B a b y E a r s,

10、对提取语言 内容等信息造 成 困难 一个 完 整 的情 感语 音数 据库 除 了包 括基 本 的 语音 文件 外,还 应该 有相应 的标 注文 件,详 细 的情 的训练 集和 测试 集,因此 对情 感 语 音 数 据 库 进 行 标 注 就显 得 极 其 重 要 目前 国 内 的情 感 语 音 数 据库 尚未 有与情 感有 关 的标注信 息,国外 有一 些情感语 音数据 库进 行 了与情感 有关 的标 注,如 英语 情 感 语 音 数 据 库,德 语 音 视 频 自然 语 音 库 H 和 日语 J S T C R E S T E S R库;马 来 西 亚 语 音库 收 集 了对 话 语 音,标

11、 注 了不 平 滑 以 及 填 充 间断 等语 言现 象,但 未 标 注 情 感 信 息;日本 U U(U t s u n o mi y a U n i v e r s i t y)语音 库 标 注 了 副 感语音标注可以为情感语音合成和识别提供可靠 语言信息 表 1 部 分情 感语 音数 据库总结 Ta bl e 1 Sum m ar y o f p ar t s of e m o t i o na l s pe e c h da t a ba s e 本文 结 合 中国 社 会科 学 院(简 称 社 科 院)制 定的标注符号和研究需要,主要做了以下工作:首 先根 据北 京 航 空 航 天

12、大 学(简 称 北 航)录 制 的双 模情感语音数据库制定了详细的语音数据库标注 规则,考虑到标注的规范化,采用 了社科院设计 的 一部分 标注符 号;然 后对 5名标 注者 进 行 培训,培 训之后标 注者开始标注语 音数据库 中的语 音;最后 为 了确保 标注质量,根据标 注规则设计 了一 致性 检 测算法,检 验几名 标 注者标 注 结果 的一致 性 好 坏 本文 的工作 与其他语音数 据库不 同之 处在 于:录 制 的情感语 音数据库为 双模 的,包括语 音波形 图 和 E G G信息,信息更丰富;除了标注基本的汉字转 换和音节等 信 息外,还标 注 了与清 音、静 音、浊音、情感、副

13、语 言信 息 和重 音 等相关 的信 息,目前 国 内 其他情感语音 数据库 中未有如此完整 的标 注信 息;设计了一致性检测算法并对标注过的语音进行 了一致性测试,实验结果表 明不 同标注 者标 注的一 致性较 高,说 明语音数据库 的质量较高 2 汉语双模情 感语音数据库 的设计 为 了获得 高质 量 的情感 语 音数 据 库,本 文 建 立 了 北 航 汉 语 双 模 情 感 语 音 数 据 库(C h i n e s e D u a l m o d e E mo t i o n a l S p e e c h D a t a b a s e,C D E S D),并对数据采集过程以及对

14、被试者的诱导方式进行 了设 计 2 1 实验 条件 双模 是 指 语 音 录制 过 程 中 同时 采 集 了 语 音 信息和 电声门图信 息 说话人包 括 2 0名年 龄在 2 12 3岁 的 大 学 生(1 3男,7女),每 位 说 话 人 根据 预 先设 定 好 的 2 0条 语 句 进 行 发 音,每 句 话 表达 7种不 同 的情 感,分 别 是 悲 伤、高 兴、害 怕、惊奇、平静、生 气、嫌 恶,每 条 语 句 发 音 3到5遍 不等,后 期 经 过 拆 分 和 删 选,每 条 保 留 3遍,共得到8 4 0 0条语句 表 2描述 了北航情感 语音 数 据 库 录 音 文 本,要 求

15、 文 本 无 某 一 方 面 的 情 感 倾 向,有较 高 的情 感 自由度,能 施 加 各 种 情 感 进 行分析 比较,并且是 口语化 的陈述句 录音 时间 选 择 在 较 安 静 的 晚 上,地 点 是 在 密 闭 空 旷 的 实 验 室 录 音 设 备 采 用 笔 记 本 电 脑,外 接 创 新 A u d i g y 2 N X U S B接 口声 卡,台 式 麦 克 风,录 音 软件 采 用 G o l d Wa v e V 5 1 4,采 样 率 为 4 4 1 0 0 Hz,1 6 b量 化 第 l 0期 景少 玲,等:汉语 双模情 感语 音数据库标注及一致性检测 表 2 Ta

16、 bl e 2 北航情感语音数据库录音文本 啊,下雨 了!”Re c or de d t e x t o f Be i ha ng e m o t i o na l s p e e c h d a ta b a s e 3情 感语音数据库标 注规则 语句编号 语句内容 l 9 2 0 啊,你可真伟大呀 快点干 这下完了 啊,下雨了 太棒了 我真的以为你是这个意思 我在论文上看到你的名字了 A C米兰赢球了 我这次考试刚刚通过 今天是星期天 你这人 电话铃响了 他就快来了 路上人真多啊 明天我要搬家了 这件事是他干的 你这段时间变瘦了 过两天学校就要开学 了 昨天晚上我做了一个 梦 有一辆车向我

17、们开过来了 2 2数 据采 集过 程的设 计 由工作人员为被试者带上电声门图仪的采集 工具,面前放置麦克风 采集前先进行信号的测 试,尤其注意电声 门图和语 音信号是否有削顶现 象,适 当地调整 电脑音量或者电声 门图和语音采 集的放大倍数,声音大小也可以通过调整麦克与 人的距离实现 同时保证测试环境的绝对安静,测试时告知被试者不能随便移动,周 围不能发出 声响 被试者以尽量真实的情感表达 出 7种不 同的、区分度较高的情感状态,不需要过分夸张的 成分 测试 中,需要与被试者多进行沟通,引导 其感情,舒缓其情绪,使其放松,当被试者表达不 理想时,重复 4 6次甚至更多 实验中,应让被 试者有足

18、够的休息时间,期间也需要尽量 多的沟 通交流,调节被试者状态 2 3提 示的设 计 为 了获得 被 试 者 的 7种 情 感 数 据,实 验 前 对 表 2中的每一 条 语 音 及 相应 的情 感,都 进 行 了情 景设 置,建立 了一 个完 整 的含有 1 4 0场情景 的表 例 如对 第 4条 语 句“啊,下 雨 了”,当表 达 悲 伤 情 感 时,设 置情 景为:“一 位 诗人,想 起 怀才 不 遇,看 见 阴 沉 的 天 空,淅 沥 的 小 雨,有 感 而 发:啊,下 雨 了!”;当表 达 高 兴 情 感 时,设 置情 景 为:“入 春 以 来,整个 地 区没有 掉过 一滴 雨,以土地

19、 为生 的农 民 们躲 在 家 中感 慨 春雨贵 如 油 突 然有 一天,外边 雷 声 大作,你 马 上 跑 人 雨 中,高兴 地 说:老 天 开 眼,社科院语音研究室根据国际语音学者团体制 定 的可 机读 的音 段 标 注 体 系 S A MP A(S p e e c h A s s e s s me n t Me t h o d s P h o n e t i c A l p h a b e t)和 韵 律 标 注 体系 T o B I(T o n e s a n d B r e a k I n d i c e s)设计 了适用 于汉语标注的 S A MP A C和 T o B I C等标

20、注符号体 系,并根 据 指定 的符号 标注 了很 多语 音数据 库,例 如 D F E I C(D a t a b a s e o f F u n c t i o n a l a n d E m o t i o n a l I n t o n a t i o n i n C h i n e s e)语 音 数 据 库,该 库 收 集 了 电视 节 目和谈 话 节 目的语 音 数 据,主要 用 于情 感 中的声调识别,但是仅标注了两层信息,分别是音 节层 和 韵律层;自然 口语 库 总共 标注 了 7层信 息,包括 韵律 和语 言学标 注,主要 用 于语 音合 成 和 韵律识别 本文的汉语双模情

21、感语音数据库不但 包含 E G G信息,而且加入了情感信息 的标 注,为 情感识别提供丰富的信息 根据 C D E S D,制定 了详细 的标 注规则 标 注 规则包括标注的一致性、连贯性,标注符号的易记 性,但同时还需要遵循 的一条原则是允许标注的 不确定性和差异性存在,即允许不 同的标注者对 同一条语音 中的情感、重音、声调等有不 同的理 解,避免 向用 户 提 供 错 误信 息 标 注软 件 使用 P r a a t 5 3 5 9,标 注内容一共 包括 8层:第 1层是 文字转换层(H Z),第 2层是音节层(P Y),第 3层 是声韵 母 层(S Y),第 4层 是 清 音静 音 浊

22、 音 层(S U V),第 5层是副语言 信息层(P A R A L),第 6 层是情感层(E MO),第 7层是重音指数层(s T),第 8层是语句功能层(F U)下面详细介绍每一层 的标 注 内容 和标 注规 则 3 1文字转 换层(HZ)文 字转 换层 的 主要工 作就是 将语 音转 化为 文 字,也是 语 音标注 中最 基本 的标 注 内容,文 字标 注 必须包括文字信息和基本的副语言信息,文字标 注的要 点是 汉字 和 副 语 言 信 息 的准 确 标 注,其 中 副语言 信息 采用 通 用 的副语 言符 号 表 示 本 文 的 副语 言符号 参考 社科 院语 言研究 所语 音研 究

23、 室制 定 的一 些基 本 的副语 言符 号 3 2音 节层(P Y)音节 层 主要标 注正 则 的 拼 音 和声 调,声 调 标 注在音节 之后,汉语 中的声调包括轻声、一声、二 声、三声和四声,分别用 0、1、2、3、4表示,声调标 在 音节 之 后 例 如:a O、t i a n l、r e n 2、g u o 3、f a n g 4 标 注 时标 注者 通过 听语 音 将 原始 语 音 划 分 为 音节,音 节 的划分 也是 标 注 中的难 点,为 了保 证 不 同标 2 3 4 5 6 7 8 9 1 9 3 0 北 京 航 空 航 天大 学 学 报 式中:p代表一致性结果;代表标注

24、者 A、B标 注结果一致的分割点数;A 和 日 。分别代表标注 者 A、B在该层 标注 的音 节段数 图 3为一致 性 检 测 的算 法 流 程 图 具 体 的 对 比过程 为 f D s =l A (i,)一B 。(i,)1【D a i:I A (i,)一B (i,)则 对 于同一 条语 音,A。(i,)代 表 标 注者 A标 注 的语 音 中第 i 层 第 段 的起始 时 间;。(i,)代表标注者 A标注的语音 中第 i 层第-段 的结束 时间;。n T (i,J)代表标注者 B标注的语音 中第 i 层第 段的起始时间;B (i,)代表标注者 B 标注的语音中第 i 层第 段的结束时间 将

25、标注者 A和标 注者 B在 该 层 的每 一 段 进 行遍 历 对 比,包 括 音节 和声 调 的对 比,然 后进 行下 面 的判断:若 s m e ,则 A和 B有 2个相 同【DE d T i r o 的分 割 点,即相 同的音节 有两 个一 致点 若f D s ta n T im e ,则A 和B 有一 个相同 L D 的分割点 若f D s m t e ,则A和B 有一个相同 L DE d T im T。的分割 点 若 T o D S ta rtT im e T 1,则A 和B 无相同 【T o DE d T】T1 的分 割点 其中 代表两人标注的误差大小,标注过程 中,规定 2名 标

26、 注 者 的 时 间 误 差 限 制 在 5 ms内;用来区分两个不同音节,此处限制在 2 0 m s内,避免一句话中有同音字时,一个 同音字与另一个 同音 字判 断为 一致 2)S U V层 S U V层 的内容不包括声调,所 以 无需判断音调是 否一致,其余判断流程 和计算公 式与 P Y层 一样 3)P A R A L层 标注副语言信息时,符号是标 图 3 一致性 检测 算法 流程图 Fi g 3 Al g o r i t hm flo wc ha o f c o ns i s t e nc y de t e c t i o n 第 1 0期 景少玲,等:汉语双模情感语 音数 据库标注及

27、一致性检测 在某 个 时间点 上,而非 一个 时间 问隔 内,所 以该层 判 断时 只需要 判 断某一 个 时间点 以及 该点 上 的标 注内容即可 具体的判断方法如下:若I A (i,J )一 B (i,)T o,且标注内容 相 同时,则 A和 B标 注 一致,否则 认 为 A 和 B标 注不 一致,其 一致性 计算 公式 为 赢 1 0 0 (2)4)E MO层 由于 每 一 句 话 的情 感 层 标 注 内 容包括 7种情感类型和其对应的程度,所 以应用 欧氏距离公式 比较其一致性,为 了表示高的分数 代表一致性高,低的分数代表一致性低,将欧氏距 离 公式 表示 为 p:d 一 7 c

28、d 1 0 0 (3)式 中:d =(ab)c,代 表 两人 标 注 的结果 完 全相反 时的分数,。代表最高分,b代表最低分,C 代表情感种类总数,在本次标注 中,。:5,b=1,c=7;A 和 日 分 别代 表 相应 的情 感 所 得分 数,即 情感程 度,其 中 j c=l,2,7,代 表 7种情 感 类 型 5)s T层 s T层标注的是重音的程度,当说话 人根据录音文本准确表达并且发音清晰时,则该 层 的重 音段 数应 该 是 固定 的,但 是 实 际上 说 话 人 表达感情时会 自发地增加、减少或者改变一些语 气 词,导致 该层 的重 音段数 不 一致 因此 该层采 用 与 P Y

29、层相 同的对 比和计算方法,不 同的是标注 内容是 否相 同 的判 断,认 为 1和 2的 重音 轻 重 程 度 相 同,3和 4的重 音轻 重程 度相 同 5 一致性检测 结果 为 了保证情感语音数据库标注 的质量,在正 式 标注 之前 进行 了标 注 测 试,标 注 结果 的优 劣 采 用 第 3节 中的一 致 性 算 法 进行 检 测,测试 语 音 由 一名男 生 的语音 和一 名 女 生 的语 音 组 成,每 人 的 语音均包括 7种情感,每种情感 2 0句话,一共是 2 8 0条 语 句 表 4表 9所示 为 一致 性 检 测 结 果,A、B、c、D和 E代表 5名不 同的标注 者

30、A、B、c 3名 标 注者分 别 对 同一 男 生语 音 标 注,标 注 误 差 取 5、8、1 0 ms 时,分 别 对 标 注结 果 进行 一 致 性 检 测,对 比结 果 如 表 4、表 5和表 6所 示 C、D、E 3名 标 注者 分别 对 同 一 女 生 语 音 标 注,标 注误 差 取 5、8、1 0 m S 时,分 别 对 标 注 结 果 进 行 一 致性 检 测,对 比结 果 如表 7、表 8和 表 9所 示 表 4 T o=5 ms 的男生语音一致性对 比结果 Ta bl e 4 Compa r i s o n r e s ul t s o f c ons i s t e n

31、 c y f o r ma l e s pe e c h whe n To=5 ms 表 5 T。=8 ms 的男生语 音一致性 对比结果 Ta bl e 5 Co mpa r i s on r e s ul t s of c o ns i s t e nc y f o r mal e s p e e c h whe n T0=8 ms 表 6 =1 0 ms 的男生语音 一致性对 比结果 Ta bl e 6 Co m pa r i s o n r e s ul t s o f c on s i s t e nc y f o r m a l e s pe e c h whe n To=1 0m

32、s 表 7 T o=5 ms 的女生语音一致性对比结果 Tabl e 7 Co mpar i s on r e s ul t s o f c o ns i s t e nc y for f e mal e s p ee c h wh e n To=5 ms 表 8 T o=8 ms的女 生语 音一致性对 比结果 Ta bl e 8 Co mpa r i s o n r e s u l t s o f c o ns i s t e nc y f o r f e m a l e s pe e c h whe n To=8 m s 表 9 T o=1 0 ms的女生语 音一致性对 比结 果 Ta b

33、l e 9 Co mpa r i s o n r e s u l t s of c o ns i s t e nc y for f e mal e s pe e c h whe n To=1 0ms 1 9 3 2 北 京 航 空 航 天 大 学 学 报 观察 对 比结果,可 以得 出以下 结论:1)对 于 男 生语 音,T o=5 Iflq S时,各层 的一 致 性综 合 平均 为 6 5 8 7 ,T o=8 m s时,一 致 性 平均 为7 1 1 9 ,=1 0 m s 时,一致 性平 均 为7 3 9 8 对 于 女 生 语 音,T o=5 ms时,一 致 性 平 均 为 5 9 6

34、 8 ,T o:8 m s时,一 致 性 平 均 为 6 6 4 8 ,T o=1 0 ms 时,一致性平均为 6 8 2 7 2)对 比表 4、表 5和表 6,可 以看 出,当 从 5 m s 增大至 8 m s时,各层 的一致性都有提高,最 低 可 提 高 4 ,最 高 可 提 高 7 ,平 均 提 高 了 5 5 ;当 从 5 m s 增大 至 1 0 m s 时,对 比各 层 的 一致性,最低可提 高 5 ,最高可提高 1 1 ,平均 提高了 8 从表 7、表 8和表 9中可以看出,当 从 5 ms 增 大至 8 ms 时,各层 的一 致 性最 低 可 提 高 4 ,最高可提高 9 ,

35、平均提高了 6 5;当 从 5 I l l s 增大至 1 0 m s时,各层 的一致性最低可提 高 5,最高可提高 1 1 ,平均提高了 8 说 明 2名 标 注者之 间 的标 注 误差 增 大 时,标 注 的 一致 性提 高,限制 的时 间误 差 大 小直 接 影 响着 一致 性 对 比 结果 3)观察 表 4表 9,可 以发 现 S U V层 的 一致 性 最高,P Y层 和 S Y层 的一 致 性 较 低 因为 S U V 层 存在 的差 异 性 最 小,容 易 区分,P Y 层 和 S Y层 的标注 需要 的语 音 知识 较 多,造成 音 节 和 声韵 母 的划分难度比较大 s T层

36、重音程度的判断受标注 者 主观 因素 的影 响 比较 大,例 如标 注 时间、标 注者 心情、个人情感理解等 c E、D E的一致性结果较 低,因 为标 注者 E 的语 音 基 础 知识 较 薄 弱,直 接 影 响其对 语音 的理解 另 外,当长 时 间进 行标 注工 作时,难免出现烦躁和难以判断的情形,这些都会 影 响标 注 的一致 性 4)表 4 表 9整体 的一致性 比文献 3 1 中 的低,分 析 造 成 整 体 一 致 性 较 低 的原 因 有 3点:一 致 性 检测 的具 体算 法 不 同,虽然 基 本 的 检测 标准 都是 标注符 号 和 时 间点 误 差,但 是标 注层 数 及

37、每层具体 的一致性算法不同,本文的一致性检 测算法还考虑了分割段数,这可能造成一致性偏 低 因为本文 的 一致 性 检 测 算 法原 理 是 一 致 点 的 个 数 占总个数 的 比重,所 以当语句 较短、音 节较少 时,每个 一致 点 占的 比重 就会 较大,每个 点 的错误 都会导致一致性百分 比大大降低 一致性检测 算法 中规 定 的时 间误 差 较 短,这 对 标 注 者 的专 业 要 求非 常 高,实 验结果 中可 以看 出,将 对 比误差 从 5 ms 扩大到 1 0 ms 时,一致性会大大提高 一致 性 对 比算法设 计 中,对 标 注 准 确性 的要 求 严 格 程 度不 同

38、设 计 的一致 性检测 算法 除 了可 以反映 出 2个 人 标 注的 一致性 结 果,同时 还 可 以将 2个 人 标 注 不一致 的 时间点 以及 内容 准 确地 显 示 出来,返 回 的内容以 t x t 文件存储,方便标注人员检查标注错 误 的原 因 t x t 文件 中显 示 的信 息包 括标 注 人 员、文件序 号、文件名、标 注层、一致 性检 测结 果、不 一 致 的时问 点及对 应 的不一 致 内容 表 1 0为标注 者 A和 B标注结果对 比的详细信 息示例,文件名为 b M O C 0 3 0 1 1 T e x t G r i d,引 号 内 无 内 容 时 代 表 标

39、注 内容 为 空,从 表 l 0 中 可 以 看 出,在 S Y 层 的 0 2 1 8 9 s 时刻,一 个人 标记 为“a i 一 0”,另一 个 人 标 记为“a i-4”,后面的_ 0和_ 4代表实际发音中的声 调,属于主观判断,标注者的判断受外界环境等因 素影 响 比较 严重,所 以在 检 测 的时 候认 定 音 节 相 同而仅仅声调不 同的情况为致,不影响检测 的 分数,而 1 6 4 2 2 S时刻和 1 6 4 7 5 5 S时刻 相差 5 3 5 m s,仅比 5 m s大 0 3 5 ms,检测结果 为不一 致,由此 也 可 以发 现 一致 性 检 测 中对 时 间 的要

40、求 十分苛刻 表 1 O标 注中不一致点详情 示例 Ta bl e 1 0 Exa mpl e o f i nc on s i s t e nc y de t a i l s i n a l l not at i on 标注层 不一致 时间点 s 不一致内容 一致性结果 6 结 论 本 文总结 了国 内外 情感 语音数 据 库 的发展 现 状,据此 做 了以下 工作:1)建 立 了一个 汉语 双模 情感 语音 数 据库,与 其他情感 语 音 数据 库 主要 不 同在 于包 含 E G G 信 息 2)制定 了一套 详 细 的情 感 语 音 数 据 库 标 注 规则,并 对汉 语双 模情感 语

41、音数 据库进 行标 注 3)根据 规则设 计 了相应 的一致 性检 测 算 法,综合 对男 生 和女 生语音 检测 结果 表 明:第 1 0期 景少玲,等:汉语双模情感语音数据库标注及一致性检测 1 9 3 3 =5 m S时,各 层 的 一 致 性 平 均 为 6 2 7 7 ,:8 m s 时,致 性 平均 为 6 8 8 4 ,提 高了 5;T o=1 0 m s 时,一致性平均为 7 1 1 3 ;提高 了 8 算法可以反映出标注错误的位置和内容,便 于标 注者 修 改错误 之处 算法可 以有效 地对标 注结果 进行对 比,5名标 注 者对 语 音 的 理 解 较 一 致,证 明 了语

42、 音 数 据库的质量较好,为后续标注工作提供了保障,也 为其 他 语音 数据 库 的标 注 提供 了有 效 的标 注 和检 验方法 本文还有需要进一步改善的内容:1)在保证标注时间误差相同的条件下,通过 改进一致性检测算法,使新的一致性检测算法能 更合理、更好地反映出真实的一致性;通过加强标 注者 的专 业培 训,保 证 不 同 标 注 者对 相 同语 音 有 更一致的理解,使标注符号更一致,提高一致性 2)由于 标注 过程 中对 E M O层 的标 注规 则 进 行了修改,部分标注内容尚未修改完,所以尚未标 出 E MO层的一致性,作为下一步 的工作重点 全部语音标注完成后,可 以建立一个完

43、整的 情感语音数据库,为语音情感识别 的模型建立提 供了可靠的汉语双模情感语音数据库,对 国内外 情感语音数据库进行了有益补充 参考 文献(R e f e r e n c e s)1 韩文静,李海 峰 情感语音数据库综述 J 智 能计 算机 与应 用,2 0 1 3,3(1):5-7 Ha n W J L i H F A b r i e f r e v i e w o n e mo t i o n a l s p e e c h d a t a b a s e s J I n t e l l i g e n t C o m p u t e r a n d A p p l i c a t i o

44、 n s,2 0 1 3,3(1):5-7(i n C h i n e s e)2 徐露,徐明星,杨 大利 面 向情感 变化检 测 的汉 语情 感语 音 数据库 J 清华 大 学 学 报:自然 科 学 版,2 0 0 9,4 9(s 1):1 4l 3 1 4 1 8 Xu L,Xu M X,Ya n g D L Ch i n e s e e mo t i o n a l s p e e c h d a t a b a s e f o r t h e d e t e c t i o n o f e m o t i o n v a r i a t i o n s J J o u r n a l

45、o f T s i n g h u a U n i v e r s i t y:N a t u r a l S c i e n c e,2 0 0 9,4 9(s 1):1 4 1 3-1 4 1 8(i n C h i-n e s e)3】薛雨丽,毛峡,张 帆 B HU人脸 表情 数 据 库 的设 计 与 实 现 J 北京航空航 天大学学报,2 0 0 7,3 3(2):2 2 4 2 2 8 Xu e Y L,Ma o X,Z h a n g F De s i g n a n d r e a l i z a t i o n o f BHU f a c i a l e x p r e s s

46、 i o n d a t a b a s e J B e ij i n g Un i v e r s i t y o f A e r o n a u t i c s a n d A s t r o n a u t i c s,2 0 0 7,3 3(2):2 2 4-2 2 8(i n C h i n e s e)4V e r v e r i d i s D,K o t r o p o u l o s c A s t a t e o f t h e a r t r e v i e w o n e mo-t i o n al s p e e c h d a t a b a s e s C P r

47、 o c e e d i n g s o f I s t R i c h m e d i a Co n f e r e n c e L a u s a n n e:T h e E u r o p e a n As s o c i a t i o n f o r S i g n a l P r o e e s s i n g,2 0 0 3:1 0 9-1 1 9 5 E 1 A y a d i M,Ka m e l M S,K a r r a y F S u r v e y o n s p e e c h e mo t i o n r e c o g n i t i o n:F e a t u

48、 r e s,c l a s s i f i c a t i o n s c h e me s,a n d d a t a b a s e s J P a t t e r n R e c o g n i t i o n,2 0 1 l,4 4(3):5 7 2 5 8 7 6 G r e a s l e y P,S e t t e r J,Wa t e r m a n M,e t a 1 R e p r e s e n t a t i o n o f P r o s o d i c a n d e mo t i o n a l f e a t u r e s i n a s p o k e n

49、 l a n g u a g e d a t a b a s e c P r o c e e d i n g s o f t h e 1 3 t h I n te r n a t i o n a l C o n g r e s s o f P h o n e t i c S c i e n c e s P a r i s:I P A,1 9 9 5:2 4 2-2 45 7 G r i mm M,K r o s c h e l K,N a r a y a n a n S T h e Ve r a a m Mi t t a g G e r m a n a u d i o v i s u a l

50、e m o t i o n a l s p e e c h d a t a b a s e C I E E E I n t e r n a t i o n a l Co n f e r e n c e o n Mu l t i me d i a a n d Ex p o P i s c a t a wa y,NJ:I EEE P r e s s,2 0 08:8 6 5 8 68 8 C a mp b e l l N T h e J S T C R E S T E S P p r o j e c t m m i d t e r m p r o g r e s s r e p o rt C 1

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服