新范式下的法庭自动说话人识别实证研究.pdf

资源描述

1、中国人民公安大学学报(自然科学版)2023 年第 3 期 No.3 2023Journal of People蒺s Public Security University of China(Science and Technology)总第 117 期 Sum117新范式下的法庭自动说话人识别实证研究张翠玲1,2,摇丁摇盼1,2(1.西南政法大学刑事侦查学院,重庆摇 401120;2.重庆高校刑事科学技术重点实验室,重庆摇 401120)摘摇要摇通过对一起典型刑事案例的实证检验研究,示范性表明法庭语音证据评价新范式和法庭自动说话人识别技术在司法实践中应用的先进性、有效性和可行性。首先,明

2、确控辩假设,并基于案件语音数据特点选择相关背景人群语音数据库。其次,在似然比框架内,利用相关背景人群的语音数据对基于深度神经网络的法庭自动说话人识别系统进行性能验证。最后,计算检材语音与样本语音比较的似然比值,评估二者的同源性,解释证据价值。基于典型案件现实条件开展法庭说话人识别的实证研究,对于法庭语音证据评价新范式和法庭自动说话人识别技术的推广应用具有重要意义。关键词摇新范式;法庭自动说话人识别;似然比;验证;实证中图分类号摇 D918郾 9文献标志码摇 A收稿日期摇2022鄄11鄄15基金项目摇2022 年重庆市自然科学基金创新发展联合基金重点项目(CSTB2022NSCQ-LZX000

3、7);教育部科技部司法鉴定技术与应用社会治理学科创新引智基地 2021 年度青年项目(FSSGL2021D-03)。第一作者简介摇张翠玲(1972),女,辽宁沈阳人,博士,教授。研究方向为物证技术研究。E鄄mail:cuilingzhang An Empirical Study on Forensic Automatic SpeakerRecognition under the New ParadigmZHANG Cuiling1,2,摇 DING Pan1,2(1.School of Criminal Investigation,Southwest University of Politic

4、al Science and Law,Chongqing 401120,China;2.Chongqing Institutes of Higher Education Forensic Science Key Laboratory,Chongqing 401120,China)Abstract:The advancement,effectiveness and feasibility of the new paradigm of forensic voice evidenceevaluation and the application of automatic speaker recogni

5、tion technology in forensic practice were dem鄄onstrated through an empirical study on a typical criminal case.Firstly,the prosecution hypothesis anddefense hypothesis were defined,and the relevant background population speech database was selectedbased on the properties of the case speech data.Secon

6、dly,the performance of the forensic automaticspeaker recognition system based on the deep neural network model was validated using the speech data ofthe relevant background population within the likelihood ratio framework.Finally,the likelihood ratio ofthe questioned鄄speaker recordings and the known

7、鄄speaker recordings was calculated to assess their originand explain its evidence value.This empirical study on forensic speaker recognition under realistic condi鄄tions of typical cases is significant for the practical application of the new paradigm of forensic voice evi鄄dence evaluation and automa

8、tic forensic speaker recognition technology.Key words:new paradigm;forensic automatic speaker recognition;likelihood ratio;validation;empiri鄄cal study78张翠玲等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬新范式下的法庭自动说话人识别实证研究0摇引言法庭说话人识别是说话人识别技术在司法领域中的应用,是指利用语音进行案件录音材料中说话人身份的辨识1,具体而言就是通过对案件中检材语音(身份未知的说

9、话人语音)与样本语音(身份已知的说话人语音)的比较鉴别,对二者的同源性进行判断。法庭说话人识别可以为侦查提供线索,为审判提供证据,因此,其识别结果在司法实践中发挥着重要作用。法庭证据的价值直接影响法官对案件事实的评判和相关证据的采信,因此构建科学有效的证据评价范式对于完善法庭证据检验评价体系具有重要意义。自从2005 年 Saks 和 Koehler2提出法庭科学领域正在发生的范式转变后,越来越多的法庭科学家致力于推动证据量化评价模式在法庭证据评价中的适用3-4。随着国际上对法庭证据的科学性、准确性要求不断提高,美国针对法庭证据的科学评价相继出台了 Daubert 准则5、NRC 报告6、PC

10、AST 报告7和 NIST 报告8,英国制定了法庭科学从业人员业务及行为规范9,欧洲法庭科学联盟(ENFSI)出台了证据评价报告指南,并倡导其下属的所有法庭科学实验室基于似然比框架体系开展科学证据的检验工作10-11。目前,基于概率推理方法量化评价证据价值已经成为法庭科学证据评价的趋势,而似然比评价框架在国际上获得了广泛认可,被认为是目前为止逻辑上最正确的法庭证据评价框架12。目前,法庭说话人识别的方法主要有 5 种,即听觉感知方法、听觉-图谱分析方法、听觉-声学-语音学分析方法、听觉-语音学统计方法和自动识别方法。前两种方法主要基于专家的主观经验判断,因此评价标准不够客观、评价过程不够科学和

11、透明,且难以量化评价识别的准确性和可靠性。第三、四种方法除了需要对语音进行听觉分析外,还包含了对语音声学特征的定量测量和比较,使用的程序方法也相对客观、透明,但对检材语音和样本语音中的言语内容、语种类型或方言口音等条件的一致性要求较高,且人工测量声学参数需要耗费大量的时间精力,效率不高。自动识别方法主要基于计算机软件进行语音自动处理与识别,不仅受到语音言语内容、方言口音和语种类型的影响较小,且可以在短时间内处理大量数据,并对说话人识别系统的识别性能进行量化评估,相较于前 4 种方法具有高效性、准确性、可验证性和可重复性等显著优势,也是当前法庭说话人识别的重点发展方向之一。近年来,国内外基于似然

12、比框架体系的法庭说话人自动识别研究取得了一些成果。Rose13-14使用自动方法提取了 32 位广东成年男性粤语数据库中部分音节的基频、共振峰等声学-语音学特征和线性预测倒谱系数(Linear Predictive Cepstral Coeffi鄄cient,LPCC)作为系统的识别参数,基于似然比框架对不同识别参数系统的识别性能进行了量化评估,虽然使用的语料相对较少,但实验表明了自动识别方法和似然比框架体系在法庭语音证据评价中的适用性。2017 年,为了协助警方侦破一起汽车爆炸案,Rose 使用自动识别方法从 3 位犯罪嫌疑人录制的样本语音中提取了擦音“s冶和塞擦音“z冶的 LPCC特征,并

13、基于似然比值对检材语音和样本语音的同源概率进行了评估,最终锁定了犯罪嫌疑人。Morri鄄son 在2016 年提供了一个可以反映案件现实条件的法庭语音数据库,组织全球多个实验室在似然比框架体系内对基于 GMM-UBM、GMM i鄄vector PLDA、DNN bottleneck 和 DNN x鄄vector PLDA 等说话人识别模型的自动识别系统进行了识别性能验证研究,其中基于深度神经网络(Deep Neural Network,DNN)的 x鄄vector PLDA 模型系统取得了最优的识别效果。Enzinger 和 Morrison 等人15选用可以反映案件真实条件的语音,详细介

14、绍了似然比证据评价新范式在具体案件应用中的方法与步骤,为似然比方法体系在证据价值评估中的适用提供了示范。2021年,来自英国、德国、荷兰、美国、中国的 13 位法庭专家发表了基于似然比框架进行法庭比较系统验证的共识声明,建立了基于似然比框架的法庭比较系统识别验证的国际标准16。相较于实验室高质量语音条件下的法庭说话人识别研究,基于典型案件的现实语音条件开展研究更能反映实际问题。2018 年,张翠玲17基于一起民事案件开展了实证研究,并使用似然比方法评估语音的证据价值,给出了检材与样本语音的同源性的量化评价意见。该研究对于基于似然比框架的法庭语音证据评价新范式在法庭上获得认可具有一定的促进作用。

15、然而,鉴于案件场景的复杂性和语音数据的多样性,目前仍亟需大量的典型案例实证研究,特别是基于汉语语音的实证研究。而法庭自动说话人识别的相关技术也需要进一步深入研究,以更好地促进其实践应用。88张翠玲等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬新范式下的法庭自动说话人识别实证研究基于此,本文以一起实际刑事案件中的语音为例,示范性地表明在该类语音案件场景中开展似然比框架下的法庭语音证据评价的具体方法和程序步骤,为法庭说话人识别的司法实践提供参考和依据。1摇案件基本情况1郾 1摇案情简介本文报告的是一起涉嫌非法经营的刑事案件。检材语音来源于犯罪

16、嫌疑人手机中提取出来的微信传输语音文件(下称检材语音),共包含 3 段音频,均为“.amr冶格式,时长分别为 2郾 04 s、3郾 32 s 和5郾 14 s,言语风格均为自由交谈,每个音频中仅包含一段成年男性语音。嫌疑人的样本语音同样来源于微信语音,共包含两段音频,均为“.amr冶格式,每个音频中仅包含一段成年男性语音,时长分别为 52郾 8s 和 56郾 52 s,言语风格为文本念读,包含部分检材语音内容。检材语音和样本语音均为闽南方言,说话人发音清楚,无明显发音异常或伪装现象。需要对检材语音与样本语音是否来源于同一人进行分析检验。经初步听觉分析与声学检验,检材语音 1、2、3的有效时长

17、分别为 2郾 01 s、3郾 05 s 和 3郾 45 s,虽然语料有限,但其与样本语音共有相同音节 21 个(含二字词 4 个、三字词 1 个和四字词 2 个),且总体发音清晰,主要声学特征反映明确,可以满足鉴定的基本条件。相对而言,样本语音语料比较充分,发音清晰,主要声学特征反映稳定,具备比较条件。1郾 2摇控辩假设根据该案情况以及控辩双方的主张,采用以下两个互斥的竞争假设:起诉假设 Hss:检材语音与样本语音来自同一说话人。辩护假设 Hds:检材语音与样本语音来自不同说话人。似然比(Likelihood Ratio,LR)的计算表达式如下:LR=P(E|Hss)P(E|Hds)(1)其

18、中,E 代表“证据(Evidence)冶,即检材语音的声学特征。LR 值为控辩假设条件下获得证据的概率之比,具体来说,就是假设检材语音与样本语音来自同一说话人条件下获得二者声学特性的概率与假设检材语音与样本语音来自不同说话人条件下获得二者声学特性的概率之比。LR 的分子代表检材语音与样本语音的相似性,LR 的分母代表检材语音与样本语音在相关背景人群中的典型性。因此,基于似然比框架进行语音证据价值的量化评价时,仅评估检材语音与样本语音的特征相似性是不够的,还要评估二者在相关背景人群语音中的特征典型性。2摇检验程序和方法2郾 1摇法庭说话人自动识别系统的构建2郾 1郾 1摇语音特征提取系统选

19、用梅尔频率倒谱系数(Mel鄄scale Fre鄄quency Cepstral Coefficients,MFCC)作为系统输入特征。MFCC 是在 Mel 标度频率域中提取的倒谱系数,能够描述人耳对频率感知的非线性特征,具有较强的鲁棒性,在低信噪比的情况下仍具有较好的识别性能18。本系统中的 MFCC 特征提取过程如下:(1)预加重。将原始语音输入至一个高通滤波器:H(z)=1-滋z-1(2)式中的滋值为预加重系数,本测试中选取滋值为0郾 97。预加重可以提高语音信号的高频部分,减少该部分受到的唇端辐射抑制影响,便于进行频谱分析或声道参数分析;(2)分帧。为保证语音信号特性的平稳性,

20、分帧时一般在相邻两帧之间设置一定重叠,从而保证两帧间的平滑过渡。本系统将帧长和帧移分别设定为 25 ms 和 10 ms;(3)加窗。加窗可以有效避免频谱混叠。本系统选用汉明窗进行加窗处理,因为汉明窗具有旁瓣衰减较大的幅频特征,可以有效改善频率泄露;(4)快速傅里叶变换(Fast Fourier Transform,FFT)。傅里叶变换可以实现语音信号时域向频域的转换。傅里叶变换公式如下:Xa(k)=移N-1n=0 x(n)e-j2仔k/N,0臆k臆N(3)式(3)中,x(n)为输入的语音信号,N 表示傅里叶变换的点数。本系统采用的 DFT 长度 N 为 512;(5)通过 Mel 滤波器组并

21、计算能量。将能量谱通过一组 Mel 尺度的三角形滤波器组,Mel 滤波器的个数设置为 30。这样不仅可以对频谱进行平滑化处理、消除谐波,还可以突显语音的共振峰并减少计算量;98张翠玲等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬新范式下的法庭自动说话人识别实证研究(6)离散余弦变换(DCT)。将经过三角滤波器后的能量谱取对数后进行离散余弦变换。每个滤波器组输出的对数能量为:s(m)(=ln移N-1k=0|Xa(k)|2Hm(k),0臆m臆M(4)式(4)中,Hm(k)为三角滤波器输出的频率。由于滤波器之间有重叠部分,因此各个滤波器输出的参数之

22、间有较大的相关性,且相关程度随着滤波器个数的增多而增大。采用离散余弦变换不仅可以降低各个滤波器组输出参数的相关性,还能降低计算的复杂程度,有助于提升系统识别的准确率。经过离散余弦变换后得到的 MFCC 系数表达式为:Cmfcc(n)=移Mm=1s(m)cos(仔n(m-0郾 5)/M),n=0,1,2L(5)式(5)中,M 为三角滤波器个数,L 为 MFCC 系数的阶数,本系统的 L 取值为 30,即提取 30 维的 MFCC静态特征作为语音参数。2郾 1郾 2摇说话人识别模型说话人识别模型是法庭自动说话人识别系统的核心组成部分。目前,基于深度神经网络的说话人识别模型优势明显,其不仅对训练数

23、据的包容性更强,而且具有很强的抗噪能力。本文选用当前说话人识别领域主流模型框架中常用的 DNN em鄄beddings 特征,基于扩展时延神经网络(E鄄TDNN,Extended TDNN)结构的 x鄄vector19-20搭建了说话人识别模型,并利用相关背景人群语音数据库对该模型系统进行识别性能验证和实际案件的比较识别。相较于时延神经网络(Time Delay Neural Net鄄work,TDNN)21结构,E鄄TDNN 结构中的 softmax 层使用了额外的边际损失函数22,该结构的时间上下文序列更长,且两个时延神经网络层之间存在交错排列的全连接层。E鄄TDNN 的网络结构如表1所示

24、,从第 12 层全连接层中提取的 embeddings 就是系统使用的 x鄄vector。Embeddings 提取完成后,使用线性判别分析(Linear Discriminant Analysis,LDA)23对其进行降维处理,将特征数据从 512 维降为 128 维,从而有效减少特征数据中的冗余信息。2郾 1郾 3摇信道补偿、识别打分和似然比计算系统的信道补偿算法为概率线性判别分析表 1摇 E鄄TDNN 网络结构层数层类型1TDNN 层2全连接层3TDNN 层4全连接层5TDNN 层6全连接层7TDNN 层8全连接层9全连接层10全连接层11池化层12全连接层鄄embeddings13

25、全连接层14softmax 输出层(Probabilistic Linear Discriminant Analysis,PLDA)。PLDA 是概率形式的线性判别分析(Linear Discrimi鄄nant Analysis,LDA)算法,但其信道补偿能力更强,可用于解决实际语音数据与系统已训练好的内置模型中信道条件不匹配的问题,进而提升系统的识别性能。PLDA 既是一种信道补偿算法,同时又是一种识别分类器算法,可以进行比较得分的计算。公式(6)为 PLDA 得分计算公式,其中,n1和 n2分别为两段语音的 x鄄vector 向量,Hs代表检材语音与样本语音的 embeddings 来自同

26、一空间的假设,Hd代表检材语音与样本语音的 embeddings 来自不同空间的假设。得分 score 值越大,表明检材语音与样本语音来自同一说话人的概率越大;得分 score 值越小,表明检材语音与样本语音来自同一说话人的概率越小。score=logp(n1,n2|Hs)p(n1|Hd)p(n2|Hd)(6)通过 PLDA 算法得到两条语音的得分后,再通过逻辑回归算法将得分转换为似然比 LR。2郾 2摇相关背景人群语音数据的采集与处理基于似然比框架的法庭说话人识别不仅需要评估检材语音特征与样本语音特征的相似性,还要评估二者特征在相关背景人群语音特征中的典型性。因此,需要收集一定规模的、能够

27、反映被检案件语音条件的相关背景人群语音数据。相关背景一般指性别、语种、方言口音等。相关背景人群语音数据可用于系统模型训练,还可用于系统校准和系统验证24。使用相关背景人群语音数据进行特征的典型性评估是基于似然比框架的法庭语音证据评价新09张翠玲等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬新范式下的法庭自动说话人识别实证研究范式的核心要素,不可或缺。根据本案的实际情况,我们采集了 143 位成年男性的闽南话微信语音,作为相关背景人群语音数据库使用。其中,每位发音人包含至少两段非同期自由交谈风格录音,每段录音的有效时长至少为20 s,采样率为

28、16郾 0 kHz,采样精度为 16 bit,存储格式为“.amr冶格式。对检材语音、样本语音和相关背景人群语音数据库的语音进行信号处理,将全部录音由“.amr冶格式转换为“PCM.wav冶格式。将检材语音和样本语音的采样率为由原来的 24郾 0 kHz 转换为 16郾 0 kHz。2郾 3摇系统验证2郾 3郾 1摇验证程序和方法在进行检材语音与样本语音的比较前,首先需要对法庭说话人自动识别系统进行验证测试。系统验证中使用的相关背景人群语音数据根据功能分为3 类:训练集、校准集和测试集。训练集用于对PLDA模型做域自适应训练,以解决测试集语音在言语风格、方言口语、信道条件和录制环境等方面与

29、已训练内置模型不匹配的问题。校准集通过使用人工标定的、已知样本来源的数据对 PLDA 模型的得分进行校准。测试集用于系统性能的验证评测。本系统内置的基础模型是由大约 13 万条的语音数据训练得到的,训练语音的语言类型包括普通话、闽南方言以及少部分其他地区方言,言语风格包括朗读、讯问和自由交谈等。本案中采集的相关背景人群语音数据在言语风格、信道和方言口音等方面与基础模型基本匹配,因此不需要进行 PLDA 自适应训练,仅选用测试集和校准集进行系统验证。随机选择 43 位说话人的 145 段语音作为测试集,对测试集中的每段语音与其余语音段进行全交叉比较。使用其余的 100 位说话人的 351 段语音

30、作为校准集,进行得分校准。将全部测试集语音数据输入系统,进行全交叉两两比较。对比较得分进行校准后得到似然比值LR,然后进行识别性能评价。2郾 3郾 2摇性能评价指标(1)对数似然比代价函数对数似然比代价函数(Log likelihood ratio cost,Cllr)25是似然比证据评价体系下对法庭说话人识别系统性能进行评价的标准指标。其表达式见公式(7)。Cllr=(121Ns移Nsilog(21+1LRs)i+1Nd移Ndjlog2(1+LRdj)(7)公式(7)中,Ns和 Nd分别是同一话者和不同话者测试对的数量,LRs和 LRd分别是同一说话人和不同说话人测试对比较的似然比。等号右

31、边的左侧部分代表同一说话人自身比较的识别性能,右侧部分代表不同说话人之间的识别性能,Cllr值衡量的是系统的整体表现。Cllr值小于 1 时表示系统是有效的,Cllr值越接近 0,系统的准确性越优。(2)Tippett 图Tippett 图(可靠性函数图)是基于似然比框架的法庭说话人识别系统验证的标准图示26。Tip鄄pett 图的横轴是以 10 为底的对数似然比(log10LR),纵轴是同一说话人和不同说话人比较产生的概率累计分布。Tippett 图中向右延伸的曲线代表同一说话人之间的比较,向左延伸的曲线代表不同说话人之间的比较。两条延伸曲线的交叉点对应的概率代表等误率(EER)。同一说话人

32、和不同说话人比较生成是两条曲线越疏离,交叉点越低,系统的识别的效果越好。(3)等误率等误率(Equal Error Rate,EER)是说话人识别测试中常用的评价指标。在说话人识别中,系统出现错误识别的情况有两种:一是将来源不同的语音错判为同源,即错误接受;二是将相同来源的语音错判为非同源,即错误拒绝。系统的错误接受率(False Acceptance Rate,FAR)和错误拒绝率(FalseRejection Rate,FRR)相等时的概率就是等误率。系统的等误率越小,识别越准确。2郾 4摇检材语音与样本语音的比较在完成系统性能评价以后,再将案件检材语音和样本语音输入系统,进行比对。经得

33、分校准后,得到检材语音与样本语音比较产生的似然比 LR 值,作为最终证据评价的量化依据。3摇结果与讨论3郾 1摇模型系统的性能验证按照2郾 3 中的程序方法,将100 位说话人的351段语音作为校准集,43 位说话人的 145 段语音作为测试集,对基于 DNN 的 x鄄vector 模型系统进行了性能验证测试,结果见表 2。19张翠玲等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬新范式下的法庭自动说话人识别实证研究表 2摇系统性能的验证结果评价指标x鄄vector 模型系统Cllr0郾 087EER1郾 27%摇摇系统验证的结果表明

34、,在 16 kHz 采样率语音的条件下,该模型系统识别的 Cllr值为 0郾 087,远远小于边界指标 1,等误率 EER 值为 1郾 27%,系统识别有效且性能非常好。按照国际上关于系统验证共识提出的标准16,只要 Cllr小于 1,系统就是有效的。基于上述验证结果,我们使用该模型系统进行实际案件语音的比较识别。系统验证的 Tippett 图,见图 1。图 1摇 DNN x鄄vector 模型系统验证的 Tippett 图摇3郾 2摇案件语音的比较识别将检材语音 1、2、3 以及将 3 段检材语音合并后的合并检材语音分别与样本语音 1 和样本语音 2 进行比较,使用与系统验证时相同的 10

35、0 位说话人的351 段语音校准集进行校准,最后得到的 LR 值见表 3。表 3摇法庭说话人自动识别的 LR 值检材语音样本语音LR 值检材语音 1检材语音 2检材语音 3合并检材(1+2+3)样本语音 119郾 146106郾 4378郾 933213郾 898检材语音 1检材语音 2检材语音 3合并检材(1+2+3)样本语音 245郾 137132郾 9365郾 615194郾 316摇摇表 3 中的结果表明,3 份检材语音无论是与样本语音 1 比较,还是与样本语音 2 比较,得到的结果指向都是一致的,LR 值全部都大于 1,说明 3 份检材语音均支持起诉假设,但是支持的强度不同,检

36、材语音2 的支持强度最大,检材语音3 的支持强度最小。虽然检材语音 3 的时长在 3 份检材语音中相对较长,但经听觉分析后发现该段音频中的说话人讲话连贯性差、表达流畅度低,且音频后半部分出现了较长的静音段,导致其有效时长仅为3郾 45 s,整体包含的信息质量不高;而检材语音 1和检材语音 2 中的说话人讲话相对流畅清晰,静音段时长较短,两段语音的有效时长与其本身时长相差不大,包含的信息质量相对更高。不同的检材语音与样本语音比较的 LR 值差别是正常的,因为每份检材语音或样本语音在有效时长和信息质量等方面并不完全一致。而像本案中录音条件比较一致的情况下,有效时长很大程度上对校准结果起到了决定性作

37、用。对于合并后的检材语音来说,无论是与样本语音 1 比较,还是与样本语音 2 比较,其 LR 值都明显高于单个检材语音。这也证明检材语音的长度对系统识别结果有较大影响。特别是本案中的检材语音时长都很短的情况下,合并检材语音有效时长上的优势则更为明显。另外,除了有效时长以外,检材语音与样本语音内容上的匹配度对识别结果也有一定影响。检材语音 3 中的讲话内容为单一的数字,样本语音 1 和样本语音 2 的讲话内容则比较丰富,由此造成检材语音 3 与两个样本语音的内容重合度都比较低,因此得到的 LR 值也偏低。此外,司法实践中一般对各个检材语音是独立对待的,原则上不建议将多个检材语音合并处理,除非特定

38、情况下可以明确几个检材语音来源于同一说话人。本案中,之所以将 3 个检材合并主要是基于该案微信语音的特定场景和形成条件。本案中的 3 个检材语音均来自同一微信账号,且保持场景时序上的紧密关联,综合初步听觉分析可以判定 3 个检材语音来源于同一说话人。而从研究的角度出发,我们也需要探讨一下检材合并与否对识别结果的影响。如果是其他场景语音,则需要根据具体案件情况而定,尤其是多个检材语音的 LR 结果指向不一致时,更不能简单合并。本案中,即使 3 个检材语音不合并,LR 结果指向也是一致的,并不影响结论的性质。关于司法实践中应否将多个检材语音合并以及何种条件下可以进行合并,还需要进一步深入探讨。29

39、张翠玲等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬新范式下的法庭自动说话人识别实证研究综合本案识别结果,3 个检材语音与样本语音比较的似然比 LR 值,结果支持检材语音与样本语音来源于同一人。4摇结论本文采用法庭语音证据评价的新范式,对一起刑事案例中的法庭说话人识别进行了实证研究。在明确起诉假设和辩护假设基础上,根据案件微信语音数据的特点采集了相关背景人群的微信语音数据。基于被检案件的实际条件,利用相关背景人群语音数据库开展了基于 DNN x鄄vector 模型的法庭说话人自动识别系统的性能验证,并使用该系统进行了案件语音的说话人识别。最

40、后得到检材语音与样本语音比较的似然比值,量化评估了该案中微信语音的证据强度。该案件我们提供给法庭的鉴定报告的鉴定意见中,既包含代表证据强度的似然比值,又包含了所使用的识别系统的性能验证测试结果。虽然基于似然比框架的法庭语音证据评价新范式与“认定、否定冶等明确鉴定意见逻辑上并不兼容,但是为了满足司法部和公安部的语音同一性鉴定规范要求,鉴定报告中仍包含了传统的听觉分析和声学-语音学分析部分。最后,给出的鉴定意见是“认定冶结论,即 3份检材语音均来自于嫌疑人。基于代表性实际案件开展法庭说话人识别实证研究,对于司法语音的理论和实践具有重要价值。随着实证研究的不断深入,法庭语音证据评价新范式的科学性、先

41、进性、有效性、可行性也越发突显。此外,随着全国语音数据库和案件语音专用数据库建设的不断推进以及法庭说话人自动识别技术的不断发展,先前诸如缺少数据库、缺少有效工具软件等问题也将逐步得到解决,进而加速其实践应用和推广。参考文献1摇张翠玲.法庭语音证据评价的新范式J.中国人民公安大学学报(自然科学版),2018(1):25-30.2摇 SAKS M J,KOEHLER J J.The coming paradigm shift inforensicidentificationscience J.Science,2005,309(5736):892-895.3摇 ROSE P.Technical f

42、orensic speaker recognition:evalua鄄tion,types and testing of evidenceJ.Computer Speechand Language,2006,20(2-3):159-191.4摇 MORRISON G S.Forensic voice comparison and the para鄄digm shiftJ.Science&Justice,2009,49(4):298-308.5摇 FARRELL M G.Daubert v.Merrell Dow PharmaceuticalsJ.Cardozo Law Review,1994,

43、15(6-7):2183-2217.6摇 National Research Council.Strengthening forensic sciencein the United States:a path forwardM.Washington:National Academies Press,2009.7摇 HOLDREN J P,LANDER E S,PRESS W,et al.Forensicscience in criminal courts:ensuring scientific validity offeature鄄comparisonmethods R.WashingtonD

44、C:President蒺s Committee of Advisors on Science and Tech鄄nology,2016.8摇 LUND S P,IYER H.Likelihood ratio as weight of forensicevidence:a closer look J.Journal of Research ofNational Institute of Standards and Technology,2017,122(10):1-32.9摇 Forensic Science Regulator.Codes of practice and conductfor

45、forensic science providers and practitioners in thecriminal justice systemEB/OL.(2017鄄10鄄13)2022鄄01鄄16.https:椅www.gov.uk/government/publications/forensic鄄science鄄providers鄄codes鄄of鄄practice鄄and鄄conduct鄄2017.10摇 European Network of Forensic Science Institutes.ENFSIguideline for evaluative reporting i

46、n forensic scienceEB/OL.(2016鄄09鄄27)2022鄄02鄄21.http:椅enfsi.eu/wpcontent/uploads/2016/09/m1_guideline.pdf.11摇 European Network of Forensic Science Institutes.Meth鄄odological guidelines for best practice in forensic semiau鄄tomatic and automatic speaker recognition EB/OL.(2016鄄09鄄27)2022鄄02鄄21.http:椅en

47、fsi.eu/wpcon鄄tent/uploads/2016/09/guidelines _fasr _and _fsasr_0.pdf.12摇 DE KINDER J,OLSSON T.Expressing evaluative opin鄄ions:a position statement J.Science&Justice,2011,51(1):1-2.13摇 ROSE P.Likelihood ratio鄄based forensic voice compari鄄son with higher level features:Research and realityJ.Computer S

48、peech&Language,2017,45:475-502.14摇 ROSE P.Report in a real forensic voice comparison caseinvolving the(non鄄terroist)blowing up of a carEB/OL.(2017鄄03鄄20)2022鄄02鄄28.http:椅 _ pubs/Rose _ papers _ on _FVC/2017_Carbombing_report_anon.pdf.15摇 ENZINGER E,MORRISON G S,OCHOA F.A demon鄄39张翠玲等:詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬

49、詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬新范式下的法庭自动说话人识别实证研究stration of the application of the new paradigm for theevaluation of forensic evidence under conditions reflec鄄ting those of a real forensic鄄voice鄄comparison caseJ.Science&Justice:Journal of the Forensic Science Soci鄄ety,2016,56(1):42-57.16摇 MORRISON

50、 G S,ENZINGER E,HUGHES V,et al.Con鄄sensus on validation of forensic voice comparisonJ.Science&Justice,2021,61(3):299-309.17摇张翠玲,Geoffrey Stewart Morrison,Ewald Enzinger.法庭说话人识别新范式实证研究J.中国人民公安大学学报(自然科学版),2018,24(3):30-37.18摇赵力.语音信号处理M.北京:机械工业出版社,2011:70-72.19摇 VILLALBA J,CHEN N X,SNYDER D,et al.Stat

展开阅读全文