针对音频采样率的安全取证算法设计与实现_刘君豪.pdf

资源描述

1、2023年第47卷第4期86声学制播声学制播ound BroadcastingS文献引用格式：刘君豪.针对音频采样率的安全取证算法设计与实现 J.电声技术，2023，47（4）：86-89.LIU J H.Design and implementation of a secure forensic algorithm for audio sampling rateJ.Audio Engineering，2023，47（4）：86-89.中图分类号：TP309.7 文献标识码：A DOI：10.16311/j.audioe.2023.04.024针对音频采样率的安全取证算法设计与实现

2、刘君豪（南昌大学软件学院，江西南昌 330000）摘要：音频证据作为视听资料证据的一类，近年来随着智能移动终端的普及在各类司法实践中被广泛使用。与音频证据相关的取证技术是电子取证领域的研究热点之一。由于重采样在音频修改上的广泛使用，音频重采样的检测作为音频取证的重要部分具有重要意义。重采样的插值会在信号中引入周期性线性关系。基于这一特点设计一个通过最大期望（ExpectationMaximization，EM）算法提取特征，并使用频域分析方法进行重采样检测的算法，同时提出一个启发式方法来优化算法的运行速度。关键词：电子取证；音频处理；音频取证；重采样Design and Implement

3、ation of a Secure Forensic Algorithm for Audio Sampling RateLIUJunhao(SchoolofSoftware,NanchangUniversity,Nanchang330000,China)Abstract:Asacategoryofaudiovisualdataevidence,Audioevidencehasbeenwidelyusedinrecentyearsinvarioustypesofjudicialpracticeduetothepopularityofintelligentmobileterminals,andit

4、srelatedforensictechnologyisalsooneoftheresearchhotspotsinthefieldofelectronicforensics.Duetothewidespreaduseofresamplingonaudiotampering,thedetectionofaudioresamplingisofgreatimportanceasapartofaudioforensics.Theinterpolationinresamplingprocesswouldintroduceaperiodiclinearrelationshiptothesignal.Ba

5、sedonthisfeature,thisstudydesignsanalgorithmusingExpectationMaximization(EM)algorithmtoextractfeaturesandfrequencydomainanalysismethodforresamplingdetection,andproposesaheuristicmethodtooptimizethespeedofthealgorithm.Keywords:electronicforensics;audioprocessing;audioforensics;resampling1 重采样检测原理对音频进

6、行重采样，一般分为上采样、插值和下采样 3 个步骤。其中，上采样将音频信号扩充 p倍；插值通过插值函数计算补充上采样后两个原采样点之间的采样点幅值；下采样丢弃部分采样点，将音频信号压缩到 1/q。通过这 3 个步骤得到的信号即为原音频信号的重采样信号，采样率为原音频信号的 p/q 倍。此处的 p/q 也被称为重采样参数。当插值方式为线性插值时，重采样的 3 个步骤均为线性变换，其组合也必为线性变换，因此可以将参数为 p/q 的重采样过程描述为线性变换，即y=Ap/qx（1）式中：y 为重采样后的信号，x 为待重采样的信号；Ap/q为重采样变换矩阵，其维度与 x 和重采样参数p/q 有关。更具体

7、地，有/pnnqp q|RA（2）式中：n 为 x 的维度。由于 pn/q 可能不是整数，需要进行上取整。x 经过矩阵 Ap/q的线性变换后即得到重采样后的信号 y。矩阵 Ap/q具有周期性，即,T/,i ji kp j kqNikpi kkNNNiki kiki kkNkNNNiki kiki kkNkNnnqp qyyyyyy+=+=+=|=|=|=0RA=AAx（2）对于互质的两数p，q，由数论相关的知识易知，乘积 kq 在模 p 意义下的周期为 p。对于重采样信号中的所有采样点 yi，给定一组2023年第47卷第4期87Sound BroadcastinG声学制播声学制播线

8、性参数 k和一个邻域范围 N，有1,T/,TTTi ji kp j kqNiki kkNNNiki kiki kkNkNNNiki kiki kkNkNnnqp qyy+=+=+=|=|=0RA=AAx（3）式中：给定的参数中 0只能为 0。若对某采样点式（3）成立，意味着该采样点能够被其邻域采样点由参数 k线性表示，则有如下等价关系：TTTTi ji kp j kqNikpi kkNNNiki kiki kkNkNNNiki kiki kkNkNnnqp qyyyy+=+=|=|=|=0 x（4）式中：iT为重采样矩阵 Ap/q的第 i 行向量。由于其秩较小，式（4）成立时可大致认为点乘前面

9、的向量为零向量，则有TTNNiki kiki kkNkNyy+=（5）利用式（2）展示的线性重采样过程的周期性特征，令 i=i+kp，则式（5）依然成立，即式（5）表示的邻域线性相关特性是呈周期性出现的。通过检测信号中是否含有这种周期性，即可检测信号是否进行过重采样处理。该结论是由以下两个结论推出的：一是重采样过程可以表示为线性变换；二是线性变换矩阵具有周期性。因此，对于符合以上条件的其他插值方法，如最近邻插值或三次插值，同样可以使用该方法进行检测。2 重采样检测流程对于真实的待检测音频信号，无法确定是否存在参数组 k，使得式（3）所描述的邻域线性相关性周期出现。此时，需要采用最大期望（Exp

10、ectation Maximization，EM）算法对 k组成的向量进行参数估计。EM 算法包括 E，M 两个步骤，通过多次迭代实现模型解析。其中，E 步计算联合概率密度的期望值，M 步通过最大似然估计更新参数值。在 E 步中，首先需要根据有无邻域线性相关性将采样点分为两个集合 C1和 C2，用概率wi=P(yi C1|yi)代表采样点 yi具有邻域线性相关性的概率，则该概率可由贝叶斯公式计算得出()()()()()111|kiiiiiiikikP yyCP yCP yCyP yyCP yC=（6）一般可以认为 yi Ck为等概率事件，概率均为 0.5；P(yi|yi C2)服从-1，1

12、iiwdw=（8）即对 di2求加权平均得到方差，开方后得到标准差，加权系数 wi为采样点属于 C1类的概率P(yi C1|yi)。在M步中，使用加权的残差平方和估计参数，有()()22=iiiNiiki kkNiEwdw yy+=（9）式（9）对求偏导后，令偏导等于零，可得迭代后的，有()()()221TTnew112thresd1l12ho=1sil()=iiiNiiki kkNiNNNNNNi Ni Ni NiiEwdw yyyyyyyyyyyFFN+=+=|=|Y WYY Wy（10）式中：y 为待检测信号向量，W 为一主对角线为概率值 wi的对角矩阵，Y 为信号中的采样点 yi的邻

13、域行向量沿列拼接而成的矩阵。Y 可表示为112112ho=1sil()=iiiNiiki kkNiNNNNNNi Ni Ni NiiEwdw yyyyyyyyyyy+|=|Y（11）式中：越界的部分填充 0。矩阵 W 的秩可能较小，导致 YTWY 奇异，因此计算时需要在矩阵 W 的主对角线上加上一个极小值，以防括号内矩阵奇异无法求逆。经过 EM 算法后，可以得到优化后的参数和2023年第47卷第4期88声学制播声学制播ound BroadcastingS采样点具有邻域线性相关的概率信号 wi。理想情况下，若信号为 p/q 重采样信号，概率信号 wi将呈现周期性，即 wi较大的点重

14、复出现，周期为 p，其余点概率均接近于零。使用离散 Fourier 变换将信号转至频域，即可捕获这类信号的周期性。因此，将得到的各采样点概率 wi进行离散 Fourier 变换后对其强度进行峰值检测，即可判断信号是否为重采样信号。综上，对于一段音频信号，可通过归一化、EM迭代、离散 Fourier 变换、频谱特征提取以及判决等流程进行重采样检测1。归一化，将音频信号归一化到-1，1 区间；EM 迭代，通过 EM 算法迭代得到各采样点具有邻域线性相关的概率信号；离散 Fourier 变换，通过离散Fourier 变换将概率信号转至频域进行分析；频谱特征提取，通过峰值提取算法与高通滤波器得到重采样

15、判决的指标2；通过分类器对指标进行判决，可以使用机器学习方法构建分类器，如贝叶斯分类器等，最终判定音频信号是否经过重采样。研究中考虑精度、音频的平稳性3以及快速Fourier 变换算法的性能，则有两种情况：一是选择分帧长度为 2 048 时，在常用的 48 kHz 的采样率下约为43 ms；二是在帧间距为 512 时，在 48 kHz 的采样率下约为 11 ms。3 算法优化3.1 语音活性检测由于静音段的信号强度值基本接近于零，具有强邻域线性相关，会干扰 EM 算法的迭代结果。此外，静音段基本不含有效信息，因此需进行语音活性检测（Voice Activity Detection，VAD）剔除

16、静音帧。对静音帧的检测使用能量方法4，有thresd l2ho1sil()=iiFFN|F（12）式中：sil(F)为取值为0或1的函数，取值为1时表示该帧为静音帧，反之取值为 0；F 为待检测帧的信号向量；Fthreshold为静音阈值，在本研究中取值为 10-3。检测效果如图 1 所示。3.2 概率密度函数优化在 EM 迭代中，需要将采样点按照有无邻域相关性分为两类。通常使用正态分布作为有邻域相关性类的概率密度函数（Probability Density Function，PDF）。可以发现，在正态分布的概率密度函数中含有指数运算，可能计算速度较慢。一个想法是使用函数图像大致相当且较为简单

17、的概率密度函数来代替正态分布。本研究采用二次函数代替正态分布，即2,()0,axc xd dF x+|=|其他（13）式中：d 为函数与 x 轴的交点；a 与 c 的取值需要满足概率密度函数的条件，即23222223,()0,()d134343d45ddddaxc xd dF xF xx+|=|=其他。由这些条件，可得3222223,()0,()d134343d45ddddaxc xd dF xF xxad+|=|=其他和23222223,()0,()d134343d45ddddaxc xd dF xF xxadcd+|=|=其他。求该概率密度函数的方差，有232222233d45dddxdx

18、xx=（14）依据式（14），可以在 EM 迭代中通过加权均方误差估计方差后估计参数 d。4 实验测试与分析测试使用 THCHS30 语料库进行测试5。该语料库主要为人声，采样率为 16 kHz。测试时选取语料库中的一部分音频，使用 librosa 将音频整体以不同的参数进行线性插值重采样后进行测试6。4.1 性能测试该测试对比使用概率密度函数优化前后的性能。经测试，优化对重复短片段的重采样检测效果较好，适合分帧的局部重采样检测。图 2 为使用优化前后的运行时间对比，将音频信号以 8 192 个采样点为一帧、75%帧重叠分帧后进行测试。可以发现，使用优化后有 10%20%的性能提升。图 1 语

19、音活性检测2023年第47卷第4期89Sound BroadcastinG声学制播声学制播采样点个数/个103二次分布正态分布25755010015012517554321时间/s图 2 性能对比4.2 线性插值测试测试时从语料库中随机抽取 100 个音频进行不同参数的线性重采样后分帧再进行检测，然后将非静音帧指标取平均值作为整个音频的判定指标。通过判定指标的统计量来判断其可区分度，指标统计量如表 1 所示。图 3 为由统计量绘制的正态分布曲线，可见可以使用基于正态分布的朴素贝叶斯分类器对音频进行重采样判定。图 3 分布曲线重新抽取 100 个音频进行判定，使用统计量训练基于正态分

20、布的朴素贝叶斯分类器进行重采样判定。表1中有各参数重采样的指标统计量和判定准确率。可以看出：对于偏离程度较大的参数如 3/2、2/1、1/2 等，该算法的区分效果较好；偏离程度较小的参数如 5/4，算法区分效果较差。表 1 指标统计量及判定准确率重采样参数（p/q）平均值标准差最大值最小值重采样判定准确率1/10.017 0710.012 6460.085 3830.000 1290.905/40.024 6700.014 3560.064 9220.001 1630.383/20.117 6360.038 2450.204 6190.028 6490.982/10.232 6790.079

21、9850.452 4010.083 7211.004/50.062 3020.033 0910.193 5580.012 9480.961/20.106 6710.064 4160.401 9500.016 6440.965 结语本文设计了一个基于 EM 算法的重采样检测算法，以线性插值重采样音频信号中周期性出现的邻域线性组合关系为理论基础，通过EM 迭代、离散Fourier 变换变换、特征提取 3 个步骤得到用于判定重采样的特征值，最终通过分类器进行分类并给出分类概率，同时提出简化概率密度函数的方法来提高 EM 迭代的运行速度，且不影响检测的准确度。经过初步验证，所提算法适用于重复短片段的

22、重采样检测，在音频取证领域有一定的应用前景，其中的一些研究方法也可扩展至其他领域。参考文献：1POPESCUAC，FARIDH.ExposingdigitalforgeriesbydetectingtracesofresamplingJ.IEEETransactionsonSignalProcessing，2005，53（2）：758-767.2陈雁翔，吴玺.音频盲取证中一种基于 EM 的重采样检测方法 J.电路与系统学报，2012，17（4）：118-123.3PALIWALKK，LYONSJG，WJCICKIKK.Preferencefor20-40mswindowdurationinsp

23、eechanalysisC/4thInternationalConferenceonSignalProcessingandCommunicationSystems，2010.4WOOKH，YANGTY，PARKKJ，etal.RobustvoiceactivitydetectionalgorithmforestimatingnoisespectrumJ.ElectronicsLetters，2000，36（2）：180-181.5WANGD，ZHANGXW，ZHANGZY.THCHS-30：afreechinesespeechcorpusEB/OL.（2015-12-07）2023-02-26.http:/arxiv.org/abs/1512.01882.6MCFEEB，MCVICARM，FARONBID，etal.librosa/librosa：0.10.0.post2EB/OL.（2023-03-07）2023-03-16.https:/doi.org/10.5281/zenodo.7746972.编辑：郭芳园

展开阅读全文