视频流数据片头定位技术研究.pdf

资源描述

1、计算机与图像技术Computer&Multimedia Technology电子技术与软件工程Electronic Technology&Software Engineering182目前，在对音视频流进行大数据分析时，首先要将内容上不相关的信号流进行定位并将其剔除。由于音频流和视频流两者在场景上关联但在数据流特征上是不关联的，本文首先将视频流的音频信号剥离并对音频信号流进行数据分析，将音频流特征值不相关的数据定位然后辅助图像指纹技术定位，由于音频流的特征结构复杂度远低于视频流，采用音频流搜索快速定位，结合图像特征二次匹配能精确定位能将内容上不相关的数据流精准快速的定位，其主要特点是算法复杂度

2、低，准确率比较高。1 音频信号处理绝大部分音频特征最初起源于语音识别中，它们可以精简原始的波形采样信号，从而更利于对其进行针对性的数据分析，算法也更容易理解音频中蕴含的语义信息。从 20 世纪 90 年代末开始，这些音频特征也被用在音乐信息检索的任务中，比如乐器识别，音符起始点的检测等，由此更多针对于音频特征值的提取也应用而生，语音识别技术中常用的音频特征参量主要有短时过零率、短时能量、短时自相关函数、短时平均幅度、频谱差分幅度、频谱质心和频谱宽度，梅尔频率倒谱系数等。1.1 音频特征分帧与加窗音频部分预处理的算法主要体现在音频特征值提取和相似度匹配两个方面。在提取音频特征前需要先对音频信号进

3、行分帧与加窗。一帧语音信号长度可以用多种方式表示，如果用时间表示，一帧信号通常取在 15ms 30ms 之间，经验值为 25ms。帧长为 25ms 的一帧信号指的是时长有 25 毫秒的语音信号。也可以用信号的采样点数来表示，如果一个信号的采样率为 16kHz，则一帧信号由 16kHz25ms=400 个采样点组成。分帧后每一帧的开始和结束都会出现间断，因此分割的帧越多与原始信号的误差就越大，加窗就是为了解决这个问题，使成帧后的信号变得连续，并且每一帧都会表现出周期函数的特性。常见的分窗函数有：矩形窗、汉明窗、汉宁窗等，在语音信号处理中，通常使用汉明窗首先要根据信号长度、帧移、帧长计算出该信号一

4、共可以分的帧数，帧数的计算公式如下：帧数=（信号长度-帧长）/帧移+1具体的分帧操作如图 1 所示1。加窗操作比较简单，仅需将分帧的每一帧信号一次与窗函数进行相乘即可，最后一帧处于句子最末尾部分，大部分为静音片段，可以直接将之抛弃。通过对语音信号能量加开窗函数的方法获得语音信号短时能量。第 n 时刻的音频信号短时能量 En 函数表达式如下，其中(n)为窗函数，m 是时间刻度。（1）矩形窗表函数可以表示为：（2）加上矩形窗以后的信号能量表示为：，N 为窗长，m 为时间刻度。（3）2.2 音频特征值提取视频流数据片头定位技术研究张冬梅（河北省广播电视监测中心河北省石家庄市 050081）摘要：本

5、文采用音频定位为片头为主，图片定位为辅的方法。首先对视频流的音频信号采用短时能量法找到不相关音频起点与终点，然后利用感知哈希算法提取“图像指纹”，结合音频流搜索精准定位片头。采用这种方式定位片头算法复杂度低且定位准确率比较高。关键词：短时能量；图像指纹；哈希算法；相似度；汉明距离计算机与图像技术Computer&Multimedia Technology电子技术与软件工程Electronic Technology&Software Engineering183认识音频特征不同类别不在于对某一个特征精准分类而是加深理解特征的物理意义，一般对于音频特征我们可以从以下维度区分：（1）特征是由模型从信

6、号中直接提取还是基于模型的输出得到的统计，如均值、方差等；（2）特征表示的是瞬态还是全局上的值，瞬态一般以帧为单位而全局则覆盖更长的时间维度；（3）特征的抽象程度，底层特征抽象程度最低也是最易从原始音频信号中提取，它可以进一步被处理为高一级的中间特征代表乐谱中常见的音乐元素，如音高、音符的起始时间等；高层特征最为抽象大多用于音乐的曲风和情绪任务；（4）根据特征提取过程的差异可以分为：从原始信号中直接提取的特征（如过零率）、将信号转换为频率得到的特征（如谱心质）、需经过特定的模型得到的特征（如旋律）、受人耳听觉认知启发改变量化特征尺度得到的特征（如 MFCCs）。同时我们也发现部分特征并非完全属

7、于其中一个类别例如 MFCC，因为提取 MFCC 会将信号从时域转换至频域然后根据模仿人类听觉响应的 MEL 尺度过滤器得到的，因此它属于既属于频域特征又属于感知特征。音频信号的波形图和短时能量图具有很高的相关性，波动趋势基本相同2。由于音频波形信号采样点数据量大，且包含异常点和噪声，淹没了音频波形特征，因此，利用音频的短时能量提取音频特征，可以有效清洗杂质数据、消除数据冗余、强化音频波形特征，如图2 所示。用每50个采样点计算产生一个音频短时能量值（音频采样率 44.1KHz），分别提取整段音频的短时能量序列和片头音频的短时能量序列，然后逐段计算两者之间的欧氏距离，返回距离最小部分对应的时刻

8、，将该时刻做为不相关音频的起始点。2 图像特征处理2.1 图像特征提取图像特征主要有图像的颜色特征、纹理特征、形状特征和空间关系特征。在某些算法中，是基于提取高复杂度特征为核心的，但这将以处理更多数据，需要更高的处理效果为代价。而颜色特征无需进行大量计算。只需将数字图像中的像素值进行相应转换，表现为数值即图 1：分帧的具体操作计算机与图像技术Computer&Multimedia Technology电子技术与软件工程Electronic Technology&Software Engineering184可。因此颜色特征以其低复杂度成为了一个较好的特征。在图像处理中，我们可以将一个具体的像素

9、点所呈现的颜色分多种方法分析，并提取出其颜色特征分量。比如通过手工标记区域提取一个特定区域的颜色特征，用该区域在一个颜色空间三个分量各自的平均值表示，或者可以建立三个颜色直方图等方法。图像的颜色特征提取方法主要有方向梯度直方图、尺度不变特征变换、高斯函数差分、哈希特征算法等。图 3：彩色图像经过感知哈希算法后产生的效果图图 2：原始音频信号与短时能量处理后的对比图计算机与图像技术Computer&Multimedia Technology电子技术与软件工程Electronic Technology&Software Engineering185哈希算法可以提取基于图片内容的摘要。根据算法对图片

10、内容的敏感度可以将哈希算法分为两类：对微小差距敏感的算法例如 MD5 和 SHA-1，对图片结构敏感的算法例如感知哈希算法和平均哈希算法3。片头视频图片检测是检测的大量具有很高相似性的图片，检测需要对微小差距不敏感，对明显存在差异的图片敏感。所以本文采用感知哈希算法提取“图像指纹”。图片经过预处理后，用哈希算法提取图片哈希值作为图片查询索引，经过哈希函数将不同规格的图片形成定长的哈希字符串，这些字符串唯一代表这张图片，且具有极低的碰撞概率。感知哈希算法实现步骤4：（1）缩放尺寸。快速的去除高频细节，保留结构，去除大小、纵横比等差异，将图片统一缩放到 88 或者32x32 格式。（2）简化色彩。

11、图片转化为 64 级灰度图。（3）进行离散余弦变换（DCT），使之能量集中，文中采用 3232 的 DCT。（4）缩小 DCT。经 DCT 变换之后产生 3232 的矩阵，保留左上角的 88 的矩阵，呈现图片的最低频率。（5）设置阈值。选取 DCT 变换系数矩阵的均值作为阈值，大于等于hash均值的设为“1”，其余设为“0”。（6）计算哈希值。遍历对比产生一串定长的二值数字码（64 位），这串数字码值即是图像指纹。图 3 是原彩色图像经过感知哈希算法后产生的效果图。第一列是从视频里抓取的原图。第二列是缩小尺寸后只保留原有颜色和图像结构产生的缩略图（3232）。第三列是将缩略图转化成灰度图简化色

12、彩。第四列是灰度图进行 DCT 变换后产生的 DCT 矩阵系数图像，图片的能量都集中在左上角。第五列是最终产生的感知哈希值（88 的哈希值矩阵）的图像显示，白色代表 1，黑色代表 0。2.2 图像相似度计算汉明距离是衡量两个字符串相同度的常用方法。汉明距离越小表明两张图像的相似度越高，一般汉明距离在 10 以内的两个图像被认为是相似图像5。为了保证识别准确度，一般选择连续几张图像的指纹都保持在相似范围内，即认为找到了片头，最后返回首次匹配的图像指纹的时间，做为视频开始时间。图像定位依赖于音频的定位结果。首先，图像定位以音频定位返回的时刻为中心时刻，在该时刻前后解析视频图像，并且提取图像指纹。然

13、后，计算提取的图像指纹和片头视频图像指纹之间的汉明距离。最后，返回首次出现汉明距离在 10 以内的图像指纹对应的时刻，并记录为视频图像定位的片头开始的时刻。当在音频定位的时间范围内能成功定位视频图像时，被认为成功完成了整个片头识别过程。3 结语本文采用音频和视频特征提取相结合的方法进行音视频流的片头定位，采用在音频定位分离数据返回时间点为中心，分析这个中线点附近的数据的汉明距离来确定内容不相关音视频数据的片头。算法复杂度小，定位准确。参考文献1 吕葛梁,沈雷.单幅近红外手指图像指纹指静脉融合识别J.计算机软件及计算机应用,2019:37-42.2 刘毅.红外图像复杂度评估方法综述 J.航空兵器,2014(3):51-54.3 汪然,平西建.基于图像纹理复杂度和奇异值分解的重采样检测J.计算机辅助设计与图形学学报,2010,22(9):1606-16124 高振宇,杨晓梅,龚剑明,等.图像复杂度描述方法研究 J.中国图象图形学报,2010,15(1):129-135.5 高振宇,杨晓梅,龚剑明,等图像复杂度描述方法研究 J.中国图像图形学报 2010,15(1):129-135.6 何帅,刘嘉勇.基于恶意代码图像指纹的恶意代码家族标注方法 J.计算机软件及计算机应用2017:545-549.作者简介张冬梅（1977），女，硕士研究生，高级工程师。研究方向为计算机应用、广播电视技术。

展开阅读全文