基于特征点的电影字幕提取.pdf

资源描述

1、第卷第期沈阳化工大学学报.收稿日期:基金项目:辽宁省教育厅科学研究项目()作者简介:路鑫()男山西晋中人硕士研究生在读主要从事图像处理的研究.通信联系人:杨硕()男吉林通化人讲师博士主要从事图像处理、模式识别的研究.文章编号:()基于特征点的电影字幕提取路鑫杨硕(沈阳化工大学计算机科学与技术学院辽宁沈阳)摘要:电影字幕作为电影图像的解释文本可以帮助观众更好地理解电影剧情.针对在复杂背景下提取字幕困难的问题提出基于特征点、颜色等多特征融合的电影中英文字幕同时提取算法.该算法首先通过帧间差分算法进行运动目标检测提取电影图像中的字幕帧然后通过运用特征点检测技术、启发式

2、筛选、形态学处理等方法定位字幕对准确定位的文本区域通过颜色聚类提取字幕文本实现文本分割最后通过文字识别技术实现对字幕帧文本的识别.实验结果表明:该方法将处理帧数减少到与字幕条数相同将字幕提取的准确率提高到提高了字幕检测效率验证了多特征融合技术的有效性.关键词:字幕定位文本提取颜色聚类多特征融合:./.中图分类号:文献标识码:随着计算机技术的发展和互联网的普及大量的电影在网络上传播而电影字幕作为电影信息输出的媒介是其不可缺少的一部分.因为字幕中包含着重要的电影内容所以可以通过字幕检索电影.此外标准的电影字幕以中英文双语的形式呈现这也使得英语爱好者可以通过电影中的英文字幕学习英语.所以提

3、取电影中的字幕不仅可以检查字幕内容使编辑更加容易还提高了电影的检索效率更方便了英语爱好者学习英语.获得影片中的字幕文本需要先从视频帧中提取二值文本图像然后使用光学字符识别软件对其进行识别具体步骤包括字幕帧提取、字幕定位、文本分割、文本识别.如今字符识别技术已经非常成熟但在识别过程中由于电影字幕的背景非常复杂并且只能识别二值化文本这就给检测和识别带来了很大的困难.所以如何快速准确地定位分割电影字幕仍是一个值得深入研究的课题.为了解决上述问题近年来一些学者提出许多新算法:()基于单特征的文本检测算法.该算法主要用到的特征和技术有边缘、纹理、角点、笔画宽度变换等.如基于边缘的视频文本检测算法该算

4、法在背景复杂度不高的情况下有良好的效果但对于电影字幕复杂的背景会出现字幕边缘周围噪声多的问题单独提取出字幕的边缘非常困难基于纹理的方法判定像素点或像素区域是否为文本区域相较于非文本区域文本区域含有丰富的纹理特征对复杂背景下的电影字幕有很好的识别定位效果但是算法复杂度高计算时间长面对长达数小时的电影视频帧检测速度慢难以实现实时性检测基于颜色的算法字幕文本具有相同的颜色根据文本颜色与背景颜色的差异性可以实现文本的分割但面对文本与背景颜色相似的情况下颜色并不是一个很好的特征背景会被当作文本提取出来对识别结果造成一定的误差基于笔画宽度变换算法该算法具有对文字的高敏感度但面对复杂背景会产生严重的虚警如背

5、景中的第期路鑫等:基于特征点的电影字幕提取房屋、树叶等都会作为文本候选区域抗干扰能力差.()基于深度学习的算法.作为机器学习深入发展的新领域深度学习大幅提高了图像中字符识别的准确率并且效率有了很大的提高.但深度学习需要选取大量样本进行训练如果测试集与训练集的差别很大图像中文本的识别率将下降很多.()基于多特征融合的算法.通过对各种方法的分析发现单独利用文本的某项特征进行提取会出现不同类型的问题.针对以上各个方法的优缺点该类型算法在各个阶段融合了至少两种特征两种特征互相补充互相影响在一种特征对文本不敏感的情况下另一种特征可以补充文本提取的不足提高了文本的定位效率和文本分割的准确度.本文算

6、法的特点是运用帧间差分算法提取字幕帧后在字幕定位阶段融合了文本的空间特征和边角特征运用了特征点检测算法、形态学处理和启发式规则筛选等技术.在文本分割阶段融合了文本的边角特征和颜色特征运用了基于文本区域特征点的颜色聚类算法.最终通过识别技术完成字幕识别.区别于单特征字幕提取特征点与颜色特征融合避免了单特征字幕提取算法可能出现的问题.充分运用字幕区域的特征点、聚类特征点及其领域的颜色不但可以节省时间而且提高了颜色聚类的准确性从而可以更加快速准确地提取字幕.算法描述处理具有中英双语的电影字幕图为该算法的流程图.算法共分为个部分:字幕帧提取、字幕定位、字幕分割和字幕识别.算法融合的特征和使用的技

7、术如下:()视频对象运动特征:电影由具有连续性特点的视频帧组成如果目标运动则连续的帧和帧之间会有明显的不同运用帧间差分算法可以快速筛选字幕帧()文本的边角特征:字幕的笔画具有特殊的纹理运用基于曲率和纹理特征技术可以检测到丰富的特征点而其他区域相对较少利用特征点检测技术可以检测到字幕区域内密集的特征点()文本的颜色特征:标准字幕的颜色以白色为主且在电影中保持不变因此主要研究白色标准字幕为了让观众看清字幕其颜色亮度很高不会因复杂的背景而使字幕淡化或模糊利用字幕区域的特征点颜色聚类可以提取字幕颜色()文本的空间特征:字幕中字符之间的距离相同且中英文字幕之间按规定距离上下排列标准字幕的中英文字幕都不会

8、超出一行具有明显的空间特征利用字幕特征点区域的高宽比、面积范围、特征像素点占比率等启发式规则可以滤除非文本区域.图字幕提取流程沈阳化工大学学报年字幕帧提取由于输入的电影是由数量庞大的视频帧组合而成视频帧中有含字幕的帧和不含字幕的帧如果对电影中的每一帧进行处理将会耗费大量时间所以要先从视频帧中提取含有字幕的帧.采用帧间差分算法与字幕显示特征相结合的方法可以快速提取字幕帧.帧间差分算法是利用电影连续两帧图像之间的像素做差获取运动目标轮廓的方法.当电影视频中的目标出现运动时相邻两帧图像之间会出现较为明显的差别将两帧相减以求得图像对应位置像素值差的绝对值判断其是否大于某一阈值进而

9、提取具有运动特性的字幕候选帧.()()().()其中:()为连续两帧之间的差分图像各像素点的像素值()时为前景()时为背景()和()分别为第帧和第帧的图像为对差分图像进行二值化时选取的阈值.经过帧间差分后的图像如图和图所示.图字幕帧图无字幕干扰帧与图相比帧间差分算法提取出字幕候选帧的同时还提取了因图像中其他的目标运动而产生的干扰帧(如图所示)所以需要进一步筛选字幕候选帧.分析字幕帧发现有如下特点:()为了满足人眼在有限的时间里识别电影字幕同一内容的字幕会出现在连续的视频帧中持续且位置固定处于视频帧下方的/处()电影中字幕的颜色、亮度、形状、字体都是统一的但电影图像在不断

10、变化即字幕背景复杂多变 ()为了能让人眼观测到字幕中文字符高度通常不小于像素英文字符高度通常不小于像素.基于以上特点可知字幕的出现和消失可引起该区域像素的大范围变化所以对经过帧间差分算法提取的字幕候选帧可只检测候选帧的固定区域.具体做法为:将所有字幕候选帧的大小归一化为分别删除距左右边缘个像素点的像素列删除距上边缘个像素点的像素行删除距下边缘个像素点的像素行.其中:代表字幕候选帧的宽代表字幕候选帧的高.由于一般的字幕笔画都比较多所以如果字幕出现和消失时其字幕区域的像素变化会很集中当密度超过一定阈值时判定此区域含有字幕.用式()计算固定区域像素密度:()/().()其中:/()表示固

11、定区域像素为的密度表示动态密度阈值.经过反复试验为避免过多干扰点影响字幕帧提取取值为该固定区域像素级为的像素点的总和并乘以固定区域密度如果大于说明此区域为有字幕区域否则为无字幕区域删除当前字幕候选帧.字幕定位特征点检测在字幕帧中字幕具有比较稳定的边缘和纹第期路鑫等:基于特征点的电影字幕提取理特征可以运用特征点检测算法定位字幕.特征点检测算法分为两类:()角点检测如角点检测、角点检测、()等()斑点检测如尺度不变特征转换()加速稳健特征()高斯差分算子()独立、可靠的二进制基础特征()等.本文运用支持方向和旋转不变性()算法检测字幕帧中的特征点.特征点检测是一种快速特征点

12、提取和描述的算法.特征点检测部分使用角点检测子该检测子在同类型中运算速度最快原本的特征并不具备方向性该算法加入了特征的方向信息特征点描述部分是基于像素点二进制位比较的特征描述子并改进了描述子对图像噪声敏感的缺点使该检测算法具有运算速度快、对噪声不敏感等优点很适合对电影字幕特征点的检测.原图见图经过特征点检测算法处理过的字幕帧如图所示.图原图图特征点检测图从图中可以看出特征点检测算法检测字幕帧后字幕区域的特征点比其他区域的特征点更密集.其他区域的特征点将会干扰字幕定位需要对特征点进一步筛选.启发式规则筛选定位去除字幕帧中字幕区域外的特征点的方法是将包含特征点的字幕帧进

13、行二值化并进行形态学处理把字幕的各个字符连接成一个完整的连通区域如图所示对字幕帧中的特征点进行闭操作然后运用一些启发式规则筛选掉大多数孤立特征点和一些明显不是字幕区域的连通域特征点具体方法如下:()滤除字幕帧距离左右边缘像素列内的像素点滤除距离下边缘像素行内的像素点滤除字幕帧距离上边缘内的像素点为字幕帧的高.()建立的滑动窗口从字幕帧未直接滤除区域的左上角开始以为步长进行遍历对特征点进行过滤.如果窗口内像素为的像素点个数超过阈值则保留窗口内的像素点否则删除窗口内的像素点.经过实验对字幕区域窗口像素级为的像素点进行统计得出阈值为.较低的阈值可以滤除孤立特征点避免窗口过度筛选.

14、()对筛选过后的连通区域绘制最小外接矩形根据高宽比、矩形面积大小和矩形高度等启发式规则过滤非文本区域.其中:矩形高宽比矩形面积矩形高度 .图形态学处理二值图经过启发式规则筛选后特征点分布如图沈阳化工大学学报年所示.图启发式筛选后的二值图从图中可以看出经过启发式筛选可以有效去除孤立的特征点和明显不是字幕区域的连通域特征点从而保留字幕区域的特征点为后续的中英文分别定位提供了确切的位置.对同一行的矩形框进行合并保留矩形框内的内容可以精确定位出字幕效果如图所示.图字幕定位结果文本分割经过字幕定位可以分别精确定位出中英文字幕的上下左右边界位置接着可以直接在边界内

15、进行文本分割.文本分割是在文本定位后在文字区域内提取每个字符将字符与背景分离为字符识别做准备.如果背景简单可运用大津法对图像进行字符分割.但电影字幕覆盖在电影图像上面背景颜色复杂多样直接全局阈值化处理会将部分电影背景当作二值化前景处理造成对字幕文本分割的干扰所以需要更复杂的算法来分割.常用到的算法有基于颜色特征的聚类算法和基于支持向量机()检测算法.通过对电影字幕的定位后可发现如下特点:()特征点在字幕区域内更加集中()电影字幕的颜色统一比背景更加明显()每一字幕帧中的字幕颜色基本不变.根据以上字幕特点可以融合特征点和颜色特征进行文本分割.若想提取出字幕文本需要先找到字幕的颜色值根据此值进

16、行分割.通过字幕定位已知字幕区域的特征点位置则可以根据该点和该点的邻域对原始图像进行颜色聚类.聚类的方法有很多种现选用欧式距离公式聚类颜色.()()().()其中:、分别代表彩色图像的个通道、代表像素点代表两像素点间的颜色距离.根据公式将颜色距离相近的像素点归为一类并记录各个颜色类的像素点数目同时将属于同一颜色类的像素颜色值修改为同一颜色.因为颜色聚类的是字幕区域所以聚类后像素点个数最多的颜色类为字幕文本颜色.但是运用单帧图像排在第位的颜色值作为文本颜色可能最终并不是字幕颜色所以选择排在前位的颜色值作为候选颜色值并选择字幕帧的前帧得到个颜色类将这个颜色类中距离相近的类合并并降序排列

17、取第位的颜色类作为文本颜色可以有效避免错误.因为英文字幕特征点比中文字幕的相对较少所以需要放宽聚类距离英文字幕的聚类距离比中文的大个单位分割后的英文字符宽度相较于中文字符的更窄但不影响之后的文字识别.文本分割效果如图所示相比于对字幕区域直接使用算法(如图所示)该算法滤除背景效果明显.图字幕分割结果图算法英文字幕分割结果第期路鑫等:基于特征点的电影字幕提取通过以上算法滤掉噪声区域将分割后的二值文本输入文字识别系统就可以将字幕识别出来.使用百度开放平台下的通用文字识别接口该接口运用了深度学习技术具有较高的文字识别准确率而且该接口支持字符串的识别节省了算法单独分割字幕文

18、本的时间提高了文本识别的效率.实验结果分析根据上述算法进行实验.实验在环境下实现计算机配置:主频为 ()()运行内存为 .使用的实验数据为组电影素材每组素材时长为包含标准中英文字幕图、图分别是素材、素材的代表性图像.图素材效果图图素材效果图素材中整体亮度浅体现在字幕区域为背景与字幕颜色相近.素材中包含文本多体现在字幕区域为背景经常出现字符干扰.图的实验效果优于图的原因是素材背景和字幕颜色相似在颜色聚类时会将背景颜色误识别为字幕颜色对最终的字幕分割产生轻微噪声干扰影响字符识别效果.将视频帧中的中英文两行字幕看作一条首先运用人工方式记录电影中的字幕总条数以及每条字幕

19、中出现的字符个数并通过人工方式识别出字幕的内容并记录下来然后将电影视频运行本文算法后输入到文字识别系统中进行识别得到处理结果后将系统检测到的字幕文本与电影视频中真正的字幕文本相比较记录每组电影视频的最终结果并计算相应的精确率、错误率和准确率.其中:精确率成功定位的帧数/总字幕帧数错误率错误定位的帧数/总字幕帧数准确率为成功定位的文本框与绝对真文本框的覆盖比率当准确率大于时代表文本定位准确.选择种具有代表性的视频文本提取算法做实验对比种算法为:()基于边缘颜色特征的算法该算法融合了视频文本的颜色和边缘特征采用彩色边缘检测算法定位文本区域并运用水平投影、垂直投影确定文本行边界()基于

20、纹理特征的算法该算法在文本区域使用块的纹理能量直接在域检测水平投影寻找文本行边界在文本跟踪和多帧融合弱化背景后运用彩色笔画模型分割文本()基于机器学习的算法该算法基于边缘和小波变换实现文本的粗定位然后使用支持向量机实现精确定位最后运用局部阈值法与改进的相结合实现文本分割.种算法与本文算法比较结果见表.观察表的实验数据可以发现本文算法在字幕定位精确率上比其他算法高出至少错误率在所有算法中最低说明运用特征点定位字幕性能优于其他特征.字幕无法定位的原因是字幕文本太少类似于“好的”“是”“”“”这样的简短文本在字幕定位过程中因区域面积过小被当作干扰区域删去所以字幕无法被定位.准确率能够反

21、映定位结果与真实字幕文本框的拟合程度准确率越高可以使后续的沈阳化工大学学报年文本分割和识别更加高效字幕字符识别率越高.本文算法准确率反映出可以滤除复杂的文本背景能够很好地识别文本.基于纹理特征的算法在定位上准确率具有一定的优势但面对背景中含有字符的情况时准确率会下降原因是背景字符与字幕有相近的纹理能量干扰文本的定位.基于边缘颜色特征的算法准确率不高原因是定位过程中只运用了投影法定位精度不够.基于机器学习的算法各项指标接近本文算法原因是基于对纹理和边缘特征进行了良好的训练错误率会相对较低准确率比本文算法高.在算法效率方面本文算法处理字幕帧耗时基于边缘的算法耗时仅需基于纹理的

22、算法耗时需要而基于机器学习的算法耗时和本文算法耗时相当.本文算法基于多个特征融合提高了字符的识别率但也增加了算法的复杂度复杂度主要表现在基于特征点的颜色聚类但在其余步骤调用了库函数辅助完成提高了运算速度依旧满足实时要求.表实验结果对比算法精确率/错误率/准确率/精确率/错误率/准确率/素材素材边缘颜色特征纹理特征分类器本文算法结语相较于单特征的视频文本定位基于特征点的多特征融合算法对电影字幕的提取与识别有更好的效果.该算法首先经过帧间差分提取含有电影字幕的帧然后对字幕帧进行文本检测与识别运用到颜色、字幕几何形状等特征并且加入了形态学处理、颜色聚类、特征点检测等技术手段提

23、高了电影字幕的提取率与识别率.多特征融合的优点在于对干扰因素的处理能力更强鲁棒性更好在一个特征不明显的情况下另一个特征仍然可以发挥效果实现更稳定地提取字幕文本.但是此算法仍然存在问题帧间差分算法对字幕帧的识别有漏检和重检的问题不能使字幕实现连续性和单一化使后续的检测识别更加耗时.接下来对该问题将继续深入研究以期找到更好的字幕帧检测方法.参考文献:纵蕴瑞.复杂背景下视频字幕文字的提取与去除的研究.天津:天津大学:.章东平.视频文本的提取.浙江:浙江大学:.尹芳郑亮陈田田.基于算法的场景中文文本定位.计算机工程与应用():.乔平安刘佩龙.基于法网络社交平台图像文本检测.现代电子技术():.张进王贵成汪滢.基于模糊聚类的谷氨酸发酵过程故障诊断研究.沈阳化工大学学报():.曹鲁慧邓玉香陈通等.一种基于深度学习的中文文本特征提取与分类方法.山东科学():.孙增友段玉帅李亚.基于中心环绕滤波器检测的图像特征点匹配算法.计算机应用():.杨硕张波张志杰.多特征融合的车牌定位算法.计算机应用():.:.():.第期路鑫等:基于特征点的电影字幕提取 .:.苏秋丹.基于的视频中文本的检测与提取方法研究.哈尔滨:哈尔滨工程大学:.():.:

展开阅读全文