第37卷 第6期2017年11月
西安科技大学学报
JOURNALOFXI’ANUNIVERSITYOFSCIENCEANDTECHNOLOGY
Vol.37 No 6
Nov 2017
DOI:10.13800/j.cnki.xakjdxxb.2017.0623文章编号:1672-9315(2017)06-0919-08
叶 鸥,李占利
(西安科技大学计算机科学与技术学院,陕西西安710054)
摘 要:视频检测技术有助于改善视频数据质量问题。随着科技进步和信息技术发展,视频数据规模急剧增加,视频数据质量问题越来越受到人们关注。针对相似重复视频数据和异常视频数据这2类脏视频
数据的检测技术将有助于发现并解决视频数据质量问题。为此,通过扩展视频数据质量概念,针对这2类脏视频数据,分析和总结相关的视频检测方法及关键技术;最后,简要说明视频检测技术研究的不足,并对视频检测技术的应用进行了总结和展望。 关键词:视频数据质量;视频检测;脏数据;相似重复视频数据;异常视频数据
中图分类号:TP391.41 文献标志码:A
Videoqualityandvideodatadetectiontechnology
YEOu,LIZhan li
(CollegeofComputerScienceandEngineering,Xi’anUniversityofScienceandTechnology,Xi’an710054,China)Abstract:Videodetectiontechnologycanbenefittoimprovingvideodataquality.Withtechnologicalad vancementandinformationtechnologydevelopment,thescaleofvideodataisgrowingrapidly,andtheissueofvideodataqualityispaidmoreand
dota重金属
扁蓿豆moreattention.Fornear duplicateandabnormalvideodata,thedetectiontechnologiesofthesetwotypesofdirtydatawillcontributetofindandsolvetheproblemofvideodataquality.Forthispurpose,byextendingtheconceptofvideodataquality,weanalyzedandsummarizedthevideodetectionmethodsandkeytechnologiesforthesetwotypesofdirtyvideodata.Fi nally,thedefectsofvideodetectiontechnologywerepointedout,andthefutureresearchtopicsandap plicationofvideodetectiontechnologyhavebeendiscussed.
Keywords:videodataquality;videodetection;dirtydata;near duplicatevideo;abnormalvideo
0 引 言
随着计算机技术的快速发展,涌现大量视频数据,并且数据规模还在快速增加。仅据2006年7月
YouTube公司对该视频数据的统计显示,每日有大约65000个视频数据上传到该网站,而2014年9月全美视频浏览次数高达460亿次。由此可见,视频对人们生活的影响,以及视频数据的规模和增长速度都是惊人的。然而,随着视频数据规模的增大,随之而来的大规模视频数据质量问题越来越突出。据Wu等[1]通过常用的3个视频搜索引擎进行测试分析发现,搜索结果中
收稿日期:2017-06-10 责任编辑:李克永
基金项目:国家自然科学基金(煤炭联合基金)(U1261114);陕西省教育厅专项科学研究项目(16JK1505);陕西省自然科学基础研究计划面上项目(2017JM6105)
通讯作者:叶鸥(1984-),男,陕西咸阳人,博士,讲师,E mail:oye0928@xust.edu.cn
博看网 . All Rights Reserved.
存在大量的重复视频数据。个别情况下,重复率甚至达到93%.这些重复视频数据严重影响了视频数据的整体质量,给视频数据的存储和管理带来了挑战。此外,重复视频数据还给版权保护、危险预防和视频安全监控等应用领域带来负面影响,可能给企业和个人造成重大的经济损失。由于这些视频
数据不易被发现,随着时间的推移,会进一步加剧视频数据整体质量的下降,由此造成的经济损失或潜在威胁也将进一步加大。因此,有必要检测影响视频数据质量的视频数据,为进一步清理和保证视频数据质量打下良好基础。
保安接线排目前,针对视频数据质量问题,已有的理论成果只注重视频检测的高效性或准确性,而忽视了检测的全面性,很少从视频数据质量的角度考虑视频检测方法对保证视频数据质量的有效性,也忽视了视频检测与视频数据质量之间的紧密关系,使得视频检测方法在实际应用中效果不明显。文中在扩展视频质量概念的基础上,总结和分析针对视频数据质量的视频检测方法及其关键技术,指出视频检测方法研究中的不足,并对视频检测技术进行展望。
1 视频数据质量与视频检测概述
对于“数据质量”(DataQuality)[2]而言,因数据概念的广义性,使得人们对数据质量的理解不尽相同,没有一个确切定义。但是,无论从哪个角度考虑,数据质量都应该满足以下条件:在整个数据的生命周期中必须通过数据约束等方式保证没有脏数据(DirtyData)的产生。如果因数据演化和集成过程等因素产生脏数据,则必须采用特定方法对这些脏数据进行检测和处理。由此可见,保证数据质量的根本途径是通过有效的检测方法发现并有待进一步对脏数据进行数据清洗[3]。
视频数据质量(VideoDataQualgity)是在数据质量概念的基础上,针对视频数据提出的数据质量(VideoQuality)概念,有狭义的视频数据质量和广义的视频数据质量之分。其中,狭义的视频数据质量指的是视频质量。视频质量是指量化一段视频通过视频传输/处理系统时画面质量变化(通常是下降)程度的方法。狭义的视频数据质量其实指的是单个视频数据自身的质量,主要将视频画面的清晰程度等指标作为衡量视频数据质量的标准。而广义的视频数据质量指的是视频数据集的
整体质量,它更加侧重于数据质量的评判标准,强调数据集合的一致性、正确性、最小性和完整性。
针对广义的视频数据质量问题,影响视频数据质量的主要因素是脏视频数据,如图1所示。脏视频数据本身是一种脏数据[4]。目前,视频数据中存在的脏视频数据类型主要分为3类:空视频数据、相似重复视频数据和异常视频数据。其中,空视频数据通常是由于视频格式转换失败等因素产生的。该类视频数据很少出现,容量很小。相比空视频数据,相似重复视频数据比较常见。它是指完全相同或者近似相同的视频数据。这类视频数据严重影响到视频数据质量。除此之外,异常视频数据也是一种脏视频数据,它是一种超出正常视频数据描述范围的错误视频数据。
!"#$%&'(
)*+,-./
0%&*
+123
45%
& 67
%&8!
"#$%
&*+
67%&'()%
&*+,-./
5%&'()%
&*+,-./
%&9:;<
=>'()%
&,-./
%&?@'()
%&,-./
AB'()%
&,-./
%&C D='(
)%&,-./
0%&'(
多分力传感器
)%&*+
,
-./
%&,
-./
E*+F)
%&*+,
-./
G*+F)
%&*+,
-./
%
&
*
+
,
-
.
/
HI)%&*+,-
JI)%&*+,-
图1 视频数据质量与脏视频之间的关系图
Fig.1 Relationshipbetweenvideo
dataqualityanddirtyvideo
目前,针对相似重复视频数据的检测,已经产生了很多理论成果,是研究的热点问题之一。除此之外,近几年,一些研究人员已经开始研究异常视频数据的检测问题,产生了一些理论成果。这些视频检测方法有助于自动发现隐藏在大量视频数据中的脏视频数据,为脏视频数据的清洗提供条件,有助于保障视频数据质量。
2 脏视频数据的检测技术
2.1 相似重复视频数据检测技术
由于对视频语义的描述会产生偏差,大量的相关研究主要集中在基于内容的相似重复视频检测方面。文中依据视频特征的选取类别将相似重复视频检测主要分为2类:基于全局特征和基于局部关键点的相似重复视频检测。
0
2
9 西安科技大学学报 2017年 博看网 . All Rights Reserved.
第6期叶 鸥等:视频数据质量与视频数据检测技术
2.1.1 基于全局特征的相似重复视频检测的关键技术
视频全局特征是一种可以反映整个视频图像特点的信息集合,主要包括颜特征、纹理特征、形状特征等图像特征。该类特征相对容易提取和计算,计算规模也相对较小。目前,基于全局特征的相似重复视频检测主要分为基于低层特征和基于全局视频签名的相似重复视频检测。
1)基于低层特征相似重复视频检测中的特征提取技术。
颜特征是常见的一种低层特征。目前,相似重复视频检测主要利用颜直方图[5]、颜集、颜矩[6]和颜聚合向量[7]进行颜特征提取与视频匹配。其中,颜直方图使用较为广泛。常用的颜直方图特征匹配方法主要包括直方图相交法、距离法、中心距法、参考颜表法等。颜直方图可以比较直观的表征图像的颜特征,使用简单。但对颜空间分布不同而具有相同或相似颜直方图的视频图像的区分效果不理想。颜集是将RGB颜空间转换为视觉均衡的HSV等类型的颜空间,并可对颜空间进行量化。颜集特征提取方法可解决颜直方图无法区分局部颜信息的问题,但对噪声、亮度比较敏感,且维度高,计算量大。颜矩是利用颜直方图的3个低阶矩表示图像颜特征。颜矩方法可降低描述颜特征的维度,减少颜集量化带来的大量计算,但无法判断图像的具体信息。颜聚合向量通过直方图中柄内像素所占连续区域面积与阈值的比较,将大于阈值的区域内像素作为聚合像素。颜聚合向量可用于解决颜矩和直方图无法表达图像彩空间位置的问题,但计算量较大。
纹理特征是纹理映射[8]和视频检测中常用的一种低层特征。它描述了图像区域中物体表面的特性。目前,常用的纹理特征提取与匹配方法主要包括:共生矩阵[9]、Tamura纹理特征[10]、自回归纹理模型、小波变换[11]等。其中,共生矩阵能够反映图像亮度分布特性,如方向、相邻间隔和变化幅度等信息。但是,由于所需参数较多,计算量相对较大。Tamura纹理特征可以很好的对应人类视觉感知,其中主要包括粗糙度、对比度和方向度等特性。但是,无法实现对于精细纹理的有效辨别。自回归纹理模型(SAR)可以表征纹理的粗糙度、方向性,具有旋转无关性。但是,该模型较难合理确定相邻像素集合的范围,影响纹理特征的表达。小波变换继承了短时傅里叶变换局部化的思想,同时又克服了窗口大小不随频率变化等缺点,是一种区域纹理特征提取方法。但是,该方法主要是基于二进制的小波变换,适应性受到限制。
形状特征是利用图像目标的形状度量视频图像的相似性并检测重复视频。常用的形状特征提取与匹配方法主要包括边界特征法、傅里叶形状描述法和几何参数法等。其中,Hough变化算法是典型的边界特征算法。它利用图像全局特性将边缘像素连接起来提取区域封闭的边界形状。该方法针对二维图像边缘检测效果较好,但是对于高维图像,耗时长,占用存储空间大。而傅里叶描述子通过提取二维平面上的每个边界点,通过傅里叶反变换重构边缘曲线形状。傅里叶描述子本身与图形边界尺度和起始点的选择有关。通过归一化处理后,可具有旋转、平移和尺度不变性。而几何参数法主要包括无关矩、区域面积和区域纵横比等算法。这些算法通过利用圆度、偏心率、面积等几何参数进行形状特
征的视频图像检索。但是,该算法的使用必须以图像分割为前提,参数的选择会直接影响形状特征提取的准确性。此外,还有形状不变矩等其它形状特征提取方法也可用于视频相似重复检测。
针对视频数据,空间关系特征也是一种重要的低层特征。目前,提取图像空间关系特征的2种主要方法是:①在提取视频图像区域特征的基础上,通过索引方式进行特征匹配与检索;②在将视频图像均分为若干块的基础上,通过索引方式进行特征匹配与相似重复视频检测。
由于视频数据的多样性与复杂性,通常情况下,任意一种低层特征都较难直接用于视频数据的相似性匹配和检测。因此,有研究人员提出结合不同种类低层特征进行视频重复检测。但是,这种简单低层特征的结合较难完全适用于具有复杂性的相似重复视频,并且未能考虑视频图像帧的时空特性,影响重复视频检测的准确性。
搅拌摩擦焊接
2)基于全局视频签名的相似重复视频检测的关键技术。
视频签名技术通过特定的签名产生算法可提高检测效率,增强低层特征的表征性。目前,视频签名的类型主要包括视频全局签名、视频帧局部
1
2
9
博看网 . All Rights Reserved.
签名、视频帧全局签名和时空签名。除视频帧局部签名是基于局部关键点的局部签名外,其他签名都是全局签名。去鱼鳞机
视频全局签名是表征整个视频数据的一种简单签名,主要分为边界关联系统签名、基于直方图的签名和聚类表征签名3类。其中,基于边界关联系统的签名提取方法主要通过主成分分析方法处理低层特征矩阵,并生成边界关联系统的签名。该签名可作为视频的全局签名,具有较强的鲁棒性。而基于直方图的签名提取方法主要包括累计直方图签名方法和基于直方图的参考视频签名方法。前者通过将视频关键帧中HSV颜直方图的颜特征累加到容器中,进而构造累加直方图的视频标签;后者结合直方图,采用2维PCA签名对参考视频帧和与之相对应的视频帧进行相似性计算,从而检测视频相似性。基于直方图的签名提取方法可以有效检测颜特征较为明显,并且视频质量较好的相似重复视频数据。但当视频质量参差不齐,颜特征较不明显时,使用该签名的检测效果会受到影响。聚类表征签名提取方法首先将每个视频序列都概括为数量较小的若干个聚类集合,每个聚类中都由相似视频帧组成。然后通过一个固定边界的超球面来描述聚类。并在此基础上,通过2个超球面间最小密度的交集来估计并度量聚类的相似性,以此作为衡量视频相似性的标准。该方法可以提高视频相似性度量的效率。
视频帧全局签名是表征视频帧的一种简单签名。目前,视频帧全局签名主要包括词袋签名和全局描述子签名。其中,词袋签名首先将所有关键点描述子进行聚类,并给每个聚类分配一个“视觉词语”,由此可构成视觉词表,即词袋,可作为视频帧签名,用于视频帧间的相似性度量。该方法具有较好的扩展性和准确度,可以保证检测的质量。而全局描述子签名是从局部关键点的时空信息中产生的一种视频帧全局签名,它是通过将高维局部关键点分散到给定深度的超矩形内形成的一种类似直方图的签名。
时空签名表征了视频数据的时空特征。基于时空签名的技术相对于其它基于全局的签名技术具有更好的不变性,并对于局部签名技术又有更高的效率,因此,时空签名提取技术已经在相似重复视频检测中越来越被人们关注。该签名集中于视频帧的变化和兴趣点的轨迹等变化情况。通过时空签名,可以从中发现视频数据的时空特性,也可能从中发掘视频的部分语义特征,这对于相似重复视频检测会起到重要作用。目前,已有的时空标签提取方法主要包括基于条件熵和局部二值模式的时空标签提取方法、时空后置滤波方法、视频距离轨迹方法、视频速写方法、镜头长度、颜转换和质心方法、基于局部描述子轨迹方法和视觉时态网络方法。时间-空间签名提取方法可在部分情况下用于相似重复视频检测。
最后,针对这3种全局视频签名的比较分析见表1.
表1 不同的全局视频签名方法对比表
Tab.1 Comparisonofdifferentglobalsignaturemethods
签名类型签名方法优点缺点
视频全局签名边界关联系统[1]、累积直方图[4]、基于
直方图的参考视频[12]、聚类表征[13]
签名数据量较小,存储、管理和检
测效率较高
忽略了图像细节,较难检测出具有
相似视频全局签名的不同视频数据
视频帧全局签名词袋法[14]、全局描述子[15]考虑视频图像局部信息,相对视频
全局签名检测准确度更高
忽略了视频帧的时序性,并且相对
视频全局签名匹配效率较低。
时间-空间签名基于CE和LBP的时空签名[16]、时空后
置滤波[17]、视频距离轨迹[1]、视频速写
方法[18]、镜头长度、颜转换和质心方
法[19]、基于局部描述子轨迹[20]
视频图像视角变换时,时空签名相
对视频全局签名具有更好的不变
性,而相对视频帧全局签名具有更
高的匹配效率
由于考虑到视频时序特征,因此,时
间-空间签名间相似性度量的计算
复杂度较高
2.1.2 基于局部关键点的相似重复视频检测的关键技术
基于局部关键点的相似重复视频检测采用视频帧局部签名的检测方法,主要包括视频关键帧提取、局部关键点特征检测、获取相似关键帧匹配对和视频相似性度量4个步骤。
其中,关键帧提取方法主要包括镜头边缘检测方法和关键帧选取方法2种
1)镜头边缘检测方法主要包括基于像素差方法[21]、基于直方图方法[22]、基于边缘的方法[21]和
2
2
9 西安科技大学学报 2017年 博看网 . All Rights Reserved.
第6期叶 鸥等:视频数据质量与视频数据检测技术
基于模型的方法[22]。其中,基于像素差的方法通过计算相邻视频帧对应位置的像素差度量视频
内容的不连续性。这种方法简单,但易受到噪声影响;基于直方图的方法将颜空间划分为多个离散的颜小区间,然后计算该小区间内的像素点个数,之后通过距离函数度量视频帧间的相似性。该方法注重全局分布,抗噪声能力强。但未考虑像素点位置,对运动变化不敏感。基于边缘的方法通过检测镜头转换时边缘的变化进行关键帧提取。该方法在边缘明显的情况下效果较好,但计算量较大。基于模型的方法利用镜头编辑的先验概率,对视频镜头转换建立数学模型,自顶向下对镜头切换进行检测。该方法可对镜头渐变的情况具有较好效果,但是建模较难。
2)关键帧选取方法主要包括帧平均法和直方图平均法。帧平均法通过计算镜头所有帧中某像素点位置的平均像素值,将与该点平均值最为接近的像素点对应的视频帧作为关键帧。而直方图平均法与帧平均法思路相似,采用直方图平均值作为参考[23]。
局部关键点检测是指对图像几何和光照变化具有不变性的局部特征点检测,主要方法包括SIFT算法[23]、PCA SIFT算法[24]和GLOH算子[25]。SIFT算法描述了图像特征灰度梯度的分布情况,具有良好的不变性和一定的稳定性。但是,算法维度较高,计算速度和存储压力较大。为此,提出PCA SIFT算法。在计算描述子时,通过特征点邻域进行采样,再用主成分分析模型进行降维,减少算法的计算量。GLOH算子是SIFT描述子的一种延伸,可增强SIFT算子的鲁棒性和独立性。目前,基于局部关键点的相似重复视频检测方法利用关键帧的颜等低层特征、上下文信息和减少局部关键点数量的方式提高检测速度。
在获取关键帧和局部关键点的基础上,需要获取局部关键点匹配对,主要包括M2O匹配算法[23]、OOS算法和LIP IS索引结构[26]等算法。其中,M2O局部关键点匹配算法可使SIFT匹配点数据减少,增加算法的稳定性。但是,由于要对所有关键点进行匹配操作,该算法的计算量很大。OOS局部关键点匹配算法也在查最相邻关键点的过程中,需要耗费大量的时间。而OOS结合LIP IS索引结构可以过滤掉一部分不需要匹配的关键点,提高匹配效率。
最后,需要通过相似性度量进行相似重复视频检测。目前,常用的主要方法包括基于局部关键点匹配对的相似性度量方法、PatternEntropy算法[27]和伸缩和旋转不变的模式熵匹配算法[28]。其中,基于局部关键点匹配对的相似性度量方法通过关键帧的关键点匹配对数与阈值的关系进行相似性度量,也可以采用平均相似度计算方法进行相似性度量。该方法计算简单,但计算结果易受到参数设置的影响。PatternEntropy算法在检测出关键帧的局部关键点匹配对的基础上,建立匹配线与横轴夹角的直方图,并使用PatternEntropy测量两直方图中共有信息。最后通过分散度En tropy来判断视频帧的相似性。该算法准确度较高,但对于旋转和伸缩变化的相似视频帧检测效果不理想。而伸缩和旋转不变的模式熵匹配算法是在PatternEntropy算法的一种改进算法。该方法通过计算两视频帧中每对局部关键点的匹配线的伸缩量和旋转量,并进行聚类。之后,通过通过差值判断关键帧的相似性。该方法使用mean shift算法进行局部关键点匹配线的聚类,降低了量化错误的影响。
总的来说,基于局部关键点的相似重复视频检测方法计算量较大,耗时较长,而基于全局特征的重复视频检测方法可以克服这一问题。但该方法由于对视频图像细节的考虑较少,检测的准确性难以保证。目前,针对不同类型的视频数据,宜采用不同的相似重复视频检测技术进行视频检测,以便获得较好的效果。具体分析描述见表2.从表2可知,针对低层特征的重复检测方法,适用于视频图像低层特征突出的情况。例如HSV模型通过H(调)、S(饱和度)或V(明度)分量特征将颜特征进行高维映射,在高维空间进行视频图像分类,类似的方法还包括颜直方图等方法。对于低层特征的提取效果容易受噪声、光线、角度等因素影响,因此,单一低层特征较难表征视频整体特征。而全局视频签名的检测方法是从视频图像全局视角出发,能够把握视频整体特征,考虑到视频数据中时序和空间顺序的对应关系,检测效率能够保证,例如基于轨迹和时空签名的方法。但是,对于细节的关注较少,因而准确性无法保证。基于局部关键点的检测方法与全局视频签名方法所关注方向相反,更多关注图像细节,因此,计算量较大,影响了整体算法的效率。
3
2
9
博看网 . All Rights Reserved.