视频指纹浅析

1、视频指纹简介

随着技术的飞速发展和万维网的广泛使用，人们可以轻松地在互联网上找到并上传大量的视频。网络上存在着大量的复制和剪辑转换的视频，其中一些可能被非法复制或传播播放，因此数据库和版权管理已成为当今的大问题。解决这些问题的方法主要有两种，一种是众所周知的水印，另一种是本文探讨的主题视频指纹。

水印依赖于在视频流中插入一个独特的模式，而复制检测技术匹配则基于内容的签名以检测视频的副本。基于内容的复制检测（CBCD）的主要论点是“媒体本身就是水印”，该媒体包含足够的独特信息，可用于检测副本。基于内容的复制检测方案从原始媒体中提取了少量相关特征，称之为视频的指纹或签名。从测试媒体流中提取相同的签名，并根据专用投票算法将其与原始媒体签名进行比较匹配，以确定测试流是否包含原始媒体的副本。

加水印的瓶颈在于，在传输过程中，随着视频格式的转换，插入的标记很可能会被破坏或失真，而基于内容的复制检测的视频签名提取可以在分发媒体之后完成。这就是为什么视频指纹识别技术吸引了越来越多的关注的原因，在本文中，我们将研究如何将其用于检测副本

在美国职业棒球大联盟的网站上，您必须支付高品质的照片，否则，您只能获取带有“水印”的高品质照片，或者得到模糊的照片。

2、视频检测面临的挑战

人们可以很容易地通过眼睛确定测试视频是否是数据库中视频的副本，而计算机则存在一些困难。视频剪辑可以根据目的以不同的格式编码，不同的格式可能会导致有几种失真，例如亮度变化，色相变化，饱和度变化以及图片中的空间变化。除了这些数字产物，有损编码过程还会引入伪像，例如MPEG中的分块效果。签名提取方法的种类取决于视频中的颜色和图像信息，例如直方图和颜色相干矢量，并且由于上面的伪像，可能会发生错误检测。

除了来自不同格式的失真外，还有其他种类的因素使复制检测变得困难，例如丢失帧，传输以及存储期间的噪声模糊是常见的失真。几乎无法检测到则是来自复制视频的重新构建，例如仅剪切电影的小部分内容，缩放或更改对比度，插入文字或徽标，更改原始视频的背景，甚至将多个视频片段组合成一个新的视频。一些情况如图2.1所示。

(a) The Full Monty 1997 (c) 20th Century Fox. (b) Source video: Alexandrie. 1978 (c)

(c) Source video: Samedi et Compagnie 1970 (c)ORTF.(d) Source video: Gala du Midem. G. Ulmer 1970 (c) INA

图2.1-一些严重失真情况的示例

图2.1中，（a）显示缩放情况，而（b）显示内部缩放和徽标。（c）将彩色视频更改为仅灰度级并在内部更改徽标，而（d）为更改背景

3、视频特征

基于内容的复制检测中最关键的部分是特征提取。指纹识别功能应该仔细选择，因为它们会直接影响整个系统的性能。视频指纹识别系统中，视频中有三种重要的品质可用于构建视频良好且健壮的指纹。

稳健性：从降级的视频中提取的指纹应该相似原始视频的指纹。
配对独立：在感官上不同的两个视频必须具有不同的指纹。
数据库搜索效率：指纹必须适合快速数据库搜索。

前面已经提出了许多用于视频指纹识别的特征，例如：颜色（亮度）直方图，平均亮度及其变体，主色等。但是在第2部分中，我们简要地指出，彩色或灰度图像不足以抵抗颜色或亮度变化。图3.1给出了一个示例，说明伽马校正和直方图均衡如何影响灰度直方图

(a) original Lena image (b)gamma correction (gamma=2.5) (c)histogram equalization

图3.1-256灰度级Lena图像的直方图比较

图3.1的直方图是256 bin，尽管这三个图像的亮度不同，但我们仍然可以看出它们内部具有相同的内容。但是从这三个直方图中，几乎很难识别出它们是来自内容相同的图像。

从此示例中，即使是相同内容的图像也可能具有完全不同的图像功能，通过对不同图像进行直方图均衡操作，就可能发生错误检测。让我们回到视频的内在质量上，有什么区别它和图像之间的不同？视频可以看作是图像流，通常一秒钟内包含超过24张图像（称为帧）。视频的一个重要特征是每帧之间的信息。特征可以分为三个维度。

颜色尺寸：此尺寸取决于颜色或灰度级属性帧数，例如直方图，色相，饱和度等.
空间维度：主要是提取每帧内的物体的颜色分布或排列，如空间域的序数签名和梯度方向的质心等，其核心思想是根据像素的位置对每帧内的每个像素进行不同的处理。
时间维度：每帧之间的变化或帧的顺序是这个维度的关键概念。

实验结果表明，在特征提取技术中利用的维度越多，其鲁棒性就越强。有序强度签名将每一帧分成9个块，并比较它们的平均强度，然后为每个块自动分配一个数字。该方法包含了颜色和空间两个维度，其匹配函数也具有时间维度的特性，在颜色直方图中占有绝对优势。为什么序数强度比运动检测性能更好，这是因为它使用的是相对分布，而不是精确的信息，这使得签名不受数字化/编码过程引入的视频质量的全局变化的影响。

但如果用这三种技术处理背景变化或商标插入时会发生什么呢？结果发现相当不可靠。主要原因是这三种方法在每帧中使用了称为全局特征的所有信息。更详细地说，0.8倍的视频缩放后，边缘会出现黑柱，严重时会导致直方图甚至平均强度的变化。

全局描述符：描述符只是指提取签名的方法。这里的关键字global表示这个类的签名来自于整个图像。
局部描述符：签名只利用了整个图像的一部分。

在更改背景或徽标时使用局部描述符的插入结果比使用全局描述符要好得多。局部描述符的含义是它们只关注某些兴趣点，而不是整个图像，所以即使已经改变了占据较大空间的背景，只要签名是仅利用关键点的信息，我们仍然可以检测到副本。

图3.2-相似性/副本

局部描述符的这一关键属性也可以用来解决另一个大问题，基于内容的视频检索（CBVR）。一个关键的困难来自于拷贝和CBVR中遇到的相似图像概念之间的根本区别：拷贝不是一个完全相同或接近复制的视频序列，而是一个经过变换的视频序列。这些光度或几何转换（gamma和对比度变换、叠加、偏移等）可以极大地修改信号。从图3.2中，我们可以看出为什么CBCD和CBVR之间的识别如此重要。使用全局特征可能会将图3.2（a）检测为相同的视频，但将图3.2（b）检测为不同的视频，但是将关键点设置在运动对象上（图3.2中为投手）和歌手），它更有可能做出正确的检测。

4、提取签名的算法

我们可以将此处的操作分为三个不同的步骤：边界/场景分离，关键帧提取和签名提取。

4.1 边界/场景分离

此步骤着重于检测场景的边界。基于场景签名的方法有很多种，原因是场景中的帧都是类似或相关的，并且拷贝剪辑可能只是一个场景剪辑。一个场景在电影中可以被看作是一个事件，而另一个术语shot是指来自同一个摄像机或同一个角度的帧，计算机很难区分这两种情况。一般而言，直方图或颜色属性在场景边界上变化很大，而有时这些属性在镜头边界也会发生很大的变化。场景边界检测的基本方法是直方图变化的测量，但在电影中，一些场景边界的处理很少，直方图变化缓慢，甚至场景都能包含一些尖锐的直方图变化点，这都使得场景边界检测困难。一个有效的算法对我们来说太复杂，无法生成，所以在实验中，我们只使用一个在线发现的软件来进行场景分离。

4.2 关键帧提取

我们已经知道，关键帧对于各种技术都是必要的，现在让我们更多地讨论一下这些技术的性质和提取技术。视频的关键帧是指能够表示视频快照或场景的突出内容的帧。关键帧为视频索引、浏览和检索提供了一个合适的抽象。关键帧的提取将整个视频段映射到一小部分代表性图像集合，并且应是自动的和基于内容的，以便它们能够在避免冗余的同时保持视频的显著内容。

大量关键帧应能清楚地描述视频，并且期望从原始视频及其副本中提取相同的关键帧。为了解决丢帧的情况，我们假设即使选择的关键帧也丢失了，也有可能选择周围相似内容的帧并保持检测精度；而没有关键帧的技术很难解决这个问题。

当前的关键帧提取技术可以根据它们对视频镜头或序列的视觉内容复杂度的各种度量进行分类。

4.3 特征提取

这是视频指纹识别的核心。特征提取方法的选择会直接影响复制检测性能。在这里，我将仅说明在视频中使用信息来构造视频指纹的想法，而不是介绍提议的技术。由于该技术的发展，已经被用来解决现有的视频变换或攻击，因此很难清楚地解释什么样的特征适合构建视频指纹。创建新的攻击时，以前提出的技术可能无法处理它。因此，需要一种新的技术。但视频信息的基本用途值得讨论，现在我将回到三个基本维度，颜色、空间和时间：

颜色: 最简单的是像素值。直方图不会考虑像素值来自何处，而只是一个统计案例，还有类似的方法，例如色调、饱和度，甚至计算帧的平均值和方差。改进后的方法引入了分块的概念，即将一帧分为若干块并存储起来以显示位置信息。

视频指纹有一个有趣的观点，那就是一帧信息的排列是必要的，或者我们可以说它需要映射到一个新的空间。与使用YCbCr直方图一样，一种方法在保持关系的同时，为每个分量提供5个箱子，从而最终创建一个三维空间；另一种方法是分离的情况，将一个像素映射为三个直方图。所谓的颜色属性是图像的本质，但很明显，直方图可以映射到不同的图像，这将是一场灾难

空间: 深入到颜色属性，这个属性包括像素之间的关系。

利用空间信息的最简单方法之一是阻塞。对于每个块，不仅直方图是可用的，还可以将其映射到特定的颜色空间并使用3种颜色作为符号。而对于直方图，赋予块中心附近的像素更高的权重是另一种引入空间信息的方法。包含的空间信息越多，方法越有效。例如，对图像进行分块并计算平均灰度，直方图记录比按分块位置顺序记录差。

除了分块之外，像素周围的梯度是获取空间信息的另一种方法，这种计算可以在每个像素上执行，也可以只在每个小尺寸块的中心像素上执行。同样，在存储期间，将数据存储为直方图（小内存存储）或序列将影响性能。在[3]中，计算每个块中每个像素的梯度，并使用幅度部分对方向进行加权。最后对每个块达到一个类重心量，帧签名是一个向量，每个元素的块量按顺序排列。

局部描述符利用空间信息，而如何处理每个描述符之间的关系则是一个复杂的问题。例如，如何通过局部描述符知道一幅图像只是另一幅图像的旋转版本，这确实是一个困难的问题。梯度或点之间的信息经常被用来描述感兴趣的点，这意味着不仅要记录位置，还要记录环境。

弱的空间信息只是通过分块来获取，而强的空间信息是利用点之间的关系，甚至将这两种方法结合起来。在这里，计算机视觉或物体识别技术可以用来提高性能。所有的图像识别和识别技术都是值得尝试的空间信息开发技术，而计算时间和数据存储是值得考虑的。

时间: 图像与视频的区别，是讨论视频指纹的核心。一种简单的方法是计算差分图像，但两帧之间对应像素的差异不能有针对性地表示两帧之间的差异。另一个简单的方法是得到每一帧一个向量，然后一个视频被记录为一个向量序列。更强大的方法使用运动矢量[1]，就像在视频压缩中使用的一样，对于帧差来说，它更具符号性。其他方法计算空间和时间维度的梯度[4]，用于描述兴趣点。

具有关键帧的技术似乎只利用多个帧的特征，而关键帧本身包含了时间信息。关键帧是时间轴上的重要位置，关键帧提取技术可以提高视频的可分辨性。关键帧提取有点像预测，它的技术是自定义的，并根据其性能进行评估。

使用帧提取的一个简单方法是记录每个镜头边界之间的时间周期和每个边界的时间位置。这些边界的内容毫无价值（通常是黑色图像），因此只有时间信息才是可靠的。对于短视频，很可能会得到两个不同视频之间相同时间段的镜头边界序列，这就是为什么这种方法用于匹配整个电影。

其他概念:

(1) 更多维度（颜色，空间，时间），更强大.

(2) 局部描述符比全局描述符要强，尤其是在徽标和单词插入方面.

(3) 有序记录优于实际值记录.

(4) 最好通过某些算法记录图像的方向，以应对图像旋转

5、最终决策

最终决策是视频匹配和拷贝检测的最后一步，由搜索、投票算法（匹配函数）和阈值组成。搜索是指在数据库中找到一些可能包含与测试片段内容相同的候选视频，投票功能是决定哪一个是最佳匹配，最后将结果与阈值进行比较，确定测试片段是否为拷贝。

介绍一个关于签名存储的概念。首先，应该区分两个术语：存储和注册。存储是将信息整理成一定的形式；注册是在匹配步骤中，对数据库中的候选对象进行索引，索引内容包括时间、空间位置和变化。

签名提取步骤中，利用、排列、变换图像的信息，使图像在可识别描述的同时紧凑，并且存储该描述以用于将来的拷贝检测。对于全局描述，存储的签名是一种排列的表单，这意味着很难从签名中分辨出原始视频的外观；而对于局部描述，可能是不同的情况。局部描述方法将帧的兴趣点信息整理成直方图形式，但一些方法仍然记录了特征提取步骤末尾的兴趣点位置。

对于不同的存储情况（排列与否），最终的决策步骤是不同的。在搜索步骤中，对于排列的签名（特别是全局描述），搜索结果是多个具有时间位置的候选视频，而对于非排列的签名（兴趣点），每个点描述符在数据库中都有多个候选点，使得决策步骤复杂化

6、总结

网上可以找到的图像和视频已经有数千张，为了进行图像识别，一幅图像与多幅图像匹配，因此需要详细描述；而视频拷贝检测可以看作是多对多，其中帧序列与多个帧序列进行比较。而视频不可能由随机选取的图像组成，因此帧与帧之间的关系是视频拷贝检测的重要关键。为了更好地利用它，可以大大降低每帧的计算成本。

一般来说，视频指纹可以从所有帧（基于序列的）或关键帧中提取，并且在紧凑性和准确性之间进行折衷的概念是必要的。基于序列的提取首先从每帧中提取特征，然后将这些特征组合成一个向量序列（这里我称一个帧特征为向量），或者组合成一个向量。单个向量的优点是简单、快速的匹配，而放弃了每帧间的关系和顺序，保留了向量序列。基于关键帧的方法似乎失去了每帧间的相关性，而这种相关性已经在关键帧提取过程中得到了应用，关键帧间的顺序也可能是重要的信息。有趣的是，基于关键帧的CBCD的帧特征提取技术也可以用于基于序列的CBCD的帧，反之亦然。由于只需要计算和记录关键帧的特征，因此通常关键帧的处理技术比较复杂，从而提高了关键帧的处理成本。

作者：梁富林

来源：青榴实验室—超高清音视频技术的传播者