基于视频指纹技术的媒资关联性分析与应用

利用视频指纹技术，能够准确、高效地实现媒资内容的关联性比对。本文介绍了视频指纹的提取、建库、比对和判断等环节的技术实现原理，分析了视频指纹技术在内容查重、版本关联、侵权监测和媒资使用分析等实际业务场景中的具体应用，并提出了相关策略与算法优化思路。

作者：中央广播电视总台骆京
来源：选自2022年第11期《现代电视技术》

目前，广播电视内容资源实现集中化、数字化管理已成为业内常态。通过对传统介质进行规模化的数据转储，以及对播出节目和拍摄素材进行多版本的收集入库，包括对在各个新媒体平台发布内容的存档管理，各个广电单位的媒资系统中都积累了数量庞大、类型繁杂的视音频数据文件。

在海量的库存数据中，会普遍存在内容相似、版本相关或素材相同的内容关联关系，而梳理清楚媒资内容之间的关联关系，将是未来媒资系统实现科学化、精细化、智能化管理的必然要求。因此，需要研究一种视音频内容对比分析方法，来准确、高效地实现媒资数据之间的关联性分析。

传统的视音频内容比对方法有两种，一是基于内容元数据信息，并结合人工浏览内容画面，来判断待比对内容之间是否存在关联。由于人工比对视音频内容的工效较低，导致这种方法的召回率不理想。二是基于视音频数据文件的哈希值进行比对。这种方式计算速度快，准确率高。

但基于传统哈希算法的数据比对，只有在两份文件完全相同时才有效，而在媒资管理实际业务场景中，同一份视频内容往往会存在不同的视频编码和过程版本，虽然肉眼难以察觉这种不同，但文件数据即使存在极微小的差别，其哈希值也会完全不同，从而导致感官上完全一致的视频片段得出完全错误的关联关系判断。因此，基于传统哈希算法的数据比对，并不能完全适用于媒资内容的关联性分析。

视频指纹技术的出现，使得准确、高效地实现媒资内容的关联性分析成为可能。视频指纹技术忽略了视音频文件的数据属性，而是提取视频关键帧中的画面对象特征、相互关系和位移趋势，以及音频语义、声纹等感官特征，结合时间序列生成的一组基于视频画面内容的特征值，也就是视频指纹数据。感知上不同的视频画面会计算生成不同的指纹数据，而画面存在相似性的视频，其指纹数据也会存在一定的相关性。因此，可以基于视频指纹数据的相关性匹配，实现媒资内容之间的关联比对分析。

一、技术实现原理

利用视频指纹技术对媒资内容数据进行关联性比对，可以通过以下环节来完成。

1. 生成视频指纹

首先，对目标视频进行解码抽帧，得到该视频的抽帧图像序列。根据不同应用场景，可自定义设置不同的视频抽帧策略。比较简便快速的方式是基于自定义帧率自动进行抽帧。还可以利用基于清晰度过渡、直方图计算或特征指标转换等方式的镜头检测算法，对目标视频进行智能化分析，自动提取视频中的关键帧，并将其与抽帧时码信息对齐，即可获取目标视频的关键帧图像序列。

其次，对图像序列进行逐帧计算，得到该视频的特征值序列。采用预训练的深度神经网络提取图像特征是现阶段视频指纹技术的主要实现方式，VGG和ResNet是其中具有代表性的网络结构。它基于大规模图像数据集训练生成神经网络，利用网络逐帧对图像序列进行多层次非线性变换计算，在自动剔除对象背景颜色和绝对位置等次要特征后，再分层检测主要对象的形状边缘、运动方向、相对位移等关键特征，并对其进行多次局部特征提取和组合之后，最终生成这帧图片所对应的唯一特征值数据。之后，逐帧对图像序列中的每一张图片提取特征值数据，从而获取该视频的特征值序列。

最后，将目标视频的特征值序列与抽帧时码信息相结合，就能形成一个基于该视频的图像语义和时间顺序的数值序列，编码转换后即可生成待比对视频的视频指纹。

2. 建立视频指纹库

按照上述视频指纹生成方法，提取全部待比对库存视频的视频指纹，建立视频指纹数据库。视频指纹库是待比对库存视频的特征值数据索引，相比于原视频存储容量，视频指纹数据容量极小，在大幅提高视频内容比对速率的同时，也大幅降低了系统对存储硬件的需求。此外，仅基于视频指纹数据无法逆向还原得到原始视频，一定程度上保证了原始视频内容的安全性。

3. 视频指纹比对与结果判断

在计算得到待比对的目标视频指纹，并建立起库存视频指纹数据库之后，即可按照自定义的比对策略，将目标视频指纹数据在库存视频指纹库中进行检索比对。比对过程无需依赖原始视频的内容信息，仅需对视频指纹数据进行数值比对和分析。不同于人脸识别、物体识别或文字识别等基于静态目标图像进行识别的方式，视频比对是将动态的视频片段在库中进行相关性匹配。

因此，基于视频指纹数据中的抽帧时码信息，视频指纹比对的过程通常是一个按时间序列线性滑动逐帧比对特征值数据的过程。完成指纹比对后，即可计算目标视频与在库视频的相似度，再根据自定义设置的相似度阈值（置信度），来判断在库视频中，是否存在与目标视频相同或相似的内容片段，并输出相关联视频的数据列表。目前，在目标视频时长不低于6秒的情况下，其指纹比对的准确率能达到90%以上。

二、技术应用优化

基于视频指纹技术的媒资关联性比对，在应对媒资管理业务中更加庞大的数据处理量、更加繁杂的内容类型和更加复杂的应用场景时，可以在建库策略、指纹生成与比对算法、特征值共享等方面进行技术应用优化。

1. 建库策略优化

视频指纹库是开展全库视频关联性分析的数据基础，由于库存媒资数据量往往较大，计算生成所有库存视频指纹的总耗时较长，因此，初期可采用分类建库、多节点并行计算、闲时自动处理等多种方式，在不影响媒资管理常态化工作的前提下，逐步建立全库视频指纹数据库，并在媒资入库阶段，实时完成新增库存视频的指纹提取和添加入库。

视频指纹生成算法应有良好的兼容性，不能由于算法升级等原因，导致已生成的视频指纹须多次重复提取。

2. 指纹生成与比对算法优化

在不同业务场景下，媒资关联性比对在时效性、准确率和召回率等方面的需求也不尽相同。可通过优化视频指纹生成与比对算法，来满足不同的应用需求。

提高指纹生成所用的神经网络深度，在一定程度上有助于提升网络的计算性能，增加网络层数能够使模型获得相对复杂的功能，但若层次过度深入，网络精度会趋于饱和甚至开始降低。因此，需要结合不同应用场景，有针对性地训练生成能够平衡计算精确性和高效能的神经网络。

视频核心语义往往在图像中央，因此，在指纹提取阶段，可加强图像中央区域的特征值提取权重，同时适当降低图像边缘区域提取权重。还可选择性忽略成片中的片头片尾，不对其进行指纹提取与比对。通过合理设置不同类型视频的空间和时间特征值提取精度，从而达到算法效率和准确率的平衡。

按照不同应用需求，可选用不同的特征值提取方法进行辅助，例如，基于颜色特征提取，能够快速根据图像颜色直方图的计算转换形成特征值；基于时空特征提取，能够按照时间顺序对视频画面的全局或局部变化进行分析。此外，仅提取视音频文件中的音频指纹进行比对，或在抽帧提取特征值时降低抽帧率，也能在牺牲一定的比对准确率和召回率的情况下，获得更快的计算速度。

3. 特征值共享

在广播电视和网络视听行业中，已广泛开展了一系列基于人脸识别、物体识别、场景识别等智能化内容识别技术的应用实践，这些智能化内容识别技术与视频指纹技术在实现原理上存在一定的相关性，比如针对视频抽帧图像的特征值提取，以及针对待比对/待识别内容预先建立特征值数据库。而面向海量的库存内容建立特征值库需要消耗大量的时间和计算成本，可以尝试针对视频指纹算法和智能化内容识别算法能否实现一定程度的特征值数据共享这一问题进行可行性研究，从而避免基于同一视频内容使用不同算法重复进行特征值提取和建库。

三、业务应用场景

基于视频指纹技术进行内容关联性分析，在媒资管理的全流程业务场景中有广泛的应用，包括内容查重、版本关联、侵权监测、媒资使用分析、以视频搜视频等。

1. 内容查重

在入库阶段，可实时提取待入库媒资内容的指纹数据，在预先建立起的已入库媒资视频指纹数据库中进行比对，实现即时的入库内容查重，避免重复入库。

2. 版本关联

在元数据信息缺失或不规范的情况下，可辅助人工实现媒资数据的多版本关联。利用视频指纹技术，能够在库存内容中查找出画面相同或相似的视频片段，再由人工来对其进行内容分析和版本关联，按照“播出节目—编辑版资料—原始拍摄素材—历史资料素材—其他相关节目”的关联关系，形成清晰、有序的媒资库存数据索引，进而提供更加全面、多元的资料保障服务。

3. 侵权检测

基于视频数据属性的传统侵权检测技术，在应对版权内容被非法篡改或翻录等情况时，难以保证系统鲁棒性。利用视频指纹技术，能够基于视频内容属性，准确判断待审查视频是否侵权，并定位侵权内容在版权视频中的时码位置。尤其是针对翻拍、转码、剪裁、调色、变速、去水印或片段盗用等多种侵权方式，基于视频指纹技术的侵权检测在计算效率、准确率和召回率等方面能够达到较好的平衡。

4. 媒资使用分析

通常来说，为节目制作所下载的大量资料中，往往仅有一部分内容在播出成片中实际使用。针对下载资料在成片中的使用情况进行统计和分析，能够更加准确、全面、客观地评估库存资料的实际利用价值。

目前，媒资管理者能够比较便捷地依靠系统来统计和分析库存资料的下载情况，但却难以准确地获取资料的实际使用相关情况，例如：资料实际使用率（成片中使用的资料时长/为该片制作所下载的资料总时长）、某节目的资料成片比（成片中使用的资料时长/成片总时长）、素材使用统计（某段素材被哪些成片使用并播出过）等。

利用视频指纹技术，能够自动完成1:1、1:N或N:N的内容关联性比对分析，并输出相同或相似内容的片段时长，进而根据不同业务场景，计算得出各类型的内容相关性比例。视频指纹技术能够关注图像核心语义，忽略图像中的次要元素，例如字幕、标识、水印等包装信息，因此，在应对各类重制作剪辑手段方面，也有很好的鲁棒性。基于视频指纹技术的资料实际使用情况分析，能够为评估节目原创性、激励优质素材创作者、挖掘内容资源潜在价值、提升媒资服务精细化水平等方面提供科学、有力的数据支持。

四、结语

目前，视频指纹技术仍处于快速发展阶段，基于深度神经网络的视频指纹提取与比对算法也在不断迭代更新。利用视频指纹技术进行内容智能比对，将有效辅助人工对媒资数据之间的关联关系进行全面、准确的判断。之后，还需重点针对海量的待比对库存内容、更多类型视频编辑处理手段，以及与相关智能化识别应用共享特征值数据等方面，对相关算法和策略持续地进行研究和优化，不断提升视频指纹提取和比对的计算效能，努力推动实现视频指纹技术在媒资管理行业中面向复杂场景、处理复杂问题的成功应用。