视频质量评测方案

一、引言

随着手机硬件的升级和带宽的提高，视频逐渐代替图片成为最广泛的传播形式，视频流量在整个互联网流量的占比每年都在高速增长，基于实时视频的社交、一对多的长短视频直播和播放以及在线电影电视视频的观看等应用井喷式出现，除此之外，社交媒体、远程医疗、远程教育、智能监控等各种产品都涉及到视频的传输。随着视频播出平台的数量和质量逐步增加，商家和观众已不满足现有的普通视频，对超高清视频的需求越来越大。

目前海外与国内的2K/4K电视与手机已普及，但高清、超高清视频内容未能及时跟上，且内容呈现存在视频影像模糊、颜色暗淡、拖尾等，无法给观众带来高质量的内容视觉体验。尤其是影视作品中的一些经典老片，因为拍摄年代设备与技术受限，影片质量十分影响人们观看体验。因此，提高现有存量视频尤其是经典老片的质量，二次创作更丰富的4K/8K超高清内容，是必然需求。同时，技术上需要降低超高清视频存储成本和数据传输通道的负载，不断更新迭代视频压缩算法，提出更高的标准。这一过程中，视频质量评价（Video Quality Assessment，VQA）发挥关键的作用，必不可少。

视频质量评价主要从用户角度出发，评价用户在观看视频的过程中的整体感受，包括视频内容清晰度及视频观看流畅度等。视频质量评价的方式，一种是直接通过用户主观的定量的评价，另一种是通过计算机的数据模型来模拟人类视觉系统自动感知图像质量，从而给出被测试视频的定量的评价。

视频质量评价的主要目标是通过多方位数据指标，精确寻找视频质量的弱点，为提升视频画质指明方向。中国影视作品中，有许多可待修复的经典老片，这些影片虽然拍摄年代久远，但是有持久的艺术生命力，吸引老中青群体集体怀旧，也是向世界展示中华文化的高艺术形式。然而这些影片的片源质量无法满足当下用户的体验层次，受限于拍摄年代的技术，经典影视剧的画质大多在720p-1080p之间，无法满足电影级和广播级4K超高清的标准。通过现代化的技术手段修复、提升经典老片的质量，让其在当今电影市场可以占据一席之地，助力经典老片出海，讲好“中国故事”。视频质量评价起到关键的保障作用。

老片修复的技术标准存在三个等级：电影级、广播级、标准级。其技术实现方式和投入成本各不相同，如下表1所示。

图2 电影级修复前后对比

二、行业通用做法

视频质量评价（VQA：Vedio Quality Assesment）广义上贯穿成像、编辑、编/转/解码、渲染、显示等整个视频技术链条。其组成主要分为主观评测与客观评测两个部分，以主观评测为基础指标，以客观评测为重要参考指标。

主观评测主要通过人类肉眼观察的手段来评分，一般采用平均主观得分法（Mean Opinion Score，MOS）。就是选择一批受测者，让他们在一个特定的受控环境中，连续观看一系列的测试序列大约10至30分钟，然后让他们对视频序列的质量进行评分，最后求得平均分(Mean Opinion Score， MOS)。特定受控的测试环境中，受控因素包括：观看距离、观测环境、测试序列的选择、序列的显示时间间隔等。主观评测方法有双刺激损伤量表法（DSIS）、双刺激连续质量量表法（DSCQS），单刺激法（SS）、单刺激连续质量评价（SSCQE）法。

图5 MOS评测方法流程主观评测方法

可以说是最能体现用户对视频质量感受的方法，也是其它客观评价方法的终极目标。但主观评测方法极端耗费人力和时间，是无法直接在工业领域应用的。因为主观评测需要特定的环境，比如：视距和屏幕高度比、分辨率、亮度、视野角度范围等，甚至需要专业的观影测评实验室空间。主观评价的通用观看条件有两种，分别是实验室观看环境，旨在提供对系统进行检验的严格条件，以及家庭观看环境，旨在为消费者一侧提供消费级的主观质量评测的手段。两种环境的观看条件如表3所示。

实验室观看环境	家庭观看环境
未激活屏幕亮度与峰值亮度之比：≤ 0.02；	未激活屏幕亮度与峰值亮度之比：≤ 0.02；
显示器亮度和对比度：通过PLUGE建立	显示器亮度和对比度：通过PLUGE建立；
相对于标称值的最大观察角度：30°；	相对于标称值的最大观察角度：30°；
图像监视器后的背景亮度与图像峰值亮度之比：≈ 0.15；	峰值亮度：200 cd/m2
背景色度：D65；	16:9的图像宽高比的屏幕尺寸应满足PVD规则；
房间的其他照明：低；	屏幕上的环境照度(由周围环境在屏幕上形成的入射光，应在屏幕的垂直方向测量)不低于200 lux（lux为光照度单位，即被光均匀照射的物体，在1平方米面积上得到的光通量为1lux）。
当测试中评估的系统使用下变换的图形格式时，例如CIF、SIF或QCIF等，应在显示屏的一个窗口上显示片段。屏幕上背景的颜色应为50%的灰色。	当测试中评估的系统使用下变换的图形格式时，例如CIF、SIF 或QCIF 等，应在显示屏的一个窗口上显示片段。屏幕上背景的颜色应为50%的灰色。

表3 实验室观看环境与家庭观看环境条件

客观评测是利用特定的评估模型来自动计算视频质量指标，与主观评测相比，客观评测具有速度快、费用低、自动实现、自动实时监控等优点。从对参考视频的依赖上，客观评价指标分为全参考方法（Full Reference, FR）、部分参考方法（Reduced Reference，RR）和无参考（No Reference，NR）方法三类评价方法，这三类方法的准确度和适用场合均大有不同。全参考方法需要提供一个无失真的原始图像，经过对二者的比对得到一个对失真图像的评价结果。部分参考方法是指参考的不是原视频，而是原视频中的某些特征。通过分析原始视频和受损视频的特征信息的损耗程度，反映视频的质量受损程度。而无参考方法则不借助任何参考图像的信息, 独立完成对图像质量的评价。

（一）全/半参考方法

全/半参考方法主要包括峰值信噪比（Peak signal to noise ratio，PSNR）、结构相似性指数（Structural Similarity Index，SSIM）和视频多方法评估融合（Video Multimethod Assessment Fusion，VMAF）等。

1．PSNR，即峰值信噪比，是峰值信号的能量与噪声的平均能量之比。PSNR是最普遍、最广泛使用的评鉴画质的客观量测法，虽然和人眼看到的视觉品质不完全一致，但目前仍作为对照其他指标的基线。人们一般使用该指标来衡量被压缩后的视频的失真程度，值越大越好，一般取值范围：20-40。PSNR的优点是计算复杂度低，但其局限性是和主观评价有一定差距，并且计算需要原片源片作为参考，无源片无法计算；

2．SSIM，即结构相似性指数，是从亮度、对比度与结构来对两幅图像的相似性进行评估。在实现上，亮度用均值表示，对比度用均值归一化的方差表示，结构用相关系数即统计意义上的协方差与方差乘积比值来表示。SSIM应用于局部可抵抗失真程度突变，效果更好。实际是对各种局部窗口的SSIM做平均，并用高斯加权函数对每个局部的统计值进行加权防止出现块效应。但是该算法的局限性也是需要原片源片作为参考，否则无法计算；

3．VMAF，即视频多方法评估融合，本质上是模拟人眼评价的主观结果。VMAF算法相对于前两个算法更贴近于人眼视觉的视频评价标准，可以提供更接近于用户的主观评价。它将人类视觉建模和机器学习结合，模拟人眼给出的客观评分（5分制），优点是采用大量的主观评价数据集作为训练集，可自定义训练算法和模型，从而构建符合自主业务需求的质量评价标准，且可无限接近人眼主观感受。缺点是不同分辨率、不同视距和类型的视频评测得分不能直接比较，需换算处理。目前，领先的互联网和音视频头部企业包括奈飞、声网等。奈飞为了更贴近真实的数据特征，建立了 Agora-VQA Dataset（专用的视频评测数据集），这是业内首个可运行于移动设备端的基于深度学习的视频主观体验 MOS 评估模型。该评估模型解除了传统主观画质评估对人力的高度依赖，从而极大提高视频画质评估的效率，使线上视频质量的实时评估成为可能。VMAF在奈飞的整个生产流程中，不仅可以测量编码过程的结果，还可以指导编码达到最佳质量。奈飞一直致力于根据市场需求不断优化提升其VMAF的执行速度以及预测精度。而声网的VMAF智能评价模型则针对实时互动场景做了专门的训练，有其独特的创新性。

（二）无参考方法

由于近些年互联网视频的爆发增长以及其参考源难以获取的特性，无参考的质量评价方法逐渐成为近些年来的研究热点，无参考方法无需原始视频信息，直接根据待评价视频的信息评价视频质量，具有更好的灵活性和通用性，以及更广泛的应用价值。目前，无参考方法主要包括深度学习、无参考图像空间质量评估器（Blind/Referenceless Image Spatial Quality Evaluator，BRISQUE)等，内核是依赖人工智能技术。

1．基于深度学习的方法：主要通过构建深度神经网络，学习图像的视觉特征以构建图像质量评价模型，或直接通过端到端来学习失真图像到图像视觉质量的函数表达。

2．无参考图像空间质量评估器（BRISQUE）方法：是一个经典的利用NSS进行NR-IQA的模型。它不需要对图像进行频域分解，仅仅使用简单的归一化过程，就使得数据呈现有规律的分布。模型简单且高效，可扩展性强，计算的复杂度较低。

三、咪咕公司作法

咪咕一直在内容修复领域中布局发力，致力于形成符合咪咕业务需求的、跨媒介的、能反应用户主观意识的综合性质量评价体系。基于行业内对视频质量评价的研究，咪咕设计了一套自有的内容修复质量评价体系，其目标主体是经典老电影和电视剧集，目的是为代表中华文化的经典老片二次创作（修复）后的质量进行评价。

（一）咪咕的质量评测体系

咪咕内容修复质量评价体系的宗旨是实现多类型通用的、能反映最终用户主观意识的综合性评估手段。针对电影、广播、标准等不同等级的修复，咪咕制定不同的评测标准，采用相同的评测方法。随着对视频质量标准的提高，其技术实现难度和投入成本也各不相同。咪咕内容修复质量评价手段包括客观评价（VMAF、SSIM、PSNR、深度学习）和主观评价（MOS），且根据自身特点自主研发了相应的工具。其修复的媒资类型主要包括音频、视频、图像。

图7 咪咕老片修复质量评测技术体系

（二）咪咕质量评测方法

根据上述测评体系的设计，设计相应的测评指标。咪咕老片修复评测方法分为基础参数指标、VMAF智能综合测评分和用户主观测评分，自主研发对应的测评工具。

1.咪咕老片修复的基础参数指标参考奈飞（Netflix）的4K超高清标准，指标范围涵盖视频的封装格式、编码格式、幅型比、分辨率、码率、帧率、扫描模式、位深、色域、YUV、转换曲线、HDR方案、显示峰值亮度、声道、音频采样率、音频编码格式等。对标的奈飞的4K超高清参数标准如下表4所示。

目前，除了自主开发的基础参数测评工具外，咪咕也使用TekMos做基础参数的测评。TekMos是行业知名的综合性测评工具平台，可以辅助进行视频质量的主客观测评。

2.咪咕修复质量评测体系中考虑到自建VMAF评测。将咪咕自有的存量经典老片，提取特征信息，构建特征信息库，结合积累的大量的、多维度的主观测评结果数据，作为训练集和测试集。在获得训练数据后，构建4K超高清模型，主要依循视频质量逼真度、详细损失测量和时态信息三个指标，通过对比奈飞等业界头部公司的4K超高清片源做验证，形成咪咕自主的VMAF综合客观评价工具。

3.最后，通过专家组评测，对视频质量进行人工打分。结合前面两步的测评结果，给出最终的测结论。咪咕根据行业标准，自主建设了MOS主观评测实验室，可组织用户组评委（10~15人）在其中进行视频主观评测，其主观评测指标分为画质质量和全景声质量，数值为5分制。咪咕的主观评测方法（MOS）将修复后的视频作为验证目标，以10~15s的时间跨度抽取视频片段作为样本。对同一批的样本，总时长控制在30分钟内，以免评测者视觉疲劳，影响最终效果。主观打分的评测者进入专门的主观评测实验室，在特定环境下，反馈和打分。获取评分结果后，再进行数据过滤，筛选掉评分偏差较大的结果，选择打分一致性最高的作为最终结果。同时，这些人为评测数据，也会作为新的训练数据集，输入到VMAF的模型中，助力其迭代优化。

四、咪咕现有成果

目前，咪咕已搭建适应自身业务需求的源介质评估标准和验收评测标准，保障内容转制成功率超过95%，且已经成功修复不同画质级的老片。4K广播级修复能力主要利用基于AI算法的超分、HDR、插帧、去噪去划痕、去抖动、AI上色等视频增强技术，改善总体观看体验。如下是广播级修复的一些案例效果。

对于电影级修复，咪咕以深化提升影像艺术性为主要目的。遵照“修旧如旧”原则，完成美影厂《天书奇谭》的修复。在提升清晰度的同时，追求艺术性，最大限度地保留了动画的原始笔触和颗粒感。

咪咕修复过的老片均通过验收评测标准。通过客观参数及主观画质等方面多维度评测，计算影片转制的有效性。转制后的评测，采用人工主观测评的方式，对修复后的序列帧的画质进行打分。只有各维度客观评测和总体体验观感的主观评测都达标才可通过评测。

五、效果和展望

咪咕期望通过老片修复和画质提升的实践，实现如下几大成果：

1.版权增值，节约采买成本。

通过超高清修，可以获得4K重制版权的合作权益，节约版权采买成本。

2.高质量内容生产，盘活存量媒资资产。

咪咕平台的海量经典内容可以受到市场和受众的二次认可。通过源介质质量增强和评测，完成存量介质全面升级，使平台内容从单一关注数量到全面发挥“质”和“量”的结合。

3.赋能内容运营，提高用户粘性。

经典内容的4K超高清版本为大小屏内容运营注智赋能，聚合内容打造超高清经典老片专区，形成特色节目播单，适配多场景运营。

4.开启家庭数字院线新场景，实现创收、增收。

总之，咪咕公司积累了一些老片修复和质量提升的技术、工具和经验，但要看到，现有视频质量参差不齐，技术手段难以大量高水平的商业化，还需要长时间的积累。同时，市场需求的发展也在不断前进，未来场景将存在大量的超高清实时互动内容，对于这类互动视频的质量测评，尚处于研究前沿阶段，主观评测（MOS）和智能视频多方法融合评测（VMAF）两种视频质量评价方法能够科学有效对内容质量进行评价，但以上两种评测方法还未能全面适应实时互动、AR/VR等虚拟内容场景。随着深度学习技术的进步，以及大量真实数据的积累，相信可以适应和解决未来的需求。正因如此，咪咕也将进一步完善视频质量评价方法，更新思维范式，不断提高内容修复体系的评价效率和效益。

作者：潘诚 | 来源：青榴实验室

	目标	修复方式	成本预估	适用场景
电影级	追求艺术级精品，其色域、色深、光线质感、场景、人物动作等修复需配合影片艺术价值	手工逐帧修复，包含物理修复、数字修复、艺术修复等过程，可达到全网最高清晰度和艺术还原度	超高	电影院线级播放要求的片源艺术性较强
广播级	追求高画质，其清晰度、饱和度、分辨率、高帧率等要求高	人工+AI辅助修复技术，AI辅助修复是通过计算机机器学习得到AI增强模型、深层神经网络上色等	适中	广播电视、互联网平台播放要求的片源艺术性要求不高
标准级	针对去噪、文字（字幕）清晰度的提升，或增补字幕、超分、插帧、提高对比度等，提升用户一般性的观看体验	AI技术和计算机辅助工具，只有少量帧人工参与精修	较低	短视频平台不追求艺术性

视频质量评测方案

相关推荐

针对自由视角视频的无参考质量评价方法 | BMSB 2023

《8K超高清上变换器视频质量评测方法》发布

客观评价模型与主观DMOS分数拟合的分享与实用性探讨

CVPR 2023｜快手视频质量评估算法被顶会收录

百度视频质量评测的实践之路

微帧科技：综合多项指标评价视频质量，才能更接近主观感受

发表回复