快手移动端画质提升方案：如何兼得自适应与低功耗？

随着终端设备的技术迭代和发展，终端的解码和显示能力不断提升，越来越多的用户可以在手机上流畅播放1080P甚至4K分辨率的高清视频。然而受限于网络环境、带宽成本，以及视频源本身的拍摄、上传、编码等因素，极致的画质体验仍然不易拥有。

为提升视频画质，改善用户消费体验，快手音视频团队联合Ytech团队、AI平台团队打造了移动端自适应后处理解决方案，对视频提供实时修复和增强能力，从而改善画质。目前该技术已在快手App短视频点播业务应用，支持最高1080p 30fps视频端上实时低功耗处理，算法对于720p视频处理速度达100+fps，电流增量38mA，覆盖中、高端消费机型，在消费体验指标上取得显著收益，处理后的视频在快手自研无参考质量评估模型评分提升0.12，PSNR提升约0.8dB。

01 技术难点

作为端上视频处理类任务，移动端后处理在算法和工程维度均面临许多挑战：

低质视频多样：UGC视频存在着视频内容多样、视频退化不统一、编码策略不同等诸多影响画质因素，如何针对这类视频提出一种有效且鲁棒的算法是团队要解决的一项艰难任务。

模型优化困难：不同于在服务端构建大模型，提升算法能力解决多样复杂的问题，移动端部署的算法还需要考虑移动设备硬件算力，并平衡算法效果和功耗，保证设备不会出现发热、播放卡顿等性能问题。

机型分布广泛：由于线上机型分布广，算力跨度大，并且不同芯片平台架构不同，无法用统一的模型部署上线。如何覆盖跨度广泛的机型设备，平衡不同算力AI处理器性能，算法需要做针对性优化和适配。

02 解决方案

针对于以上移动端视频处理任务难点，快手音视频团队从算法设计、工程优化、下发策略等方向进行精细打磨，克服技术难点，实现了多项业界领先技术的落地。

算法设计

围绕线上多码率档位编码的视频处理问题，算法团队针对高、中端机型进行定制化算法优化，确保在不同算力机型上都能够最大化处理效果，找到画质和功耗的最佳平衡点。

超轻量深度学习算法

随着移动端设备硬件更新加速，越来越多机型具备了神经网络模型推理硬件，如NPU，APU，DSP等。然而移动端深度学习算法的落地依旧存在难度，尤其是画质处理这类需要稠密计算的任务，对比图像分类等基于特征提取类任务，其功耗开销将成倍增加。

为此团队联合快手AI平台团队设计了超轻量神经网络算法，不仅采用业内常用的神经网络搜索、蒸馏等模型压缩和加速手段外，还评估移动端算法推理时不同模块对于推理速度和功耗开销的关系，采用重参数化等技术手段，保证算法精度的同时实现简单结构的快速推理。

在数据构建上，团队采用混合失真退化和线上多码率档位视频数据构建混合数据集，从而应对线上复杂的失真问题。为了能够保证模型求解，避免小模型过拟合问题，采用正则化的求解方法，提升算法鲁棒性，在测试集上，该方法提升PSNR指标0.26dB。

超轻量机器学习算法

为了覆盖中端机型设备，团队开发了基于机器学习的自适应处理算法，能够在推理时分析图像内容特性，触发适配滤波器。

为了解决线上多样的视频失真和复杂的纹理修复问题，团队构建了多码率数据集并改善数据块采样，着重复杂纹理重构滤波器的学习。与此同时，为平衡算法效果和推理效率，团队尝试多维度特征滤波器构建和等效小尺寸滤波器优化，在中端机型上实现了高效精准推理的目标。

工程优化

由于落地场景为短视频处理任务，不仅要求移动端后处理算法处理速度上远超30fps，对于功耗增量更是有着严格的限制。除了算法的加速外，工程优化同样至关重要，工程团队依据不同算法任务，分别进行了针对性优化，为算法落地提供了最佳保障。

推理引擎优化

为满足不同平台高效推理神经网络模型，快手音视频团队与Y-tech团队联合多家芯片厂商，基于Y-tech自研端上AI推理引擎KwaiNN，构建多维度高效推理平台。充分利用KwaiNN的异构加速，I/O优化、内存共享，负载均衡等技术，大幅提升推理效率。与此同时，设计适配的数据传输策略，结合INT8量化、切片推理等技术，降低32%～87%模型推理功耗开销，实现深度学习算法超低功耗的落地。

GL工程优化

机器学习算法在推理中涉及到大量的数据加载、循环处理等计算，给芯片推理带来巨大能耗压力。针对于此，团队利用缓存来优化数据加载和传输，降低数据I/O开销。同时优化数据采样方式，保证数据的准确性与精度。最后拆解循环改为矩阵运算，最终将模型推理功耗降低33%～75%。

智能触发策略

为了进一步消除后处理由于端上计算带来的功耗影响，解决设备发热带来的负向体验，团队制定了端上智能触发策略。该策略参考视频质量特征、设备状态等信息，结合视频编码档位，综合决策视频是否触发后处理算法。可以在相同后处理算法触发率下，命中更多高价值视频，保障在同样功耗开销下，最大化画质提升收益。

对于不同分辨率视频、不同处理任务，团队开发了具有差异化功能的后处理算子，构建丰富的后处理算法矩阵，为原码率视频提升视频画质、低码率视频降低带宽成本等任务提供多元化能力。其中视频超分辨率、视频清晰度增强、饱和度增强、视频去编码压缩等算法均成功落地移动端。

03 算法评测

为了准确衡量移动端后处理算法优劣，质效团队采用主客观联合评估方式，对后处理算法效果进行评测。

主观评测

通过构建多场景、多码率档位测试数据集，质效团队在多个维度评估算法处理效果，包括清晰度提升、噪声放大、过锐风险评估等。通过快手盲测平台，对比后处理算法处理前后视频画质，其中超分辨率算法GSB（Good，Same，Bad）值为60%：30%：10%。

经过后处理算法处理后，视频画质具有明显改善，尤其在视频纹理细节和整体视频清晰度方向上，后处理算法结果明显优于原视频。如下图所示，在窗外树枝等纹理细节内容上，后处理画质提升明显。

快手移动端画质提升方案：如何兼得自适应与低功耗？ — 左图：原视频Bicubic
右图：后处理-超分辨率

客观评测

除主观评估算法效果外，团队参考快手视频质量评估模型，评估后处理算法处理前后视频质量。在后处理构建的多视频场景、多转码档位的测试数据集上，快手无参考质量评估模型评分提升0.12，PSNR指标提升约0.8dB，清晰度明显提升。

效果对比

纹理增强算法

经过纹理增强算法处理后，视频清晰度提升，视频中纹理细节表现明显改善。

饱和度增强算法

经过饱和度增强算法处理后，视频画面感得到提升。

随着移动端设备不断更新，未来高、中端机型占比将会逐渐增大，后处理技术将在更多业务中体现重要作用，尤其在降码率节省带宽成本、与编解码联合优化、构建端对端画质提升等任务上将会有重要突破。在算法开发上，团队也在进行长视频类视频处理任务的优化，将覆盖影、剧、综等高时长、高分辨率视频类型，为画质提升提供最佳技术支持。