【音视频】Android 端侧 ROI 编码全景指南

在移动端音视频（直播、RTC、短视频）开发中，ROI（Region of Interest，感兴趣区域）编码是兼顾“节省带宽成本”与“守住核心画质”的终极武器。由于 Android 生态高度开放，开发者既可以通过原生硬件多媒体框架（MediaCodec）下沉到芯片层控制，也可以通过开源的 FFmpeg (libx264) 在 CPU 软编层进行像素级的精准调优。

本文将专门针对 Android 平台，完整输出 ROI 编码的底层优势、硬件编码（MediaCodec）及软编码（FFmpeg libx264）的具代码落地指南。

1、 ROI 编码在 Android 端的核心优势

在商用短视频或实时互动中，ROI 编码能带来极其明显的线上大盘指标收益：

带宽成本断崖式下跌： 在保持人眼主观画质（VQA/QoE）不变的前提下，通过降低非核心区域（如背景墙壁、蓝天）的码率，可使整体视频流的实时码率或文件体积**下降 15% ~ 30%**。
弱网抗性质变提升： 在突发性网络窄带（突发丢包、限速）场景下，传统编码器一视同仁，全图会瞬间炸成马赛克。开启 ROI 后，编码器会把仅剩的宝贵带宽资源倾斜给 ROI 区域，确保“背景可以模糊，但人脸和字幕绝对刀锐”。
平滑运动暴击引起的码率毛刺： 当主播剧烈跳舞、蹦迪或镜头快速晃动时，视频信息量剧增，编码器极易码率飙升、造成播放端卡顿起圈（Stall）。ROI 编码强行压制了背景的宏块分配，能够极大程度地平滑码率曲线，稳定播放器的缓冲区水位线。

2、方案一：Android 硬件编码（MediaCodec）支持方案

从 Android 12 (API 31) 开始，Google 在 MediaCodec 中正式引入了标准化的 ROI 参数 **PARAMETER_KEY_QP_OFFSET_MAP**。它允许开发者将一个由一系列 QP（量化参数）偏移量组成的字节数组（Byte Array）实时注入编码器。

编码器内部是以 Block（块，通常为 16×16 或 8×8） 为基本单位的。通过为指定 Block 分配负数的 QP 偏移量，即可强行提高该区域的清晰度。

2.1、MediaCodec ROI 动态注入代码实现：

import android.graphics.Rect;
import android.media.MediaCodec;
import android.media.MediaFormat;
import android.os.Bundle;
import android.util.Log;
import java.nio.ByteBuffer;
import java.util.Arrays;

publicclass AndroidHardwareRoiEncoder {
    privatestaticfinal String TAG = "RoiEncoder";
    private MediaCodec mEncoder;
    privateint mBlockWidth = 16;  // 默认 H.264 宏块宽度
    privateint mBlockHeight = 16; // 默认 H.264 宏块高度
    privateint mVideoWidth;
    privateint mVideoHeight;

    public void initEncoder(int width, int height) throws Exception {
        mVideoWidth = width;
        mVideoHeight = height;
        
        // 1. 创建 H.264 硬编码器
        mEncoder = MediaCodec.createEncoderByType(MediaFormat.MIMETYPE_VIDEO_AVC);
        MediaFormat format = MediaFormat.createVideoFormat(MediaFormat.MIMETYPE_VIDEO_AVC, width, height);
        
        // 配置常规参数（常规码率控制、帧率、关键帧间隔等）
        format.setInteger(MediaFormat.KEY_COLOR_FORMAT, MediaCodec.Info.COLOR_FormatSurface);
        format.setInteger(MediaFormat.KEY_BIT_RATE, 2000000); // 2Mbps
        format.setInteger(MediaFormat.KEY_FRAME_RATE, 30);
        format.setInteger(MediaFormat.KEY_I_FRAME_INTERVAL, 2);

        mEncoder.configure(format, null, null, MediaCodec.CONFIGURE_FLAG_ENCODE);
        mEncoder.start();

        // 2. 尝试从编码器实际输出格式中获取精准的 Block 尺寸（部分新芯片支持 8x8）
        MediaFormat actualFormat = mEncoder.getOutputFormat();
        if (actualFormat.containsKey(MediaFormat.KEY_VIDEO_QP_AVERAGE_BLOC_WIDTH)) {
            mBlockWidth = actualFormat.getInteger(MediaFormat.KEY_VIDEO_QP_AVERAGE_BLOC_WIDTH);
            mBlockHeight = actualFormat.getInteger(MediaFormat.KEY_VIDEO_QP_AVERAGE_BLOC_HEIGHT);
        }
        Log.d(TAG, "Codec initialized with Block Size: " + mBlockWidth + "x" + mBlockHeight);
    }

    /**
     * 根据 AI 模型（如人脸检测）输出的绝对像素坐标，实时动态计算并注入 QP Offset 映射表
     * @param faceRect 绝对坐标矩形
     */
    public void configureFrameRoi(Rect faceRect) {
        if (android.os.Build.VERSION.SDK_INT < android.os.Build.VERSION_CODES.S) {
            // Android 12 以下系统无法直接使用此原生 API，需降级使用 Vendor Tags 或像素伪装
            return;
        }

        // 1. 计算当前分辨率下，Block 矩阵的横向和纵向数量
        int mapWidth = (mVideoWidth + mBlockWidth - 1) / mBlockWidth;
        int mapHeight = (mVideoHeight + mBlockHeight - 1) / mBlockHeight;
        byte[] qpOffsetMap = newbyte[mapWidth * mapHeight];

        // 2. 默认全图无偏移（QP 保持系统默认）
        Arrays.fill(qpOffsetMap, (byte) 0);

        // 3. 将人脸像素坐标映射到 Block 矩阵索引空间
        int blockLeft = Math.max(0, faceRect.left / mBlockWidth);
        int blockTop = Math.max(0, faceRect.top / mBlockHeight);
        int blockRight = Math.min(mapWidth - 1, faceRect.right / mBlockWidth);
        int blockBottom = Math.min(mapHeight - 1, faceRect.bottom / mBlockHeight);

        // 4. 为人脸区域填充负数的 QP 偏移量（降低 QP = 减小失真 = 提升清晰度）
        // 大厂线上调优经验值通常在 -6 到 -12 之间，此处取 -10
        byte targetQpOffset = (byte) -10; 

        for (int y = blockTop; y <= blockBottom; y++) {
            for (int x = blockLeft; x <= blockRight; x++) {
                qpOffsetMap[y * mapWidth + x] = targetQpOffset;
            }
        }

        // 5. 组装参数 Bundle，动态推入编码器管线中（该参数对下一帧即时生效）
        Bundle params = new Bundle();
        params.putByteArray(MediaCodec.PARAMETER_KEY_QP_OFFSET_MAP, qpOffsetMap);
        mEncoder.setParameters(params);
    }
    
    public void release() {
        if (mEncoder != null) {
            mEncoder.stop();
            mEncoder.release();
        }
    }
}

3、方案二：Android FFmpeg 软件编码（libx264）支持方案

如果你的业务支持使用 CPU 软件编码（如低分辨率的 RTC 连麦流、后台视频异步剪辑导出），直接在 C++/NDK 层操作 FFmpeg + libx264 具有最高的控制精度和跨版本兼容性（全 Android 版本支持）。

FFmpeg 提供了标准的 AV_FRAME_DATA_REGIONS_OF_INTEREST 侧边数据槽（Side Data），x264 底层算子（MB-tree）会完美解析该数据并自动调整宏块的量化步长。

3.1、NDK C++ 层硬核源码实现：

#include <jni.h>
#include <string>
#include <vector>
#include <memory>

extern"C" {
#include <libavcodec/avcodec.h>
#include <libavutil/frame.h>
#include <libavutil/mem.h>
}

class AndroidFFmpegRoiEncoder {
private:
    AVCodecContext* codecContext = nullptr;
    const AVCodec* codec = nullptr;

public:
    bool initSoftEncoder(int width, int height, int bitrate) {
        // 1. 寻找 x264 软编码器
        codec = avcodec_find_encoder(AV_CODEC_ID_H264);
        if (!codec) returnfalse;

        codecContext = avcodec_alloc_context3(codec);
        codecContext->width = width;
        codecContext->height = height;
        codecContext->pix_fmt = AV_PIX_FMT_YUV420P; // Android 软编标准 YUV 格式
        codecContext->time_base = {1, 30};
        codecContext->framerate = {30, 1};
        codecContext->bit_rate = bitrate;
        codecContext->gop_size = 60;

        // 设置 x264 专用预设，平滑码率
        av_opt_set(codecContext->priv_data, "preset", "veryfast", 0);
        av_opt_set(codecContext->priv_data, "tune", "zerolatency", 0);

        if (avcodec_open2(codecContext, codec, nullptr) < 0) {
            returnfalse;
        }
        returntrue;
    }

    /**
     * 在送入编码器前，在 C++ 原地为 AVFrame 绑定包含 ROI 坐标的 Side Data
     */
    void applyRoiToFrame(AVFrame* frame, int left, int top, int right, int bottom) {
        if (!frame) return;

        // 1. 分配一个 FFmpeg 官方标准的 ROI 结构体 Side Data 空间
        // 如果有多个 ROI 区域（比如多张人脸），可以分配 sizeof(AVRegionOfInterest) * N
        AVFrameSideData* sideData = av_frame_new_side_data(frame, AV_FRAME_DATA_REGIONS_OF_INTEREST, sizeof(AVRegionOfInterest));
        if (!sideData) return;

        AVRegionOfInterest* roi = (AVRegionOfInterest*)sideData->data;
        roi->self_size = sizeof(*roi);
        
        // 2. 写入绝对像素级矩形坐标边界
        roi->left   = left;
        roi->top    = top;
        roi->right  = right;
        roi->bottom = bottom;

        // 3. 设置配置权重 qoffset (AVRational 格式)
        // 取值范围为 [-1.0, 1.0]。负数代表调细腻，正数代表调模糊。
        // 大厂软编黄金调优推荐值在 -0.4 ~ -0.6 之间，此处取 -0.5 (即 -5/10)
        roi->qoffset = av_make_q_num(-5, 10); 

        // 4. 这一帧被送入 avcodec_send_frame 后，FFmpeg 的封装层会自动将其映射为
        // x264 的 pic_in.prop.quant_offsets，实现底层 MB-tree 的自适应码率重组。
    }

    void encodeFrame(AVFrame* yuvFrame) {
        if (!codecContext) return;
        int ret = avcodec_send_frame(codecContext, yuvFrame);
        if (ret < 0) return;

        AVPacket* pkt = av_packet_alloc();
        while (avcodec_receive_packet(codecContext, pkt) == 0) {
            // 此时拿到已完成 ROI 局部高清编码的 H.264 NALU 数据包
            // 执行推流（Muxing）或本地写入
            av_packet_unref(pkt);
        }
        av_packet_free(&pkt);
    }

    void release() {
        if (codecContext) {
            avcodec_free_context(&codecContext);
        }
    }
};

4、生产环境下的“降级与平滑”工程闭环

将上述代码落地到复杂的生产环境时，Android 工程师必须死磕以下三个长尾优化要点：

4.1、解决低版本 Android（< Android 12）的硬编兼容痛点

由于 PARAMETER_KEY_QP_OFFSET_MAP 具有明显的系统版本门槛，对于低版本设备，大厂通常实施以下降级工程策略：

第一步（白嫖厂商私有扩展）： 检查设备芯片。若是高通/联发科芯片，在配置 MediaFormat 时直接写入厂商私有的字符键值（如：format.setInteger("vendor.qti-ext-virt-enc.roi-rect.enable", 1)），直接白嫖底层驱动。
第二步（前置像素伪装法）： 若私有扩展也不支持，则在输入硬编前的 GPU 渲染管线中，使用 OpenGL ES/Vulkan Compute Shader 将人脸 ROI 区域外的背景部分原地执行一次轻量高斯模糊（Blur）。编码器在检测到背景全是没有高频细节的平滑像素后，天性会促使其自动放弃背景码率，强行把 80% 的码率全塞给清晰的人脸，异曲同仁达到 ROI 的收益。

4.2、避免边缘“画质割裂线”（QP 梯度平滑）

如果 ROI 区域与非 ROI 区域的 QP 差值过大（例如人脸区域 QP=18，背景区域因极度压缩崩到 QP=42），画面的交界处会出现一圈极为刺眼的“物理割裂线”。

大厂优化手段： 采用“双环策略”。在最内部的核心人脸环分配 -10 的 QP 偏移；在人脸外围至肩膀区域勾勒一个“中等感知过渡区”，分配 -4 的 QP 偏移。通过两层阶梯式过渡，实现视觉上的无缝融合。

4.3、多线程流水线时间戳（PTS）对齐

AI 模型的推理（如 YOLO人脸框检测）通常需要耗费。绝对不能让检测逻辑阻塞相机的采集主线程或 OpenGL 渲染线程。

工程落地方案： 必须建立一个专门的异步 AI 策略线程队列。当 AI 线程计算出某一帧的 faceRect 坐标后，必须将其与当前帧的 Presentation Timestamp (PTS) 进行精确对齐绑定后再喂给编码器。防止因时间错配，导致 ROI 的画质增强“错位”错加在下一帧的背景画面上。

学习和提升音视频开发技术，欢迎你加入我们的知识星球