互联网内容的展示离不开图片，通过 CDN 展示分发图片可以提升图片访问速度，但是也需要为带宽付费。HEIF 图片格式有着卓越的压缩性能，相比 WebP 可以节省 30% 的图片码率，由此可以为业务节省相当规模的带宽成本。火山引擎图片服务 veImageX 目前大力推广 HEIF 图片格式，在辅助业务降本方面取得了阶段性进展。

HEIF 格式是一把双刃剑，相比其他格式，在提升压缩率的同时，也需要消耗更多 CPU 计算资源。为了降低 HEIF 格式的编码计算成本，veImageX 采用了 FPGA 异构架构，逐步将 HEIF 编码的流量从 CPU 计算集群迁移到 FPGA 计算集群。

在流量迁移过程中，最初整体流量较小，FPGA 编码服务看起来很稳定。但随着迁移过程递进，当 FPGA 的单卡 QPS 上涨到一定阈值后，FPGA 卡所在宿主机的性能瓶颈逐渐暴露出来，影响了整体的迁移工作。

本文会对迁移过程中遇到的性能瓶颈做分析，并给出优化解决方案。经过这一系列优化措施，整体 CPU 负载从 80% 降低为 30%，相应的服务延时从 140ms 降低为 4ms。

架构

首先，我们看一下 FPGA HEIF 静图分发链路的整体架构。

整体链路分为三块：业务 App、veImageX 分发基础链路、FPGA HEIF 编码服务。

业务 App 一般都会集成 veImageX 的图片 SDK。一来可以兼容各类图片格式（自然包括 HEIF），提供了图片的下载、解码、展示功能。二来支持将访问图片过程中产生的指标数据上报，这样可以方便地在控制台查看这些性能指标，比如解码耗时、图片加载成功率等。

veImageX 分发基础链路主要解决了图片分发的问题，提供了基础的图片实时处理能力。其中 CDN 缓存了图片请求，提供了加速访问的能力；veImageX 源站服务主要负责访问权限的校验、流量控制、图片资源下载以及静态图片的主体处理流程。对于 HEIF 静图编码场景，veImageX 源站服务则需要和 FPGA HEIF 编码服务互动，协作完成。

FPGA HEIF 编码服务自上而下可以分为三层：编码服务层、编码驱动层、编码硬件层。

为了解决计算资源异构引入的耦合问题，FPGA HEIF 的编码能力通过 HTTP 服务化的方式提供出来。所有的 FPGA 卡部署于字节跳动自研的 Lambda 计算平台。通过 Lambda 函数+资源虚拟化的方式，将 HEIF 编码功能抽象为上游可直接调用的服务，并能确保将编码请求均衡地调度到各个 FPGA 卡上。物理机上的每一张 FPGA 卡和对应的主机 CPU 和内存资源都被打包，经由 Executor 管理。此外，为了防止 FPGA 卡被突发流量打挂，Executor 内置了一个执行队列，用于控制 FPGA 卡的并发吞吐。

编码服务层主要负责解析 HTTP 请求，获取待编码的图片数据。待编码的图片数据一般通过 JPEG 格式传入，因此其中内嵌了一个 JPEG 解码器。此外，veImageX HEIF 支持了自适应编码选项，通过服务层内的自适应模型预测编码所用到的质量参数。服务层中的 HEIF 编码器是一个适配层，屏蔽了底层计算架构的差异，对于 CPU 和 FPGA 都可以提供相同的编码接口，将传入的 RGBA 像素矩阵编码为 HEIF 码流。

编码驱动层中的 FBVC1 编码器可以将图片像素序列编码为二进制码流，上层的 HEIF 编码器拿到这个码流后，按照 HEIF 标准格式封装即可。FBVC1 编码过程中，依赖了 FPGA 驱动库和编码硬件层打交道，发送指令，读写 FPGA 设备。