IQ-LUT：高效图像超分的插值与量化查找表方法

“计算”和“存储”在资源受限设备中始终存在权衡。查找表（LUT）方法通过用存储换计算，实现了极快的推理速度。然而，随着感受野和量化精度的提升，LUT 的存储规模呈指数增长，严重限制了其在移动端和嵌入式设备上的应用。本文提出 IQ-LUT，通过插值、非均匀量化与残差学习，有效缓解 LUT 存储爆炸问题，并在极小模型规模下实现高质量超分重建。

文章来源： ICASSP 2026
论文题目： IQ-LUT: Interpolated and Quantized LUT for Efficient Image Super-Resolution
论文作者： Yuxuan Zhang, Zhikai Dong, Xinning Chai, Xiangyun Zhou, Yi Xu, Zhengxue Cheng, Li Song (SJTU Medialab & Rockchip)
文章链接： http://arxiv.org/abs/2604.07000
内容整理：张宇轩

引言

在移动端与嵌入式设备中，单图像超分辨率（SISR）需要同时满足高画质、低延迟与小模型体积。查找表（LUT）方法通过将网络推理转化为查表操作，实现了极高的推理效率，因此成为轻量化超分的重要方向。然而，LUT 方法存在一个核心瓶颈：随着感受野扩大或量化 bit-depth 提升，其索引空间呈指数增长，导致存储开销迅速膨胀，难以在资源受限设备上部署。尽管已有方法（如 SR-LUT、MuLUT）尝试通过插值或结构优化缓解该问题，但仍难以在模型大小与重建质量之间取得理想平衡。针对这一问题，本文提出 IQ-LUT，通过引入插值、非均匀量化及残差学习，在显著压缩模型体积的同时提升超分性能。

方法

本文方法基于 ECNN 架构，并在此基础上提出 IQ-LUT，通过量化与插值协同优化 LUT 表达能力。

整体可分为以下三个核心部分：

基础架构与整体流程

模型建立在 Expanded Convolutional Neural Network（ECNN）之上，由 L 个 EC 层堆叠构成，最后接一个上采样模块（结合 PixelShuffle 实现）。每个 EC 层本质是一个轻量子网络，由三个 1×1 卷积和两个 ReLU 激活组成。在训练阶段，该子网络对每个像素生成特征；在推理阶段，则被转换为查找表（LUT）以提升效率：

最终输出通过窗口重排与累加得到：

此外，引入残差学习机制,并通过可学习参数 α 控制信息流：

该设计能够缓解高 bit-depth 依赖，同时支持更深网络训练。

NUDQ：非均匀量化与蒸馏

为解决 LUT 存储与精度之间的矛盾，本文提出非均匀量化（NUDQ）模块。在传统均匀量化中，所有数值区间等距划分，但这会浪费 bit 表达能力。相比之下，非均匀量化在重要区间提供更高分辨率。具体采用对称分段线性映射：

其中：

该方法的核心特点在于采用非均匀量化策略，使中间区间（即对重建更重要的特征区域）具有更高的量化密度，而边缘区间则进行压缩表示，从而整体提升比特的使用效率。在完成非均匀映射后，数据还需经过均匀离散化以及非线性反变换两个步骤，以恢复到原始范围。此外，在QAT环节，模型引入了知识蒸馏机制，其中教师模型采用 8-bit 输入与 12-bit 输出，而学生模型则采用较低的 3–4 bit 精度，通过教师模型对学生模型进行指导，从而提升低精度模型的表达能力并有效减少量化误差。在最终配置上，模型第一层采用 4-bit 输入，后续各层均使用 3-bit 输入，而所有 IQ-Block 的输出统一为 8-bit 表示，在保证性能的同时进一步压缩模型规模。

DPFI：双路径融合插值机制

针对 LUT 随 bit-depth 指数增长的问题，本文提出 DPFI（Dual-Path Fused Interpolation），通过插值减少存储需求。核心思想是：不用存所有 LUT 值，而是通过插值“算出来”。DPFI（Dual-Path Fused Interpolation）的具体流程如下：首先，在非均匀量化阶段进行双向取整操作，分别得到向下取整的 X_floor 和向上取整的 X_ceil，它们对应 LUT 中最接近当前输入的两个离散索引位置。随后，根据量化后的连续值与下界之间的偏移量计算插值权重：

其中，x_trans 表示经过 NUDQ 变换后的连续值， b表示目标量化 bit-depth。最后，通过线性插值对两个 LUT 输出进行融合，得到最终特征表示：

该方法利用线性插值对连续空间进行近似，在显著降低 LUT 存储规模、避免高 bit-depth 带来的指数级增长的同时，仍能保持较高的重建精度，实现了存储与性能之间的有效权衡。

实验

定量对比

实验在 DIV2K 数据集上进行训练，并在 Set5、Set14、BSD100、Urban100 和 Manga109 五个标准数据集上进行评估，采用 PSNR 和 SSIM 作为指标。从定量结果来看，本文提出的模型在各项基准测试中均取得了显著优势。模型配置采用 IQ-LXCY 的命名方式，其中 X 表示 IQ-Block 的层数，Y 表示中间特征通道数。实验结果表明，各种配置在多个数据集上均优于现有方法。特别是 IQ-L8C16，在仅有 124 KB 模型大小的情况下，在所有测试集上取得了最优的 PSNR 和 SSIM 指标，展现出极高的性能与效率。同时，更轻量的 IQ-L8C8（仅 34 KB）依然能够超越大多数 LUT 方法及更大规模模型，说明该方法在模型体积与重建质量之间实现了极佳的平衡，充分验证了整体设计的有效性。

定性对比

除了定量指标外，本文还从视觉效果角度对模型性能进行了评估。实验结果表明，IQ-LUT 在细节恢复方面明显优于现有 LUT 方法，尤其是在复杂纹理和边缘区域。相比传统方法中常见的模糊或过度平滑现象，IQ-LUT 能够恢复更加锐利且结构准确的图像细节。这种优势主要得益于 DPFI 插值机制与残差学习模块的协同作用，使模型能够更好地重建高频信息，从而在视觉质量上取得更自然、更清晰的效果。

消融实验

为进一步分析各模块的贡献，本文在 IQ-L8C8 模型上进行了系统的消融实验。首先，在 DPFI 与残差学习模块的实验中，可以观察到，仅引入 DPFI 即可在所有数据集上稳定提升 PSNR，而在此基础上进一步加入残差连接后，性能得到进一步提升，说明二者在提升重建质量方面具有互补作用。其次，在非均匀量化（NUQD）的实验中，对比结果表明，引入 NUQD 后模型在所有测试集上的表现均有稳定提升。这验证了非均匀量化在提高 bit 利用率、减少量化误差方面的有效性。总体而言，消融实验充分说明了 DPFI、残差学习以及 NUQD 三个关键模块对最终性能提升均具有重要作用。

结论

IQ-LUT通过引入残差学习、双路径融合插值及蒸馏非均匀量化技术，有效解决了基于查找表超分辨率技术面临的挑战。所提出的IQ-LUT在所有基准数据集上均展现出顶尖性能，尤其在Set5数据集上采用最优配置（IQ-L8C16）时PSNR达到31.50dB，同时保持仅124KB的LUT尺寸。这些策略有效缓解了查找表规模爆炸问题，并显著提升了超分辨率图像质量。

尽管 IQ-LUT 在存储效率与重建质量之间取得了良好平衡，但仍存在一定局限性。首先，引入插值计算会带来额外的推理开销，使其延迟相较纯 LUT 方法略有增加。其次，模型依赖预设的量化策略与分段参数，可能在不同数据分布下需要重新调优。