Dimple：一种用于高效可控文本生成的离散扩散多模态语言模型

AIGC • 2025年5月30日上午10:06 • 技术文章

近几个月来，人们对将扩散模型（最初设计用于图像等连续数据）应用于自然语言处理任务的兴趣日益浓厚。这促成了离散扩散语言模型 (DLM) 的发展，该模型将文本生成视为一个去噪过程。与传统的自回归模型不同，DLM 支持并行解码，并能更好地控制结构，从而提供诸如灵活初始化整个序列、明确控制输出格式以及通过双向注意力机制改进填充等优势。

此外，它们的非序列特性也为更快的生成速度打开了大门。尽管存在这些优势，但大多数当前的多模态大型语言模型 (MLLM)（例如 LLaMA、Qwen-VL 和 InternVL）仍然仅仅依赖于自回归方法。

基于扩散的语言模型研究探索了连续和离散的扩散空间。诸如 DiffuSeq 和 SED 之类的连续方法使用嵌入或宽松的分类空间来实现更平滑的生成。相比之下，诸如 SDDM 和 RDM 之类的离散模型则根据语言结构定制扩散过程。训练技术各不相同，但通常使用掩蔽语言建模损失或基于熵的分数匹配。一些混合模型，例如 AR-Diffusion 和 SSD-LM，结合了自回归和扩散策略，以充分利用两种方法的优势。同时，诸如 LLaVA 和 InternVL 之类的开源 MLLM 通过视觉指令调整和联合预训练取得了进展，但仍然遵循自回归生成方案。

新加坡国立大学的研究人员展示了首个离散动态语言语言模型 (DMLLM)——Dimple，它将视觉编码器与基于离散扩散的语言模型相集成。为了克服纯扩散训练的不稳定性和性能问题，他们引入了一种两阶段训练方法：先自回归后扩散，将初始自回归对齐与后续基于扩散的掩码语言模型相结合。Dimple-7B 在基准测试中比 LLaVA-NEXT 高出 3.9%。该团队还引入了用于动态标记生成的置信解码 (Confident Decoding)，并探索了用于精确控制输出的结构先验 (Structure Priors)。这些创新显著提高了推理效率、生成灵活性和结构可控性，且不影响性能。

Dimple 是一个离散扩散多模态 LLM ，它将视觉编码器与基于扩散的语言模型相集成。为了解决扩散训练中的低效问题，例如稀疏监督和有限的生成覆盖范围，该模型分两个阶段进行训练：首先使用因果注意力掩码进行自回归训练，以实现视觉-语言对齐；然后进行扩散训练以恢复生成能力。在推理过程中，动态“置信解码”策略会根据预测置信度调整标记更新。尽管使用的训练样本显著减少，Dimple 在多个基准测试中仍表现出颇具竞争力的性能，优于类似规模的自回归模型，尽管它落后于更大规模的先进系统。

实验评估了 Dimple 与自回归模型在指令遵循任务上的表现。Dimple 采用结合自回归和扩散调优的混合策略进行训练，表现出强劲的性能，在大多数基准测试中超越了使用类似训练数据的模型。尽管 Dimple 的性能落后于在更大规模数据集上训练的模型，但它受益于更强大的基础语言模型。消融研究表明，结合自回归和扩散调优可以缓解长度偏差等问题，并提高一致性。预填充进一步显著提升了推理速度，且性能仅略有下降，使该模型在多模态理解任务中既高效又具有竞争力。

总而言之，首个离散模型层级结构 (DMLLM) Dimple 的设计旨在克服纯离散扩散训练的局限性，例如不稳定性以及长度偏差。Dimple 采用混合训练方法，首先进行自回归学习，然后进行扩散调优，最终生成 Dimple-7B 模型，其性能比 LLaVA-NEXT 高出 3.9%。其解码策略——置信解码，显著减少了推理步骤，而预填充则在性能损失最小的情况下提升了速度。Dimple 还通过结构先验实现了结构化且可控的输出，从而提供了自回归模型难以提供的对格式和长度的细粒度控制能力。

资料