尽管 DALL-E 3、Imagen 3 和 Stable Diffusion 3 等模型在文本转图像 (T2I) 生成方面取得了显著进展,但实现一致的输出质量(包括美观度和对齐度)仍然是一项持续挑战。虽然大规模预训练提供了一些通用知识,但不足以实现较高的美观度和对齐度。监督微调 (SFT) 是训练后的关键步骤,但其有效性在很大程度上取决于微调数据集的质量。
目前,SFT 中使用的公共数据集要么针对狭窄的视觉领域(例如动漫或特定艺术类型),要么依赖于针对网络规模数据的基本启发式过滤器。人工主导的筛选成本高昂、不可扩展,并且经常无法识别出能够带来最大改进的样本。此外,最近的 T2I 模型使用内部专有数据集,透明度极低,限制了结果的可重复性,并减缓了该领域的集体进步。
方法:模型引导的数据集管理
为了缓解这些问题,Yandex 发布了Alchemist,这是一个公开的通用 SFT 数据集,由 3,350 个精心挑选的图像-文本对组成。与传统数据集不同,Alchemist 采用一种新颖的方法构建,利用预先训练的扩散模型作为样本质量评估器。这种方法能够选择对生成模型性能影响较大的训练数据,而无需依赖主观的人工标记或简单的美学评分。
Alchemist旨在通过有针对性的微调来提升 T2I 模型的输出质量。此次发布还包含五个公开可用的稳定扩散模型的微调版本。数据集和模型可在Hugging Face上以开放许可访问。
技术设计:过滤管道和数据集特征
Alchemist 的构建涉及一个多级过滤流程,该流程从约 100 亿张网络图像开始。该流程的结构如下:
- 初始过滤:删除 NSFW 内容和低分辨率图像(阈值 >1024×1024 像素)。
- 粗略质量过滤:应用分类器排除带有压缩伪影、运动模糊、水印和其他缺陷的图像。这些分类器在标准图像质量评估数据集(例如 KonIQ-10k 和 PIPAL)上进行训练。
- 去重和基于 IQA 的剪枝:使用类似 SIFT 的特征对相似图像进行聚类,仅保留高质量图像。然后使用 TOPIQ 模型对图像进行进一步评分,确保保留干净的样本。
- 基于扩散的筛选:一项关键贡献在于利用预训练扩散模型的交叉注意力激活机制对图像进行排序。评分函数可以识别出那些强烈激活与视觉复杂性、美学吸引力和风格丰富性相关特征的样本。这使得我们能够筛选出最有可能提升下游模型性能的样本。
- 字幕重写:最终选定的图像将使用经过微调的视觉语言模型重新添加字幕,以生成提示式的文本描述。此步骤可确保在 SFT 工作流程中实现更好的对齐和可用性。
通过消融研究,作者确定,将数据集大小增加到 3,350 以上(例如 7k 或 19k 个样本)会导致微调模型的质量降低,从而强化了有针对性的高质量数据相对于原始数据的价值。
跨多个 T2I 模型的结果
Alchemist 的有效性在五种稳定扩散变体上进行了评估:SD1.5、SD2.1、SDXL、SD3.5 Medium 和 SD3.5 Large。每个模型都使用三个数据集进行了微调:(i) Alchemist 数据集,(ii) 来自 LAION-Aesthetics v2 的大小匹配子集,以及 (iii) 它们各自的基线数据集。
人工评估:专家注释员对四项标准——文本-图像相关性、美学质量、图像复杂度和保真度——进行了并行评估。Alchemist 调优后的模型在美学和复杂度得分方面表现出统计显著的提升,其表现通常比基线模型和 LAION-Aesthetics 调优后的版本高出 12% 至 20%。值得注意的是,文本-图像相关性保持稳定,这表明快速对齐并未受到负面影响。
自动化指标:在 FD-DINOv2、CLIP Score、ImageReward 和 HPS-v2 等指标中,Alchemist 调优模型的得分普遍高于同类模型。值得注意的是,与基于尺寸匹配的 LAION 模型相比,其改进效果与基线模型相比更加一致。
数据集大小消融:使用更大的 Alchemist 变体(7k 和 19k 样本)进行微调会导致性能下降,强调更严格的过滤和更高的每个样本质量比数据集大小更有影响力。

Yandex 利用该数据集训练其专有的文本到图像生成模型 YandexART v2.5,并计划在未来的模型更新中继续利用它。
结论
Alchemist提供了一种明确定义且经过实证验证的途径,通过监督微调来提高文本到图像生成的质量。该方法强调样本质量而不是规模,并引入了一种可复制的数据集构建方法,而无需依赖专有工具。
虽然改进主要体现在美观度和图像复杂度等感知属性上,但该框架也凸显了保真度方面的不足,尤其对于已通过内部 SFT 优化的较新基础模型而言。尽管如此,Alchemist 为通用 SFT 数据集树立了新标准,并为致力于提升生成视觉模型输出质量的研究人员和开发者提供了宝贵的资源。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/58712.html