昨日,小红书基础模型 FireRed-Image-Edit 正式亮相 GitHub。
作为小红书 Super Intelligence Team 在图像生成与编辑领域的一次重要探索,该模型在处理复杂编辑指令、风格化转换及高精度文字编辑方面展现出更强实力。对比结果显示,FireRed-Image-Edit 凭借更精准的理解力、更强的 ID 保持度及高效的架构,在多项权威测试中脱颖而出,在ImgEdit、GEdit等多个榜单中取得了SOTA,达到业界领先水平。目前,该项目代码、技术报告、demo网页已开源,模型权重也即将在未来几天开源。
- GitHub: https://github.com/FireRedTeam/FireRed-Image-Edit
- 技术报告: https://github.com/FireRedTeam/FireRed-Image-Edit/blob/main/assets/FireRed_Image_Edit_1_0_Techinical_Report.pdf
- 体验Demo: https://huggingface.co/spaces/FireRedTeam/FireRed-Image-Edit-1.0

RedEdit Bench
针对现有基准测试无法满足用户复杂需求的问题,RedEdit Bench 提供了包含15个子任务的深度评测方案。除常规的增删改外,该评测集还前瞻性地纳入了人像美化、低画质增强等高频实战场景。唯有通过更难、更真实的测评考核,才能筛选出真正卓越的模型。对比实验表明,该 Bench 对编辑模型通用能力的评估精度优于 ImgEdit 和 GEdit。该Bench会随后开源,以期为开源社区对图像编辑模型的评估建立新维度的标准。

数据构造与模型训练
1. 数据引擎:FireRed-Image-Edit 构建了一套图像编辑数据生产引擎,从“快速、可控、精准”出发,将复杂编辑需求拆解为可组合的子任务,并通过三条路径规模化产出训练:指令控制的专家模型合成、结构化控制(如分割/关键点/深度等)的专家模型合成,以及模型无关的模板化合成(如 3D/布局/文字)。针对长尾编辑任务样本稀缺,采用“检查—补齐”的定向补数流程,由引擎快速生成针对性数据,并配合三层级去重、十余种质量清洗算子与严格一致性守门员,确保数据的指令遵循、视觉自然度与内容一致性。

2. 模型训练:当前模型框架参考主流编辑模型框架,模型通过三阶段训练来完成能力的进阶。预训练阶段通过多条件感知桶采样来平衡不同的编辑任务,通过随机动态指令来提升模型的指令泛化理解能力,并通过前置的embedding抽取来提升训练效率。微调阶段通过高质量数据的引入,来提升模型表现。最后在强化学习阶段,通过非对称梯度优化来强化正样本反馈,基于OCR奖励的diffusionNFT来提升文字编辑准确性。

核心能力展示
FireRed-Image-Edit 的强大,源于对“编辑”二字的深度理解。它不是简单的重绘,而是精准的控制,其核心能力提升如下。
1. 指令遵循一致性:模型引入随机指令对齐的机制,通过随机打乱和动态重组prompt,来使模型能真正理解语义与图像的对应关系,而非死记硬背。
2. 文字编辑:FireRed-Image-Edit 创新性地提出了 Layout-Aware OCR-based Reward。在强化学习阶段,不仅惩罚错别字,还惩罚字符的错位、大小异常和布局崩坏。这使得模型在进行海报修改、文字替换时,能更准确地编辑并保持原始文字风格。
3. 创意与多图生成:同时依赖于强大的模型架构能力, FireRed-Image-Edit支持创造力场景生成和多参考图生成的能力,支持风格迁移或多图融合。
4. 画质修复,细节重现:除了通用编辑,实际应用中,用户经常面临照片模糊、低分辨率、曝光不足或画质受损的问题。FireRed-Image-Edit 将超分、去模糊、去噪及光影增强等底层视觉任务统一纳入了指令微调的范畴。让用户可以一键画质调整。
FireRed-Image-Edit通过开源,希望为社区提供一个高效、可控、高质量的基座。后续将会进一步提升基础模型在人像美化,一致性,文字上的编辑能力,在未来几个月内持续开源更新版本和文生图基座模型。欢迎大家下载体验,在 GitHub 上点亮 Star 🌟!
Super Intelligence团队是小红书公司面向未来内容形态与通用智能的重要技术引擎,目标是构建业界领先的多模态基础大模型体系,并形成可持续演进的通用智能能力。该团队包括Audio Lab、Vision Lab、Foundation Lab等基础技术实验室。其主要负责小红书创作&发布相关的核心技术研发,并向推荐、搜索、视频&直播、电商、商业化广告、国际化等多条业务线输出关键智能能力,推动前沿技术成为业务增长与产品创新的长期底座。
过去两年,团队在学术与产业两端同步推进,累计发表了 40 余篇顶会与期刊论文,沉淀了 InstantID、StoryMaker、FireRedTTS、FireRedASR 等具有行业影响力的开源与技术成果;在业务侧,成功孵化语音评论、文字大字报、长文、满屏高清等多项站内爆款功能。这里既做最前沿的模型,也把技术真正做成产品与影响力。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。