IBM AI 发布 Granite-Docling-258M:一个开源、企业级文档 AI 模型

IBM 发布了Granite-Docling-258M,这是一个专为端到端文档转换而设计的开源 (Apache-2.0) 视觉语言模型。该模型旨在忠实布局地提取表格、代码、公式、列表、标题和阅读顺序,从而生成结构化、机器可读的表示形式,而非有损 Markdown。该模型已在 Hugging Face 上发布,并提供现场演示和适用于 Apple Silicon 的 MLX 构建。

IBM AI 发布 Granite-Docling-258M:一个开源、企业级文档 AI 模型

与 SmolDocling 相比有什么新功能?

Granite-Docling 是 SmolDocling-256M 的产品级后继产品。IBM 用Granite 165M语言模型替换了之前的主干模型,并将视觉编码器升级到SigLIP2(基础版,patch16-512),同时保留了 Idefics3 风格的连接器。最终模型拥有 2.58 亿个参数,在布局分析、全页 OCR、代码、公式和表格方面均显示出持续的准确率提升(参见下文指标)。IBM 还解决了预览模型中观察到的不稳定性故障模式(例如重复的令牌循环)。

架构和训练流程

  • 主干:带有 SigLIP2 视觉编码器的 Idefics3 衍生堆栈 → 像素混洗连接器 → Granite 165M LLM。
  • 训练框架: nanoVLM(轻量级、纯 PyTorch VLM 训练工具包)。
  • 表示:输出DocTags,这是 IBM 编写的标记,旨在实现明确的文档结构(元素 + 坐标 + 关系),下游工具将其转换为 Markdown/HTML/JSON。
  • 计算:在 IBM 的Blue Vela H100 集群上进行训练。

量化改进(Granite-Docling-258M 与 SmolDocling-256M 预览版)

使用docling-eval、LMMS-Eval 和特定任务数据集进行评估:

  • 布局: MAP 0.27 vs. 0.23;F1 0.86 vs. 0.85。
  • 全页 OCR: F1 0.84 对比 0.80;编辑距离较低。
  • 代码识别: F1 0.988 vs. 0.915;编辑距离0.013 vs. 0.114。
  • 方程识别: F1 0.968 vs. 0.947。
  • 表格识别(FinTabNet @150dpi): TEDS 结构0.97 vs. 0.82;带内容的 TEDS 0.96 vs. 0.76。
  • 其他基准测试: MMStar 0.30与 0.17;OCRBench 500与 338。
  • 稳定性: “更有效地避免无限循环”(面向生产的修复)。

多语言支持

Granite-Docling实验性地增加了对日语、阿拉伯语和中文的支持。IBM 将此标记为早期阶段;英语仍然是主要目标。

DocTags 路径如何改变 Document AI

传统的 OCR 到 Markdown 转换流程会丢失结构信息,并使下游的检索增强生成 (RAG) 变得复杂。Granite-Docling 会生成DocTags(一种紧凑且 LLM 友好的结构化语法),Docling 会将其转换为 Markdown/HTML/JSON。这可以保留表格拓扑、内联/浮动数学、代码块、标题以及带有明确坐标的阅读顺序,从而提高索引质量并为 RAG 和分析奠定基础。

推理与整合

  • Docling 集成(推荐): CLI docling/SDK 自动提取 Granite-Docling 并将 PDF/办公文档/图像转换为多种格式。IBM 将该模型定位为 Docling 流程内部的组件,而非通用的 VLM。
  • 运行时:可与TransformersvLLMONNXMLX配合使用;专用MLX版本针对 Apple Silicon 进行了优化。Hugging Face Space 提供了一个交互式演示(ZeroGPU)。
  • 许可证: Apache-2.0

为什么选择 Granite-Docling

对于企业文档 AI,保留结构的小型 VLM可降低推理成本和流程复杂性。Granite-Docling 用一个能够提供更丰富中间表示的组件取代了多个单一用途的模型(布局、OCR、表格、代码、公式),从而提升了下游检索和转换的保真度。表格的 TEDS、代码/公式的 F1 以及不稳定性方面的实测提升,使其成为 SmolDocling 在生产工作流程中的实用升级版。

总结

Granite-Docling-258M 标志着紧凑型、结构化文档 AI 领域的重大进步。通过结合 IBM 的 Granite 主干网、SigLIP2 视觉编码器和 nanoVLM 训练框架,它能够在表格、公式、代码和多语言文本中提供企业级性能,同时保持轻量级和 Apache 2.0 开源特性。Granite-Docling 相较于其前身 SmolDocling 取得了显著提升,并无缝集成到 Docling 流程中,为精度和可靠性至关重要的文档转换和 RAG 工作流程提供了实用基础。

参考资料:
https://huggingface.co/collections/ibm-granite/granite-docling-682b8c766a565487bcb3ca00

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/61679.html

(0)

相关推荐

发表回复

登录后才能评论