Zyphra发布Zamba2-VL:混合Mamba2-Transformer视觉语言模型

Zyphra 发布了 Zamba2-VL,这是一系列开放的视觉语言模型。该版本涵盖三种规模:12 亿、27 亿和 70 亿参数。每个模型都基于 Zamba2 混合 SSM-Transformer 架构构建。

视觉语言模型(VLM)能够同时读取图像和文本,并回答有关图表、文档和照片的问题。大多数开源VLM使用密集Transformer作为语言模型。Zamba2-VL则用混合状态空间设计取代了它,其目标是在更低延迟下实现具有竞争力的准确率。

什么是 Zamba2-VL

Zamba2-VL 遵循目前标准的 LLaVA 式 VLM 模板。预训练的视觉编码器将图像块转换为特征。轻量级的 MLP 适配器将这些特征投影到语言模型的坐标系中。然后,语言模型读取交错的视觉和文本标记序列。该模型支持单图像和多图像的理解与关联。

Zyphra 将每个 Zamba2 主干网与 Qwen2.5-VL 的 Vision Transformer 编码器配对。选择该编码器是基于其两个特定特性:它采用二维旋转位置嵌入和原生动态分辨率处理。一个双层 MLP 适配器将编码器连接到主干网。

Zyphra发布Zamba2-VL:混合Mamba2-Transformer视觉语言模型

架构

Zamba2 的主干网是其设计与典型 VLM 的主要区别所在。它是由 Mamba2 状态空间层和共享 Transformer 模块混合而成。Mamba2 层以线性时间运行,状态大小固定。少量共享注意力层交错于它们之间。每个共享模块的每一层都承载着一个唯一的 LoRa 适配器。

Mamba2 层承担了大部分计算任务,且计算成本很低。共享注意力层保留了纯 SSM 模型所放弃的上下文信息检索能力。这种混合模型以完全注意力表达能力和状态空间效率为代价。

Zamba2-VL 使用 Mistral v0.1 分词器。它使用 1000 亿个视觉文本和纯文本词元进行训练。这些数据来源于开放的网络数据集。

Zyphra发布Zamba2-VL:混合Mamba2-Transformer视觉语言模型

模型质量和基准

研究团队对 Zamba2-VL 进行了 14 项基准测试,涵盖图表、示意图和文档理解,以及一般感知、推理和视觉计数能力。所有分数均来自 Zyphra 基于 VLMEvalKit 的评估工具。该报告将 Zamba2-VL 与 Molmo2、Qwen3-VL 和 InternVL3.5 系列进行了比较。

评估Zamba2-VL-2.7BInternVL3.5-2BQwen3-VL-2BMolmo2-4BQwen3-VL-4B
DocVQA(test)90.989.493.387.895.3
ChartQA(test)79.681.678.786.181.8
OCRBench73.683.484.162.084.1
CountBenchQA87.570.087.991.287.3
PixMoCount(test)82.532.855.787.089.2
MMMU(val)37.749.940.948.851.4
MathVista(mini)51.061.451.856.563.6

InternVL3.5-2B 和 Qwen3-VL-2B 尺寸相近。Molmo2-4B 和 Qwen3-VL-4B 尺寸更大。

这种模式并不均衡,值得深入理解。计数是表现最强的类别。Zyphra 报告称,Zamba2-VL-1.2B 在 PixMoCount 测试中得分为 62.5。相比之下,InternVL3.5-1B 的得分为 32.8,PerceptionLM-1B 的得分为 17.7。文档理解方面也表现出色,2.7B 模型的 DocVQA 得分为 90.9。但在知识密集型推理方面,该模型落后于 MMMU 和 MathVista 等规模更大的基线模型。

为什么推理速度更快

Zamba2-VL 的主要优势体现在推理环节。Transformer 的注意力机制会随着序列长度呈二次方增长。多模态输入会迅速拉长序列长度。一张高分辨率图像就能产生数千个视觉标记。一段短视频就能产生数万个标记。

Zamba2-VL 避免了注意力机制中不断增长的键值缓存。它继承了近乎线性时间的预填充机制和固定大小的循环状态。在 32k 个 token 的预填充任务中,它在得分与 TTFT 的关系图中领先。对比中没有其他 Transformer VLM 能在类似的延迟下达到与其相同的得分。延迟差距至少有一个数量级。

在 12 亿和 27 亿规模下,效率优势最为显著。这正是设备端和边缘部署的目标规模。

场景及示例

实际问题在于它适用于哪些场景。文档和表单提取受益于 DocVQA 的出色性能。例如,大规模的发票解析或收据数字化。零售和库存盘点则与 PixMoCount 和 CountBenchQA 的优势相契合。接地支持功能可指向产品或 UI 图像中的对象。设备端助手受益于其极低的首次令牌获取时间。12 亿版本主要面向手机和边缘设备。对于多页 PDF 等长篇视觉输入,线性时间预填充功能优势最为显著。

优缺点

优点:

  • 据 Zyphra 称,这是第一个基于完全开放的混合 SSM-Transformer LLM 的开放式 VLM 系列。
  • 首次令牌生成时间比同类 Transformer 基线低一个数量级。
  • 具备较强的视觉计数能力和对竞争性文件的理解能力。
  • 三种尺寸涵盖边缘、中部和 7B 级部署。
  • 采用 Apache 2.0 许可证,包含公开的权重和可运行的推理代码。

缺点和挑战:

  • 作为研究成果发布。
  • 在知识推理方面落后于 MMMU 和 MathVista 等大型模型。
  • OCRBench 性能低于同尺寸的 Qwen3-VL 和 InternVL3.5。
  • 优化后的内核需要 CUDA GPU;CPU 路径速度较慢。
  • 部署需要从已发布的代码进行自托管。

要点总结

  • Zamba2-VL 在 Apache 2.0 下以 1.2B、2.7B 和 7B 参数交付。
  • 主干网将 Mamba2 状态空间层与一些共享的 Transformer 模块配对。
  • 与同类 Transformer VLM 相比,首次令牌生成时间下降了一个数量级。
  • 计数和文档理解能力强;知识推理能力弱。
  • 权重和工作推理代码已在 Hugging Face 和 GitHub 上公开。

参考资料:

  • https://arxiv.org/pdf/2606.00390
  • https://github.com/Zyphra/transformers/tree/zamba2-vl
  • https://huggingface.co/collections/Zyphra/zamba2-vl

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/67908.html

(0)

相关推荐