Hugging Face 发布 SmolVLA:经济高效的机器人紧凑型 VLA 模型

尽管近期通过大规模视觉-语言-动作 (VLA) 模型实现机器人控制取得了进展,但实际部署仍然受到硬件和数据需求的限制。大多数 VLA 模型依赖于基于 Transformer 的主干网络,其中包含数十亿个参数,这会导致巨大的内存和计算成本。这使得实验只能在资源充足的实验室和云端进行,从而将使用低成本硬件的实践者排除在外。此外,VLA 研究的当前进展大多仍处于专有阶段或基于不可复现的方法,这阻碍了开放研究的开展。最后,跨机器人平台的数据异构性——形态、传感器和控制模式的差异,对泛化能力和跨平台学习提出了进一步的挑战。

Hugging Face 推出 SmolVLA:轻量级、开放的 VLA 框架

Hugging Face 推出了SmolVLA,这是一款紧凑的视觉-语言-动作模型,旨在实现经济实惠和高效部署。与传统的 VLA 不同,SmolVLA 完全基于社区收集的数据集进行训练,并针对单 GPU 或 CPU 环境进行了优化。该模型架构集成了精简版的预训练视觉-语言模型 (SmolVLM-2) 和基于 Transformer 的动作专家。这种结构能够通过自然语言指令和 RGB 摄像头输入实现高效的低级控制。

Hugging Face 发布 SmolVLA:经济高效的机器人紧凑型 VLA 模型

SmolVLA 的显著特点是其异步推理堆栈,将动作预测与执行解耦。这种设计实现了适用于实时应用的低延迟控制,即使在资源受限的环境中也是如此。SmolVLA 采用开放许可发布,并附带代码、训练数据和部署工具。

架构概述和设计权衡

SmolVLA 模型由两个主要部分组成:

  • 感知模块 (SmolVLM-2):一个预训练的紧凑型视觉语言编码器,用于处理 RGB 图像序列、感觉运动状态和语言指令。为了提高效率,该模型通过下采样限制了视觉 token,并且仅使用 Transformer 层的下半部分,这是基于经验发现,即较早的层通常能够产生更多可迁移的特征。
  • 动作专家(Action Expert):一个轻量级的Transformer,经过流匹配训练,可以预测连续控制动作序列。该动作专家在自注意力层和交叉注意力层之间交替切换,平衡内部动作的连贯性并根据感知输入进行条件反射。因果掩蔽用于增强时间一致性。

为了减少计算开销,我们使用线性投影来对齐模态的 token 维度。生成动作块而非单步预测,从而降低了推理调用的频率。该模型使用 bfloat16 精度进行训练,并利用 Torch 的 JIT 编译进行运行时优化。

实证评估:模拟与现实世界表现

SmolVLA 在模拟基准测试(LIBERO 和 Meta-World)以及使用低成本 SO100 和 SO101 平台的真实机器人任务中进行了评估。该模型在 481 个社区数据集上从头开始训练,共约 23,000 个片段,并使用 VLM 自动生成任务标签。评估指标包括分布内和分布外条件下的任务级成功率。

LIBERO基准测试中,SmolVLA(0.45B)的平均成功率为 87.3%,与 π₀(3.3B)等大型模型相当甚至略胜一筹。在Meta-World中,该模型在各个任务难度级别上的表现均优于扩散策略和小规模 VLA。考虑到 SmolVLA 的训练占用空间较小且无需针对机器人技术进行预训练,这些结果意义非凡。

Hugging Face 发布 SmolVLA:经济高效的机器人紧凑型 VLA 模型

在实际场景中,SmolVLA 在拾取、堆叠和排序任务中的平均成功率高达 78.3%,优于 ACT(从零开始训练)和 π₀(经过微调)。此外,SmolVLA 能够泛化至各种机器人模型,尽管仅基于 SO100 数据进行训练,但仍能保持 SO101 上的性能。

异步推理的性能影响

SmolVLA 的异步推理堆栈通过重叠预测和执行来提升控制效率。与传统的同步推理相比,这种方法可将平均任务时间缩短约 30%,并在固定时间场景下使完成的操作数量翻倍。这对于推理延迟会降低实时性能的边缘部署尤其有益。

结论

SmolVLA 证明了紧凑、可复现且开源的 VLA 模型能够在低成本硬件上支持高效的机器人控制。通过精心的架构选择——层级剪枝、分块动作预测和异步执行,SmolVLA 在保持性能的同时显著降低了计算需求。

该模型的开放训练和部署堆栈,结合实际测试,为进一步研究高效便捷的机器人学习奠定了实践基础。未来的研究方向包括扩展跨实体数据集、在不牺牲延迟的情况下扩展模型容量,以及探索在机器人数据之外的多模态语料库上进行联合训练。

论文地址:https://huggingface.co/lerobot/smolvla_base

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/58562.html

(0)

相关推荐

发表回复

登录后才能评论