Hugging Face 发布 SmolVLA:经济高效的机器人紧凑型 VLA 模型

Hugging Face 发布 SmolVLA:经济高效的机器人紧凑型 VLA 模型

💡 原文中文,约1900字,阅读约需5分钟。
📝

内容提要

Hugging Face推出了SmolVLA,一个轻量级的视觉-语言-动作模型,旨在以低成本和高效能实现机器人控制。该模型基于社区数据训练,优化于单GPU或CPU环境,具备低延迟和高成功率,适用于多种机器人平台。SmolVLA的异步推理提高了控制效率,显著降低了计算需求,为未来的机器人学习研究奠定基础。

🎯

关键要点

  • Hugging Face推出SmolVLA,一个轻量级的视觉-语言-动作模型,旨在以低成本和高效能实现机器人控制。

  • SmolVLA基于社区数据训练,优化于单GPU或CPU环境,具备低延迟和高成功率。

  • SmolVLA的异步推理提高了控制效率,显著降低了计算需求。

  • SmolVLA的架构包括感知模块和动作专家,能够通过自然语言指令和RGB摄像头输入实现高效控制。

  • 在模拟基准测试中,SmolVLA的平均成功率为87.3%,与大型模型相当。

  • SmolVLA在实际场景中的平均成功率高达78.3%,优于其他模型。

  • 异步推理方法将平均任务时间缩短约30%,提高了实时性能。

  • SmolVLA的开放训练和部署堆栈为进一步研究高效机器人学习奠定基础。

延伸问答

SmolVLA模型的主要特点是什么?

SmolVLA是一个轻量级的视觉-语言-动作模型,具备低延迟和高成功率,适用于单GPU或CPU环境,并采用异步推理提高控制效率。

SmolVLA在模拟测试中的表现如何?

在LIBERO基准测试中,SmolVLA的平均成功率为87.3%,与大型模型相当,表现优异。

SmolVLA如何实现低成本的机器人控制?

SmolVLA基于社区数据训练,优化于低成本硬件,采用异步推理降低计算需求,从而实现经济高效的机器人控制。

SmolVLA的异步推理有什么优势?

异步推理通过重叠预测和执行,能将平均任务时间缩短约30%,提高实时性能,适合边缘部署。

SmolVLA的开放性对研究有什么影响?

SmolVLA的开放训练和部署堆栈为进一步研究高效机器人学习奠定基础,促进了开放研究的发展。

SmolVLA的架构包含哪些主要部分?

SmolVLA的架构包括感知模块SmolVLM-2和动作专家,前者处理图像和语言指令,后者预测控制动作序列。

➡️

继续阅读