Hugging Face 发布 SmolVLA:经济高效的机器人紧凑型 VLA 模型
尽管近期通过大规模视觉-语言-动作 (VLA) 模型实现机器人控制取得了进展,但实际部署仍然受到硬件和数据需求的限制。大多数 VLA 模型依赖于基于 Transformer 的主干...
Hugging Face推出了SmolVLA,一个轻量级的视觉-语言-动作模型,旨在以低成本和高效能实现机器人控制。该模型基于社区数据训练,优化于单GPU或CPU环境,具备低延迟和高成功率,适用于多种机器人平台。SmolVLA的异步推理提高了控制效率,显著降低了计算需求,为未来的机器人学习研究奠定基础。
