结构之法算法之道 ·

SmolVLA——Hugging Face等机构推出的轻量且高效的VLA：将动作执行、观测处理、动作预测解耦

💡 原文中文，约10300字，阅读约需25分钟。

📝

内容提要

自6月以来，团队在机器人领域快速推进，开发了SmolVLA模型，以提升机器人在新环境中的适应能力。该模型结合视觉、语言和动作（VLA），优化了训练和推理效率，并利用社区数据进行预训练，展现出强大的泛化能力和性能。

🎯

🔎

SmolVLA模型采用轻量级架构，专为消费级GPU训练和CPU部署优化。这种设计使得开发者能够在资源有限的情况下，依然实现高效的机器人控制和推理，降低了技术门槛，促进了更广泛的应用。

SmolVLA引入的异步推理架构将动作执行与观测处理解耦，显著降低了延迟。这一创新使得机器人在动态环境中能够更快响应，提高了实际应用中的灵活性和效率，尤其适合需要实时反应的场景。

尽管SmolVLA使用的数据量远低于传统模型，但其依然展现出强大的性能。这表明，模型的设计和训练方法在数据利用效率上具有显著优势，未来可能推动更多小数据集的应用研究。

❓

SmolVLA模型结合视觉、语言和动作，提升机器人在新环境中的适应能力。

SmolVLA通过轻量级架构、跳过部分层级、使用少量视觉token和异步推理架构来优化训练和推理效率。

SmolVLA的预训练数据来自公开的社区贡献数据集，总共不到3万个样本。

在推理阶段，SmolVLA引入异步执行栈，将动作执行与感知和预测解耦，从而实现更快的控制响应。

SmolVLA模型主要由预训练的视觉-语言模型和流匹配动作专家组成。

尽管使用的数据量较少，SmolVLA模型展现出强大的泛化能力和性能，能够适应多样化的任务和行为。

🏷️