机器之心 ·

稚晖君的「好东西」揭晓！首个通用具身基座模型，机器人告别「看得懂做不来」

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

智元机器人推出ViLLA架构和GO-1大模型，提升机器人训练效率。ViLLA通过预测隐式动作标记，帮助机器人理解人类视频并执行任务。GO-1结合多模态输入，具备强大的迁移学习能力，能快速适应新场景，提高成功率。

🎯

🔎

ViLLA架构通过预测隐式动作标记，显著提升了机器人对人类动作视频的理解能力。这一创新使得机器人不仅能识别动作，还能将其转化为可执行的任务序列，降低了机器人训练的复杂性和成本。

GO-1模型整合了视觉、语言、动作和触觉等多模态输入，增强了机器人的任务执行能力。通过学习互联网数据和人类操作视频，GO-1能够快速适应新场景，展现出强大的迁移学习能力，适合多种应用场景。

智元机器人秉持开源精神，已开源多个大规模训练数据集。这不仅推动了行业的技术共享，也为研究人员和开发者提供了宝贵的资源，促进了机器人技术的快速发展和应用。

❓

ViLLA架构通过预测隐式动作标记，帮助机器人将人类动作视频转化为可执行的动作序列，从而提升机器人训练效果。

GO-1大模型整合了视觉、语言、动作和触觉等多模态输入，具备强大的迁移学习能力，能够快速适应新场景。

GO-1模型通过学习互联网数据和人类操作视频，结合多模态输入，提升了机器人的任务执行能力，成功率提高了32%。

智元机器人通过ViLLA架构和GO-1模型，充分利用人类操作视频和互联网数据，降低了训练成本，提高了机器人进化速度。

GO-1模型的四项突破包括人类视频学习、小样本快速泛化、一脑多形和持续进化。

智元机器人开源了AgiBot World和AgiBot Digital World数据集，推动了机器人训练数据的共享与使用。

🏷️