π0——用于通用机器人控制的VLA模型:一套框架控制7种机械臂(基于PaliGemma和流匹配的3B模型)

💡 原文中文,约3800字,阅读约需9分钟。
📝

内容提要

本文介绍了清华大学的机器人控制大模型π0,该模型结合视觉、语言和动作数据,旨在提升机器人在多任务中的表现。通过预训练和微调,模型能够有效处理复杂物理任务,展现出高频灵巧控制能力。

🎯

关键要点

  • 清华大学的机器人控制大模型π0结合视觉、语言和动作数据,旨在提升机器人多任务表现。
  • 通用基础模型在多任务数据上预训练后,通常比专门定制的模型表现更佳。
  • 开发通用机器人策略面临挑战,包括大规模预训练、合适的模型架构和正确的训练策略。
  • π0模型使用预训练的视觉-语言模型(VLM)和动作专家,通过流匹配输出动作。
  • 模型能够以高达50 Hz的频率控制机器人进行灵巧任务,如折叠衣物。
  • 预训练阶段结合多样的语言标签,旨在训练一个展示广泛能力的基础模型。
  • π0模型主要由语言模型transformer骨干组成,使用条件流匹配建模动作的连续分布。
  • 模型设计灵感来自Transfusion,通过多重目标训练单一变压器,提升性能。
  • 动作专家使用全双向注意力掩码,确保动作token之间的相互关注。
  • 作者使用PaliGemma作为基础模型,结合动作专家,总参数达到33亿。
➡️

继续阅读