RDT——清华开源的双臂机器人“扩散动作大模型”(基于DiT改造而成):先预训练后微调,支持语言、图像、动作多种输入

💡 原文中文,约6600字,阅读约需16分钟。
📝

内容提要

清华大学研发了全球最大的双臂机器人扩散大模型RDT 2.1,旨在通过多机器人数据集进行预训练,并在特定双臂机器人上微调,以应对双手操作中的多模态性和数据异构性挑战。该模型结合了扩散建模和Transformer架构,整合视觉与语言输入,提升机器人在复杂任务中的表现。

🎯

关键要点

  • 清华大学研发了全球最大的双臂机器人扩散大模型RDT 2.1。

  • RDT 2.1通过多机器人数据集进行预训练,并在特定双臂机器人上微调。

  • 该模型旨在应对双手操作中的多模态性和数据异构性挑战。

  • RDT结合了扩散建模和Transformer架构,整合视觉与语言输入。

  • 模型的预训练和微调流程旨在扩大数据规模,提升机器人在复杂任务中的表现。

  • RDT选择ALOHA双臂机器人作为目标机器人,适合通过远程操作收集人类演示数据。

  • 模型面对的挑战包括多模态性和异构数据的处理。

  • 扩散建模用于处理多模态性,避免学习动作模式的平均值。

  • RDT的架构包括多模态输入的编码和网络结构,采用Transformer作为骨干网络。

  • 模型通过统一的动作空间设计,增强从不同机器人数据中学习的效率。

  • 预训练数据集规模超过1M+条轨迹,涵盖46个机器人的数据集。

  • 微调数据集包含6000多个轨迹,涵盖300多个具有挑战性的任务,确保数据集的高质量。

➡️

继续阅读