RDT——清华开源的双臂机器人“扩散动作大模型”(基于DiT改造而成):先预训练后微调,支持语言、图像、动作多种输入
💡
原文中文,约6600字,阅读约需16分钟。
📝
内容提要
清华大学研发了全球最大的双臂机器人扩散大模型RDT 2.1,旨在通过多机器人数据集进行预训练,并在特定双臂机器人上微调,以应对双手操作中的多模态性和数据异构性挑战。该模型结合了扩散建模和Transformer架构,整合视觉与语言输入,提升机器人在复杂任务中的表现。
🎯
关键要点
-
清华大学研发了全球最大的双臂机器人扩散大模型RDT 2.1。
-
RDT 2.1通过多机器人数据集进行预训练,并在特定双臂机器人上微调。
-
该模型旨在应对双手操作中的多模态性和数据异构性挑战。
-
RDT结合了扩散建模和Transformer架构,整合视觉与语言输入。
-
模型的预训练和微调流程旨在扩大数据规模,提升机器人在复杂任务中的表现。
-
RDT选择ALOHA双臂机器人作为目标机器人,适合通过远程操作收集人类演示数据。
-
模型面对的挑战包括多模态性和异构数据的处理。
-
扩散建模用于处理多模态性,避免学习动作模式的平均值。
-
RDT的架构包括多模态输入的编码和网络结构,采用Transformer作为骨干网络。
-
模型通过统一的动作空间设计,增强从不同机器人数据中学习的效率。
-
预训练数据集规模超过1M+条轨迹,涵盖46个机器人的数据集。
-
微调数据集包含6000多个轨迹,涵盖300多个具有挑战性的任务,确保数据集的高质量。
➡️