RDT——清华开源的双臂机器人“扩散动作大模型”(基于DiT改造而成):先预训练后微调,支持语言、图像、动作多种输入
💡
原文中文,约6600字,阅读约需16分钟。
📝
内容提要
清华大学研发了全球最大的双臂机器人扩散大模型RDT 2.1,旨在通过多机器人数据集进行预训练,并在特定双臂机器人上微调,以应对双手操作中的多模态性和数据异构性挑战。该模型结合了扩散建模和Transformer架构,整合视觉与语言输入,提升机器人在复杂任务中的表现。