结构之法算法之道 ·

RDT——清华开源的双臂机器人“扩散动作大模型”(基于DiT改造而成)：先预训练后微调，支持语言、图像、动作多种输入

💡 原文中文，约6600字，阅读约需16分钟。

📝

内容提要

清华大学研发了全球最大的双臂机器人扩散大模型RDT 2.1，旨在通过多机器人数据集进行预训练，并在特定双臂机器人上微调，以应对双手操作中的多模态性和数据异构性挑战。该模型结合了扩散建模和Transformer架构，整合视觉与语言输入，提升机器人在复杂任务中的表现。

🎯

🔎

RDT模型在处理多模态输入时面临显著挑战。不同模态（如文本、图像和动作）具有不同的结构和信息量，这可能导致模型在训练过程中对某一模态的过度依赖。为了解决这一问题，研究团队采用了随机屏蔽技术，以确保模型能够有效整合来自各模态的信息，提升其在复杂任务中的表现。

RDT的成功在于其预训练和微调的策略。通过在大规模多机器人数据集上进行预训练，模型能够学习到丰富的物理知识，而后在特定双臂机器人上进行微调，以适应特定任务。这种方法不仅提高了数据的利用效率，还增强了模型在新任务中的泛化能力，尤其是在面对未知元素时。

RDT采用扩散建模来处理多模态性问题，这一方法能够有效避免学习动作模式的平均值，从而更好地捕捉到多样化的动作模式。尽管扩散模型在高维数据采样时可能较慢，但在RDT的设置中，由于动作维度较低，这一缺点被大大减轻，使得扩散模型成为理想的选择。

❓

RDT 2.1模型的主要目标是通过多机器人数据集进行预训练，并在特定双臂机器人上微调，以应对双手操作中的多模态性和数据异构性挑战。

RDT模型通过扩散建模来处理多模态性，并采用统一的动作空间设计来增强从不同机器人数据中学习的效率，以应对异构数据的挑战。

RDT模型首先在一个大型多机器人数据集上进行预训练，然后在目标双臂机器人上进行微调，以提高模型在复杂任务中的表现。

RDT模型结合了扩散建模和Transformer架构，整合视觉与语言输入，以提升机器人在复杂任务中的表现。

RDT模型的预训练数据集规模超过1M+条轨迹，涵盖46个机器人的数据集，微调数据集包含6000多个轨迹，确保数据集的高质量。

ALOHA双臂机器人被选择为目标机器人，因为它被认为是最具代表性的双臂机器人之一，适合通过远程操作收集人类演示数据。

🏷️