结构之法算法之道 ·

DexVLA——在VLM上插上1B大小的扩散动作专家：使用带有子步骤推理注释的演示数据训练，15小时搞定叠衣服(含源码解析)

💡 原文中文，约10200字，阅读约需25分钟。

📝

内容提要

本文介绍了DexVLA模型的开发，旨在提升机器人在多样环境中执行复杂任务的能力。通过引入扩散动作专家和具身课程学习，DexVLA优化了机器人对语言指令的理解和动作执行。研究者提出了三阶段训练策略，逐步提高任务复杂性，最终实现高效的衣物折叠等任务。

🎯

🔎

DexVLA模型通过引入扩散动作专家和具身课程学习，显著提升了机器人在复杂任务中的表现。其三阶段训练策略不仅优化了学习过程，还有效减少了对大量数据的需求，使得机器人能够在多样化环境中更灵活地执行任务。

DexVLA在执行如折叠衣物等复杂任务时，展现出高成功率且无需特定适应。这表明其模型架构和训练策略能够有效应对多种任务，具有较强的适应性和灵活性，适合在家庭等多样化环境中应用。

使用带有子步骤推理注释的演示数据训练，显著提升了DexVLA在长时间任务中的执行能力。研究表明，子步骤推理能够帮助模型更好地理解任务结构，避免在复杂任务中遗漏关键步骤，从而提高整体性能。

❓

DexVLA模型旨在提升机器人在多样环境中执行复杂任务的能力。

DexVLA通过引入扩散动作专家和具身课程学习来优化机器人对语言指令的理解和动作执行。

三阶段训练策略包括跨体态预训练、主体特定对齐和任务特定适应。

DexVLA在折叠衣物任务中表现出高成功率，接近满分（0.92），且无需任务特定适应。

DexVLA通过课程学习策略，使模型从简单到复杂逐步学习，减少了数据需求。

DexVLA的扩散动作专家采用多头架构，参数规模高达1B，能够在多样的形态中有效学习。

🏷️