结构之法算法之道 ·

一次性总结数十个具身模型(2024-2025)：从训练数据、动作预测、训练方法到Robotics VLM、VLA(如π0等)

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

本文讨论了2024年具身模型和策略的发展，重点在于训练数据来源、动作预测策略和模型训练方法。通过预训练和微调，提升了机器人策略的泛化能力，强调了数据和架构的重要性。

🎯

🔎

文章强调了训练数据来源对具身模型性能的关键影响。人类行为视频和仿真数据的结合，能够有效提升模型在真实环境中的适应能力。读者应关注数据的多样性和质量，这将直接影响模型的泛化能力和实际应用效果。

具身模型中的动作预测策略如iDP3和RDT，利用先进的扩散模型和去噪技术，显著提升了机器人在复杂环境中的表现。这些策略的创新为未来机器人技术的发展提供了新的思路，值得关注其在实际应用中的效果和局限性。

文章提到的预训练和微调方法，借鉴了大语言模型的发展路径。这种方法不仅提高了模型的性能，也降低了针对特定任务的微调需求。读者应注意这种方法在不同应用场景中的适用性，以及可能面临的训练成本和时间挑战。

❓

主要集中在训练数据来源、动作预测策略和模型训练方法。

训练数据来源包括人类行为视频数据和仿真数据。

常见的动作预测策略包括iDP3和RDT等，利用扩散模型和联合去噪技术。

模型训练方法强调预训练和微调的结合，通过对机器人数据的二次预训练提升泛化能力。

具身模型借鉴了大语言模型的预训练-微调模式，引入了RLHF等技术以提升策略的有效性。

微调可以在真实环境中提升模型的适应性和泛化能力，是训练过程中的关键步骤。

🏷️