结构之法算法之道 ·

从MDM、RobotMDM到UC San Diego的Exbody(含Exbody 2)——人体运动扩散模型：赋能机器人的训练

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

文章介绍了OmniH2O人形机器人，通过语音指令和预训练的文本到人体动作生成扩散模型（MDM）来控制动作。MDM利用文本提示生成多样化动作，体现文本到动作的多对多映射。其目标是在特定条件下合成人体动作，支持多种输入。扩散建模采用马尔可夫噪声过程，并使用几何损失正则化生成自然连贯的动作。

🎯

🔎

MDM模型不仅支持文本到动作的转换，还能处理音频和离散类别输入。这种多样化的输入方式使得机器人能够在不同场景下灵活应对，提升了人形机器人的实用性和适应性。用户在使用时，可以根据具体需求选择合适的输入方式，从而实现更精准的动作控制。

几何损失在MDM模型中起到了关键作用，它通过强化物理属性来确保生成动作的自然性和连贯性。这意味着在实际应用中，机器人执行的动作不仅要符合指令，还需在物理上合理，避免出现不自然的动作表现。开发者在训练模型时应重视几何损失的调节，以提高机器人的表现。

扩散建模采用马尔可夫噪声过程，这一技术虽然能生成高质量的动作，但也面临着计算复杂度和训练时间的挑战。开发者需要在模型的精度与效率之间找到平衡，以确保在实际应用中能够快速响应用户指令。关注模型的优化和训练策略将是提升性能的关键。

❓

MDM是人体动作生成的扩散模型，主要功能是通过文本提示生成多样化的人体动作。

MDM通过条件化CLIP模型，在无分类器的情况下实现文本到动作的转换。

MDM支持音频、自然语言和离散类别等多种输入类型。

扩散建模在MDM中采用马尔可夫噪声过程，逐步清理生成的动作序列。

几何损失用于强化物理属性，促进生成动作的自然和连贯性。

OmniH2O机器人通过语音指令和MDM生成的动作目标来控制其动作。

🏷️