基于多条件扩散模型的语言驱动场景合成

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种名为MCM的框架,结合了多种条件输入,如文本、音乐、语音等,实现了多条件人体动作合成任务。同时,引入了一种基于Transformer的扩散模型MWNet,通过自注意力模块捕捉运动序列中的空间复杂性和关节之间的相关性。实验结果表明,该方法在文本到动作任务中取得了SOTA结果,在音乐到舞蹈任务中也取得了竞争性结果。同时,MCM还实现了有效的多条件模态控制,训练一次即可生成无限动作。

🎯

关键要点

  • MCM框架结合多种条件输入,如文本、音乐、语音,实现多条件人体动作合成任务。

  • 引入基于Transformer的扩散模型MWNet,通过自注意力模块捕捉运动序列的空间复杂性和关节相关性。

  • 实验结果显示,该方法在文本到动作任务中取得SOTA结果,在音乐到舞蹈任务中也表现竞争力。

  • MCM简化了原本设计用于文本到动作的方法在其他领域的适应性,消除了对网络重构的需求。

  • 实现有效的多条件模态控制,训练一次即可生成无限动作。

➡️

继续阅读