文本驱动的人体动作生成的逐渐丰富合成

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本研究提出了一种基于级联扩散的生成框架,用于文本驱动的人体动作合成。该框架利用了一种名为GUESS的策略,将人体姿态逐步抽象为多个粒度级别上的更粗糙的骨架,从而改善了跨模态动作合成任务。实验证明,GUESS优于现有方法。

🎯

关键要点

  • 本研究提出了一种基于级联扩散的生成框架,用于文本驱动的人体动作合成。
  • 该框架利用了一种名为GradUally Enriching SyntheSis(GUESS)的策略。
  • GUESS策略通过将语义上紧密相连的身体关节进行聚类分组,逐步将人体姿态抽象为多个粒度级别上的更粗糙的骨架。
  • 采用逐渐增加的抽象级别,人体动作变得更加简洁和稳定,显著改善了跨模态动作合成任务。
  • 将文本驱动的人体动作合成问题划分为多个抽象级别,并利用级联潜在扩散模型的多阶段生成框架解决。
  • 初始生成器从给定的文本描述中生成最粗糙的人体动作猜测,随后逐渐丰富动作细节。
  • GUESS与动态多条件融合机制相结合,以动态平衡文本条件和合成粗动作提示的合作效应。
  • 大规模数据集上的实验证明,GUESS在准确性、逼真度和多样性方面优于现有的最先进方法。
➡️

继续阅读