文本驱动的人体动作生成的逐渐丰富合成
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本研究提出了一种基于级联扩散的生成框架,用于文本驱动的人体动作合成。该框架利用了一种名为GUESS的策略,将人体姿态逐步抽象为多个粒度级别上的更粗糙的骨架,从而改善了跨模态动作合成任务。实验证明,GUESS优于现有方法。
🎯
关键要点
- 本研究提出了一种基于级联扩散的生成框架,用于文本驱动的人体动作合成。
- 该框架利用了一种名为GradUally Enriching SyntheSis(GUESS)的策略。
- GUESS策略通过将语义上紧密相连的身体关节进行聚类分组,逐步将人体姿态抽象为多个粒度级别上的更粗糙的骨架。
- 采用逐渐增加的抽象级别,人体动作变得更加简洁和稳定,显著改善了跨模态动作合成任务。
- 将文本驱动的人体动作合成问题划分为多个抽象级别,并利用级联潜在扩散模型的多阶段生成框架解决。
- 初始生成器从给定的文本描述中生成最粗糙的人体动作猜测,随后逐渐丰富动作细节。
- GUESS与动态多条件融合机制相结合,以动态平衡文本条件和合成粗动作提示的合作效应。
- 大规模数据集上的实验证明,GUESS在准确性、逼真度和多样性方面优于现有的最先进方法。
➡️