LGTM: 本地到全局的文本驱动人体运动扩散模型
内容提要
本文提出了一种细粒度的人体动作生成方法,结合语言结构和上下文推理,根据文本描述生成高质量的动作序列。通过多种模型(如FG-MDM和MotionDiffuse),在多个数据集上表现优于现有技术,尤其在处理复杂文本描述时展现了更高的保真度和多样性。
关键要点
-
提出了一种细粒度的人体动作生成方法,结合语言结构和上下文推理。
-
该方法在 HumanML3D 和 KIT 测试集上表现优于现有技术,生成高质量的动作序列。
-
细粒度人体动作扩散模型 (FG-MDM) 能够生成多样化和高质量的人类动作,适用于训练数据分布之外的情况。
-
建立了大规模的细粒度文本-运动数据集 FineHumanML3D,并设计了新的文本生成运动模型 FineMotionDiffuse。
-
MotionDiffuse 是一种基于扩散模型的文本驱动运动生成框架,能够有效生成复杂和多种变化的人类运动。
-
提出了运动通用生成器(MotionGPT),首次使用多模态控制信号生成人类动作。
-
大运动模型(LMM)统一了运动生成任务,通过综合不同类型的运动数据实现广泛泛化。
-
适应性运动扩散 (AMD) 模型解决了复杂或长动作描述的问题,确保合成动作的语义保真度和多样性。
-
基础到高级的分层扩散模型(B2A-HDM)用于高质量的详细动作合成,优于现有顶尖方法。
延伸问答
细粒度人体动作生成方法的核心是什么?
该方法结合了语言结构和上下文推理,以生成高质量的动作序列。
FG-MDM模型在生成动作时有什么优势?
FG-MDM能够生成多样化和高质量的人类动作,尤其在训练数据分布之外表现优异。
FineHumanML3D数据集的目的是什么?
FineHumanML3D是一个大规模的细粒度文本-运动数据集,旨在支持更好的动作生成。
MotionDiffuse框架的主要功能是什么?
MotionDiffuse是一个基于扩散模型的框架,能够有效生成复杂和多样化的人类运动。
运动通用生成器(MotionGPT)有什么创新之处?
MotionGPT首次使用多模态控制信号作为输入生成连续的人类动作。
适应性运动扩散模型(AMD)解决了什么问题?
AMD模型解决了复杂或长动作描述的合成问题,确保动作的语义保真度和多样性。