LaMP:用于运动生成、检索和描述的语言-运动预训练
原文中文,约500字,阅读约需2分钟。发表于: 。本研究解决了现有的运动生成方法在语言和运动对齐方面的不足。通过提出LaMP模型,转变为更适合语言-运动潜在空间的预训练,生成运动信息性更强的文本嵌入,并显著增强生成运动序列的相关性和语义。实验表明,LaMP在文本到运动生成、运动文本检索和运动描述三个关键任务上均表现出显著的提升。
MMM运动生成模型通过将3D人体动作转化为潜空间中的离散标记序列,实现高保真和快速的动作生成。它使用条件掩码动画变换器来捕捉动作标记之间的依赖性,并与文本标记进行语义映射,支持细粒度文本描述的动作解码。MMM还支持动作编辑,通过掩码标记实现平滑过渡。实验显示,MMM在生成质量和速度上优于现有方法,并支持身体部位修改和动作插值等高级编辑功能。