探索人类偏好的文本生成动作

💡 原文中文,约1700字,阅读约需4分钟。
📝

内容提要

本文研究了基于 VQ-VAE 和 GPT 的人体运动生成框架,提出了多种提升生成质量的方法,包括运动检索、文本生成评估和无监督学习。通过创新模型和数据集,展示了在复杂文本描述下生成高质量、丰富多样的3D动作序列的能力,尤其在 HumanML3D 和 KIT-ML 数据集上表现优异。

🎯

关键要点

  • 本文研究了基于 VQ-VAE 和 GPT 的人体运动生成框架,提出了多种提升生成质量的方法。
  • 通过常用的训练配方(EMA 和 Code Reset),获得高质量的离散表示。
  • 采用简单的损坏策略缓解训练 - 测试偏差,在 HumanML3D 数据集上表现优异。
  • 探讨基于文本描述的运动检索任务,利用姿态估计和 Motion Transformer 模型进行内容检索。
  • 介绍基于统计模型的文本生成评估方法,改进评估准确度,减少人工评注需求。
  • 提出新颖的 GPT-connect 框架,连接人体运动生成器与三维场景,实现直接生成运动序列。
  • 在零样本学习中使用预训练的运动生成器重建全动作,提升效率和稳定性。
  • 介绍优先级中心的运动分散扩散模型(M2DM),生成丰富多样的语义动作。
  • 建立大规模细粒度文本 - 运动数据集 FineHumanML3D,设计新的文本生成运动模型 FineMotionDiffuse。
  • 提出模仿 GPT 的模型架构,联合训练动物和人类运动的运动自编码器,生成高多样性和逼真度的动物运动。
  • 推出 AnimalML3D 数据集,解决文本驱动动物运动生成中的数据稀缺问题。
  • 结合语言结构辅助模块和上下文感知渐进推理模块,生成高质量、有条件的人体动作序列。

延伸问答

本文提出了哪些提升人体运动生成质量的方法?

本文提出了运动检索、文本生成评估和无监督学习等多种提升生成质量的方法。

什么是GPT-connect框架,它的作用是什么?

GPT-connect框架连接人体运动生成器与三维场景,实现直接生成结合场景的运动序列。

FineHumanML3D数据集的目的是什么?

FineHumanML3D数据集旨在建立一个大规模细粒度的文本-运动数据集,以更好地生成空间/时间上的综合动作。

如何通过文本描述生成动物运动序列?

通过设计模仿GPT的模型架构,联合训练动物和人类运动的运动自编码器,可以生成高多样性和逼真度的动物运动序列。

本文中提到的运动分散扩散模型(M2DM)有什么特点?

M2DM利用基于Transformer的VQ-VAE得出简洁的、离散的动作表示,并通过全局自注意机制生成丰富多样的语义动作。

如何评估基于文本生成的动作的质量?

通过基于统计模型的文本生成评估方法,结合自动化度量和人工评级,可以提高评估准确度,减少人工评注需求。

➡️

继续阅读