T2M-HiFiGPT: 从文本描述中生成高质量的人体运动，使用离散残差表示

我们介绍了 T2M-HiFiGPT，这是一种生成人体动作的新型条件生成框架，其基于 RVQ-VAE 和双层 GPT 结构。我们的研究表明，我们基于 CNN 的 RVQ-VAE 能够产生高精度的 2D 时间 - 残差离散动作表示。我们的双层 GPT 结构包括了时间 GPT 和残差 GPT，能够有效地将先前帧和文本描述的信息压缩成 1D 上下文向量，并通过 RVQ-VAE...

T2M-HiFiGPT是一种新型条件生成框架，能够生成人体动作。它基于RVQ-VAE和双层GPT结构，研究表明RVQ-VAE能够产生高精度的2D时间-残差离散动作表示。双层GPT结构能够将先前帧和文本描述的信息压缩成1D上下文向量，并通过RVQ-VAE解码器将生成的残差离散指标转化回动作数据。该框架在HumanML3D和KIT-ML数据集上表现出色，优于最新的基于扩散和GPT的方法。

RVQ-VAE T2M-HiFiGPT 人体动作双层GPT 生成框架