OMG:通过混合控制器实现开放词汇的动作生成
原文中文,约300字,阅读约需1分钟。发表于: 。基于 OMG 框架,我们通过预训练和微调将文本转动作的生成过程进行改进,并引入 motion ControlNet 和 Mixture-of-Controllers 模块,实现了针对零样本文本生成动作的显著提升。
通过量化多种身体部位的运动为其各自领域定制的码本,利用预训练模型将多模态信号转换为共享的潜在空间,并通过逐步预测后续令牌形成完整序列来将这些信号转换成离散的运动令牌,最后从令牌序列中重构连续的实际运动。研究方法将多模态动作生成挑战框架定义为令牌预测任务,利用基于控制信号模态的专门码本,具有可扩展性,能够轻松整合新的模态。实验证明了设计的有效性并强调了广泛应用的潜力。