本文介绍了一种名为Gen-L-Video的方法,利用短视频扩散模型生成和编辑长视频,解决了文本驱动的人体动作生成中的位置约束和不稳定性问题。通过优化奖励设计和引入新框架,提升了文本与动作的对齐和泛化能力,实现高质量的多主体运动序列生成。
本文提出了一种新方法,通过将任务分解为语言准确性和运动生成,生成3D室内场景中的人体动作。研究利用大规模数据集和基于Transformer的框架,实现高多样性和保真度的多主体运动序列,并综述了文本、音频和场景条件下的人体运动生成方法,讨论了未来研究方向。
完成下面两步后,将自动完成登录并继续当前操作。