本研究提出了一种新框架MVideo,旨在解决文本到视频模型在生成复杂动作视频时的挑战。通过引入掩码序列作为运动条件输入,MVideo显著提高了视频生成的准确性和流畅度,增强了复杂动作的生成能力。
本研究提出了一种新方法,通过将复杂动作分解为简单运动,结合扩散模型生成未见过的真实3D人类运动。实验结果表明,该方法在生成新动作类别方面具有显著潜力和实用价值。
完成下面两步后,将自动完成登录并继续当前操作。