本研究提出了一种新框架MVideo,旨在解决文本到视频模型在生成复杂动作视频时的挑战。通过引入掩码序列作为运动条件输入,MVideo显著提高了视频生成的准确性和流畅度,增强了复杂动作的生成能力。
完成下面两步后,将自动完成登录并继续当前操作。