小红花·文摘

本研究提出了一种新框架MVideo，旨在解决文本到视频模型在生成复杂动作视频时的挑战。通过引入掩码序列作为运动条件输入，MVideo显著提高了视频生成的准确性和流畅度，增强了复杂动作的生成能力。