小红花·文摘

该研究提出了Make-A-Video方法，通过文本生成视频，提升了时空分辨率和文本保真度。评估结果表明，自然性和语义匹配是关键因素。开源模型如VideoPoet和Sora在视频生成方面表现优异，推动了技术进步。此外，研究还探讨了人体视频生成的基本原理、模型发展及未来方向。