小红花·文摘

该文介绍了一个新的、具有挑战性的多任务基准——StoryBench，用于评估文本到视频模型。该基准包括三个逐渐增加难度的视频生成任务，并为人工评估视频故事建立了指南。强调了对于视频生成而言更好的自动度量指标的需求，该基准旨在鼓励未来在这个令人兴奋的新领域中的研究。