这篇文章介绍了StoryBench,一个用于评估文本到视频模型的多任务基准。基准包括三个难度逐渐增加的视频生成任务,并展示了使用现有视频标题算法生成的数据进行训练的好处。文章还强调了对于视频生成而言更好的自动度量指标的需求。
局部和全局会话模型(LGCM)能够准确辨别和吸收生成回答所需的相关上下文,实验证明其在自动度量指标的性能上超过了现有的对话模型,并具有显著优势。
该文介绍了一个新的、具有挑战性的多任务基准——StoryBench,用于评估文本到视频模型。该基准包括三个逐渐增加难度的视频生成任务,并为人工评估视频故事建立了指南。强调了对于视频生成而言更好的自动度量指标的需求,该基准旨在鼓励未来在这个令人兴奋的新领域中的研究。
完成下面两步后,将自动完成登录并继续当前操作。