💡
原文英文,约200词,阅读约需1分钟。
📝
内容提要
本文提出了一种新方法ETVA,用于精确评估文本提示与生成视频之间的语义对齐。ETVA通过生成细粒度问题并进行回答,克服了现有指标的局限性。实验结果表明,ETVA与人类判断的相关性显著高于现有指标,并构建了一个包含2000个提示和12000个问题的基准,推动了文本到视频生成的发展。
🎯
关键要点
- 精确评估文本提示与生成视频之间的语义对齐是文本到视频生成中的挑战。
- 现有的文本到视频对齐指标如CLIPScore只能生成粗粒度分数,缺乏细粒度对齐细节。
- 为了解决这一局限性,提出了一种新方法ETVA,通过生成细粒度问题并进行回答来评估对齐。
- ETVA使用多代理系统将提示解析为语义场景图,以生成原子问题。
- 设计了一个知识增强的多阶段推理框架进行问题回答,辅助LLM检索相关常识知识。
- 实验结果表明,ETVA的斯皮尔曼相关系数为58.47,显著高于现有指标的31.0。
- 构建了一个专门用于文本到视频对齐评估的基准,包含2000个多样化提示和12000个原子问题。
- 通过对15个现有文本到视频模型的系统评估,识别其关键能力和局限性,为下一代T2V生成铺平道路。
- 所有代码和数据集将很快公开发布。
❓
延伸问答
ETVA方法的主要目的是什么?
ETVA方法旨在精确评估文本提示与生成视频之间的语义对齐。
ETVA如何克服现有文本到视频对齐指标的局限性?
ETVA通过生成细粒度问题并进行回答,提供比现有指标更详细的对齐评估。
ETVA的实验结果如何?
ETVA的斯皮尔曼相关系数为58.47,显著高于现有指标的31.0。
ETVA使用了什么样的系统来解析提示?
ETVA使用多代理系统将提示解析为语义场景图,以生成原子问题。
ETVA构建了什么样的基准?
ETVA构建了一个包含2000个多样化提示和12000个原子问题的基准,用于文本到视频对齐评估。
ETVA对现有文本到视频模型的评估结果如何?
ETVA通过对15个现有文本到视频模型的系统评估,识别其关键能力和局限性。
➡️