ETVA：通过细粒度问题生成与回答评估文本到视频的对齐

Precisely evaluating semantic alignment between text prompts and generated videos remains a challenge in Text-to-Video (T2V) Generation. Existing text-to-video alignment metrics like CLIPScore...

本文提出了一种新方法ETVA，用于精确评估文本提示与生成视频之间的语义对齐。ETVA通过生成细粒度问题并进行回答，克服了现有指标的局限性。实验结果表明，ETVA与人类判断的相关性显著高于现有指标，并构建了一个包含2000个提示和12000个问题的基准，推动了文本到视频生成的发展。

ETVA 基准文本提示生成视频语义对齐