本文提出了一种新方法ETVA,用于精确评估文本提示与生成视频之间的语义对齐。ETVA通过生成细粒度问题并进行回答,克服了现有指标的局限性。实验结果表明,ETVA与人类判断的相关性显著高于现有指标,并构建了一个包含2000个提示和12000个问题的基准,推动了文本到视频生成的发展。
完成下面两步后,将自动完成登录并继续当前操作。