Apple Machine Learning Research ·

ETVA：通过细粒度问题生成与回答评估文本到视频的对齐

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

本文提出了一种新方法ETVA，用于精确评估文本提示与生成视频之间的语义对齐。ETVA通过生成细粒度问题并进行回答，克服了现有指标的局限性。实验结果表明，ETVA与人类判断的相关性显著高于现有指标，并构建了一个包含2000个提示和12000个问题的基准，推动了文本到视频生成的发展。

🎯

🔎

ETVA方法通过细粒度问题生成与回答，显著提升了文本与视频之间的语义对齐评估。这种方法不仅克服了现有指标的局限性，还通过多代理系统解析提示，生成原子问题，增强了评估的准确性。

构建的基准包含2000个提示和12000个问题，为文本到视频生成领域提供了系统的评估工具。这一基准的推出将有助于研究者更好地理解现有模型的能力与局限性，从而推动技术进步。

ETVA的实验结果显示其斯皮尔曼相关系数为58.47，远高于现有指标的31.0。这表明ETVA在评估文本与视频对齐方面更符合人类判断，未来可能成为该领域的标准评估工具。

❓

ETVA方法旨在精确评估文本提示与生成视频之间的语义对齐。

ETVA通过生成细粒度问题并进行回答，提供比现有指标更详细的对齐评估。

ETVA的斯皮尔曼相关系数为58.47，显著高于现有指标的31.0。

ETVA使用多代理系统将提示解析为语义场景图，以生成原子问题。

ETVA构建了一个包含2000个多样化提示和12000个原子问题的基准，用于文本到视频对齐评估。

ETVA通过对15个现有文本到视频模型的系统评估，识别其关键能力和局限性。

🏷️