BriefGPT - AI 论文速递 ·

重新思考文本到视频模型的人工评估协议：提升可靠性、可复现性和实用性

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

本文评估了文本到视频（T2V）生成模型的质量度量，提出了新的评估指标T2VScore，强调自然性和语义匹配的重要性。同时引入了TVGE数据集，以改进T2V生成的评估方法，并提出FETV基准用于细粒度评估。分析现有自动评估指标发现其与人工评估相关性较差，因此提出了新的自动评估指标以提高相关性。

🎯

❓

T2VScore是一种新的评估方法，综合考虑文本-视频对齐和视频质量，强调自然性和语义匹配的重要性。

TVGE数据集旨在评估和促进文本到视频生成的指标改进，提供更好的评估基础。

现有的自动评估指标与人工评估的相关性较差，许多研究仅依赖这些自动度量，缺乏可靠性。

FETV基准用于细粒度评估文本到视频生成，基于三个正交方面对提示进行分类，提供全面的手动评估。

通过引入新的评估指标和数据集，设计规范化的人工评估协议，可以提高评估的可靠性和可复现性。

基于问答的自动评价度量能够更好地与人类评分相关联，提高评估的准确性。

🏷️