BriefGPT - AI 论文速递 ·

E-Bench：面向文本驱动的视频编辑质量评估的主观对齐基准套件

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文提出了一种基于文本的语义相关质量评价方法(SAQI)及其改进版，结合低级指标形成统一盲视频质量指数(BVQI)。研究评估了视频质量，构建了Maxwell数据库，并提出MaxVQA方法。通过EditVal基准测试，评估了多种图像编辑方法的性能，发现没有单一方法在所有编辑类型上表现最佳。此外，提出了Text-to-Video Score (T2VScore)评估指标，验证其优越性，并研究了视频生成模型的差异。

🎯

关键要点

提出了一种基于文本的语义相关质量评价方法(SAQI)及其本地化版本(SAQI-Local)。
结合现有低级指标，提出了统一盲视频质量指数(BVQI)及其改进版(BVQI-Local)。
构建了Maxwell数据库，并提出了基于Vision-Language模型的视频质量评估方法MaxVQA。
评估了常用质量度量与人工评估的表现，发现自然性和语义匹配是重要因素。
引入EditVal基准测试，评估8种前沿扩散编辑方法，发现没有单一方法在所有编辑类型上表现最佳。
提出了Text-to-Video Score (T2VScore)评估指标，综合考虑文本-视频对齐和视频质量。
在TVGE数据集上的实验验证了T2VScore的优越性，能够提供更好的评估指标。
利用Transformer模型提取特征，给出主观对齐的预测评价，优于现有的T2V度量和SOTA视频质量评估模型。
评估领先的图像和视频生成模型的性能，发现VQAScore显著优于先前的评估指标。
通过VCoME模型生成具有专业质量的口述性视频，效果和效率显著超过专业编辑人员。

❓

延伸问答

什么是SAQI方法，它的改进版本是什么？

SAQI是一种基于文本的语义相关质量评价方法，其改进版本为SAQI-Local。

BVQI和BVQI-Local有什么区别？

BVQI是统一盲视频质量指数，BVQI-Local是其改进版，结合了现有低级指标。

MaxVQA方法是如何评估视频质量的？

MaxVQA是一种基于Vision-Language模型的视频质量评估方法，通过构建Maxwell数据库进行评估。

EditVal基准测试的目的是什么？

EditVal基准测试用于定量评估文本引导的图像编辑方法，比较多种编辑方法的性能。

T2VScore评估指标的优势是什么？

T2VScore综合考虑文本-视频对齐和视频质量，实验证明其优越性。

VQAScore与其他评估指标相比有什么优势？

VQAScore在黑盒基础上通过简单排名显著提高生成速度，且优于先前的评估指标。

🏷️