E-Bench:面向文本驱动的视频编辑质量评估的主观对齐基准套件

💡 原文中文,约1400字,阅读约需4分钟。
📝

内容提要

本文提出了一种基于文本的语义相关质量评价方法(SAQI)及其改进版,结合低级指标形成统一盲视频质量指数(BVQI)。研究评估了视频质量,构建了Maxwell数据库,并提出MaxVQA方法。通过EditVal基准测试,评估了多种图像编辑方法的性能,发现没有单一方法在所有编辑类型上表现最佳。此外,提出了Text-to-Video Score (T2VScore)评估指标,验证其优越性,并研究了视频生成模型的差异。

🎯

关键要点

  • 提出了一种基于文本的语义相关质量评价方法(SAQI)及其本地化版本(SAQI-Local)。
  • 结合现有低级指标,提出了统一盲视频质量指数(BVQI)及其改进版(BVQI-Local)。
  • 构建了Maxwell数据库,并提出了基于Vision-Language模型的视频质量评估方法MaxVQA。
  • 评估了常用质量度量与人工评估的表现,发现自然性和语义匹配是重要因素。
  • 引入EditVal基准测试,评估8种前沿扩散编辑方法,发现没有单一方法在所有编辑类型上表现最佳。
  • 提出了Text-to-Video Score (T2VScore)评估指标,综合考虑文本-视频对齐和视频质量。
  • 在TVGE数据集上的实验验证了T2VScore的优越性,能够提供更好的评估指标。
  • 利用Transformer模型提取特征,给出主观对齐的预测评价,优于现有的T2V度量和SOTA视频质量评估模型。
  • 评估领先的图像和视频生成模型的性能,发现VQAScore显著优于先前的评估指标。
  • 通过VCoME模型生成具有专业质量的口述性视频,效果和效率显著超过专业编辑人员。

延伸问答

什么是SAQI方法,它的改进版本是什么?

SAQI是一种基于文本的语义相关质量评价方法,其改进版本为SAQI-Local。

BVQI和BVQI-Local有什么区别?

BVQI是统一盲视频质量指数,BVQI-Local是其改进版,结合了现有低级指标。

MaxVQA方法是如何评估视频质量的?

MaxVQA是一种基于Vision-Language模型的视频质量评估方法,通过构建Maxwell数据库进行评估。

EditVal基准测试的目的是什么?

EditVal基准测试用于定量评估文本引导的图像编辑方法,比较多种编辑方法的性能。

T2VScore评估指标的优势是什么?

T2VScore综合考虑文本-视频对齐和视频质量,实验证明其优越性。

VQAScore与其他评估指标相比有什么优势?

VQAScore在黑盒基础上通过简单排名显著提高生成速度,且优于先前的评估指标。

➡️

继续阅读