E-Bench:面向文本驱动的视频编辑质量评估的主观对齐基准套件
💡
原文中文,约1400字,阅读约需4分钟。
📝
内容提要
本文提出了一种基于文本的语义相关质量评价方法(SAQI)及其改进版,结合低级指标形成统一盲视频质量指数(BVQI)。研究评估了视频质量,构建了Maxwell数据库,并提出MaxVQA方法。通过EditVal基准测试,评估了多种图像编辑方法的性能,发现没有单一方法在所有编辑类型上表现最佳。此外,提出了Text-to-Video Score (T2VScore)评估指标,验证其优越性,并研究了视频生成模型的差异。
🎯
关键要点
- 提出了一种基于文本的语义相关质量评价方法(SAQI)及其本地化版本(SAQI-Local)。
- 结合现有低级指标,提出了统一盲视频质量指数(BVQI)及其改进版(BVQI-Local)。
- 构建了Maxwell数据库,并提出了基于Vision-Language模型的视频质量评估方法MaxVQA。
- 评估了常用质量度量与人工评估的表现,发现自然性和语义匹配是重要因素。
- 引入EditVal基准测试,评估8种前沿扩散编辑方法,发现没有单一方法在所有编辑类型上表现最佳。
- 提出了Text-to-Video Score (T2VScore)评估指标,综合考虑文本-视频对齐和视频质量。
- 在TVGE数据集上的实验验证了T2VScore的优越性,能够提供更好的评估指标。
- 利用Transformer模型提取特征,给出主观对齐的预测评价,优于现有的T2V度量和SOTA视频质量评估模型。
- 评估领先的图像和视频生成模型的性能,发现VQAScore显著优于先前的评估指标。
- 通过VCoME模型生成具有专业质量的口述性视频,效果和效率显著超过专业编辑人员。
❓
延伸问答
什么是SAQI方法,它的改进版本是什么?
SAQI是一种基于文本的语义相关质量评价方法,其改进版本为SAQI-Local。
BVQI和BVQI-Local有什么区别?
BVQI是统一盲视频质量指数,BVQI-Local是其改进版,结合了现有低级指标。
MaxVQA方法是如何评估视频质量的?
MaxVQA是一种基于Vision-Language模型的视频质量评估方法,通过构建Maxwell数据库进行评估。
EditVal基准测试的目的是什么?
EditVal基准测试用于定量评估文本引导的图像编辑方法,比较多种编辑方法的性能。
T2VScore评估指标的优势是什么?
T2VScore综合考虑文本-视频对齐和视频质量,实验证明其优越性。
VQAScore与其他评估指标相比有什么优势?
VQAScore在黑盒基础上通过简单排名显著提高生成速度,且优于先前的评估指标。
➡️