BriefGPT - AI 论文速递 ·

利用大型多模态模型推进视频质量评估

💡 原文中文，约1300字，阅读约需3分钟。

📝

内容提要

本文介绍了多个视频质量评估（VQA）方法和数据集的进展，特别关注无参考VQA。研究提出了新模型和数据集，以解决用户生成内容视频中的视觉质量下降问题，并展示了多种方法的有效性和创新性。

🎯

介绍了新的数据集KonVid-150k和高效的VQA方法MLSP-VQA，表现优于现有方法。
创建了包含39,000个失真视频和117,000个空时定位视频片段的最大人类感知质量评价数据库。
提出了Grid Mini-patch Sampling (GMS)和Fragment Attention Network (FANet)，实现高效的端到端深度视频质量评估。
提出Zoom-VQA架构，将视频分为三个层次，整合多个组件以感知时空特征，达到了最先进的结果。
基于堆栈的视频质量评估框架，考虑人类主观感知和视频语义理解，广泛应用于YouTube视频等场景。
针对UGC视频中的低照度问题，构建LLVE-QA数据集并提出Light-VQA模型，表现出最佳性能。
讨论了自然视频质量评估的挑战，构建Maxwell数据库并提出MaxVQA方法。
提出Visual Quality Transformer (VQT)方法，解决用户生成内容视频的视觉质量下降问题。
介绍PTM-VQA方法，利用预训练模型和ICID损失，实验证明其有效性。

❓

KonVid-150k数据集包含39,000个失真视频和117,000个空时定位视频片段，是最大的人类感知质量评价数据库。

MLSP-VQA方法在标准性能指标上表现最佳，能够应对不同级别的标签噪声和数据集大小，并在跨数据集上设置了新的准确度记录。

Zoom-VQA将视频分为三个层次，整合多个组件以感知时空特征，达到了最先进的结果。

Light-VQA模型针对UGC视频中的低照度问题，提供了一种基于特征融合的新型解决方案，表现出最佳性能。

MaxVQA是一种基于Vision-Language模型的视频质量评估方法，旨在评估自然视频的质量。

VQT方法解决了用户生成内容视频的视觉质量下降问题，并通过实验证明其优于其他方法的性能。

🏷️