实时互动网 ·

基于多模态大模型的细粒度视频质量评估方法 | CVPR 2025 Highlight

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

bilibili与上海交通大学联合发布全球首个大规模细粒度UGC视频质量评估数据库FineVD，并提出FineVQ模型，提供涵盖色彩、噪声等六个维度的视频质量评估，旨在提升UGC视频的质量监控与优化。

🎯

🔎

FineVD数据库是全球首个大规模细粒度UGC视频质量评估数据库，包含6104条视频和80万多的质量评分。这种多样性不仅反映了不同视频场景和失真的广泛性，也为后续的研究和应用提供了丰富的数据基础，尤其是在视频质量监控和优化方面。

FineVQ模型通过视觉特征提取和大语言模型的微调，能够在多个维度上进行视频质量评估。这种多维度的评估方式相比传统模型更为全面，能够更好地满足UGC视频处理和推荐的需求，提升用户体验。

FineVQ在多个UGC-VQA数据集上表现出最佳性能，尤其在失真类型预测和质量分数预测上超越了传统和深度学习方法。这表明FineVQ不仅在理论上具有创新性，其实际应用效果也得到了充分验证，具有较强的实用价值。

❓

FineVD数据库包含6,104条UGC视频。

FineVQ模型支持质量评级、分数预测和问题归因三大功能。

FineVD数据库通过手动筛选，确保视频场景和质量属性的多样性，覆盖广泛的UGC场景和不同的失真。

FineVQ在FineVD及主流UGC-VQA数据集上表现出最佳性能，超越传统和深度学习方法。

FineVD数据集的多样性和广泛分布增强了FineVQ模型的泛化能力。

FineVQ通过视觉特征提取、特征对齐融合和指令微调大语言模型进行多维度质量评估。

🏷️