实时互动网 ·

CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛冠军

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

在CVPR 2025 NTIRE国际竞赛中，火山引擎多媒体实验室的“SharpMind”小组在短视频质量评估赛道中获胜，利用多模态大模型构建了高效的画质评价模型，实现了精度与计算效率的最佳平衡，推动了UGC视频质量评估技术的发展。

🎯

关键要点

火山引擎多媒体实验室的“SharpMind”小组在CVPR 2025 NTIRE国际竞赛中获胜。
团队利用多模态大模型构建了高效的画质评价模型，实现了精度与计算效率的最佳平衡。
比赛吸引了腾讯、中兴、上海交通大学、北京邮电大学等知名企业和院校参加。
比赛限制短视频质量评价模型的单视频运行计算开销上限为120GFlops。
UGC视频质量评估面临用户生成内容的复杂性挑战，传统评价指标难以准确拟合人眼主观感受。
研究团队提出基于“教师-学生”知识蒸馏的创新框架，解决无参考场景下的泛化性难题。
教师模型通过多模态特征融合全面捕捉UGC视频的质量特性。
伪标签生成为轻量化学生模型训练奠定基础，学生模型在推理过程中仅需47.39GFLOPs。
该方案通过融合多模态大模型特征与传统骨干网络特征，提升了对典型失真的检测灵敏度。
火山引擎多媒体实验室致力于探索多媒体领域的前沿技术，参与国际标准化工作。

🔎

延伸解读

技术创新与应用前景

火山引擎的“SharpMind”小组在NTIRE 2025比赛中展示了多模态大模型在短视频质量评估中的应用潜力。通过创新的教师-学生知识蒸馏框架，该团队不仅提升了评估精度，还实现了模型的轻量化，适应了工业级应用的需求。这一技术的成功应用，可能为短视频平台的内容审核和推荐系统提供更为精准的支持，提升用户体验。

UGC视频质量评估的挑战

用户生成内容（UGC）视频的质量评估面临诸多挑战，如拍摄设备的限制和动态环境的影响，导致传统评价指标难以准确反映人眼的主观感受。火山引擎的研究团队通过多模态特征融合，解决了无参考场景下的泛化性问题，为UGC视频的质量评估提供了新的思路和方法，具有重要的行业应用价值。

行业竞争与合作

此次比赛吸引了腾讯、中兴等知名企业和高校参与，显示出短视频质量评估领域的竞争激烈。火山引擎的胜利不仅是技术实力的体现，也反映了其在行业内的影响力。未来，随着技术的不断进步，行业内的合作与竞争将进一步推动UGC视频质量评估技术的发展，促进更高效的内容管理和用户体验优化。

❓

延伸问答

火山引擎的“SharpMind”小组在CVPR 2025中获得了什么成就？

火山引擎的“SharpMind”小组在CVPR 2025 NTIRE国际竞赛中获得了短视频质量评估赛道的冠军。

火山引擎的画质评价模型有什么创新之处？

该模型利用多模态大模型和知识蒸馏技术，实现了高效的画质评价，兼顾了精度与计算效率。

CVPR 2025 NTIRE国际竞赛的主要参与者有哪些？

比赛吸引了腾讯、中兴、上海交通大学、北京邮电大学等知名企业和院校参加。

UGC视频质量评估面临哪些挑战？

UGC视频质量评估面临用户生成内容的复杂性、传统评价指标难以拟合人眼主观感受等挑战。

火山引擎的评估模型在计算效率上有什么限制？

比赛限制短视频质量评价模型的单视频运行计算开销上限为120GFlops。

火山引擎的团队在视频质量评估中采用了什么训练机制？

团队采用了基于“教师-学生”知识蒸馏的创新框架，通过两阶段训练机制实现模型轻量化。

🏷️