💡
原文中文,约3200字,阅读约需8分钟。
📝
内容提要
在CVPR 2025 NTIRE国际竞赛中,火山引擎多媒体实验室的“SharpMind”小组在短视频质量评估赛道中获胜,利用多模态大模型构建了高效的画质评价模型,实现了精度与计算效率的最佳平衡,推动了UGC视频质量评估技术的发展。
🎯
关键要点
- 火山引擎多媒体实验室的“SharpMind”小组在CVPR 2025 NTIRE国际竞赛中获胜。
- 团队利用多模态大模型构建了高效的画质评价模型,实现了精度与计算效率的最佳平衡。
- 比赛吸引了腾讯、中兴、上海交通大学、北京邮电大学等知名企业和院校参加。
- 比赛限制短视频质量评价模型的单视频运行计算开销上限为120GFlops。
- UGC视频质量评估面临用户生成内容的复杂性挑战,传统评价指标难以准确拟合人眼主观感受。
- 研究团队提出基于“教师-学生”知识蒸馏的创新框架,解决无参考场景下的泛化性难题。
- 教师模型通过多模态特征融合全面捕捉UGC视频的质量特性。
- 伪标签生成为轻量化学生模型训练奠定基础,学生模型在推理过程中仅需47.39GFLOPs。
- 该方案通过融合多模态大模型特征与传统骨干网络特征,提升了对典型失真的检测灵敏度。
- 火山引擎多媒体实验室致力于探索多媒体领域的前沿技术,参与国际标准化工作。
❓
延伸问答
火山引擎的“SharpMind”小组在CVPR 2025中获得了什么成就?
火山引擎的“SharpMind”小组在CVPR 2025 NTIRE国际竞赛中获得了短视频质量评估赛道的冠军。
火山引擎的画质评价模型有什么创新之处?
该模型利用多模态大模型和知识蒸馏技术,实现了高效的画质评价,兼顾了精度与计算效率。
CVPR 2025 NTIRE国际竞赛的主要参与者有哪些?
比赛吸引了腾讯、中兴、上海交通大学、北京邮电大学等知名企业和院校参加。
UGC视频质量评估面临哪些挑战?
UGC视频质量评估面临用户生成内容的复杂性、传统评价指标难以拟合人眼主观感受等挑战。
火山引擎的评估模型在计算效率上有什么限制?
比赛限制短视频质量评价模型的单视频运行计算开销上限为120GFlops。
火山引擎的团队在视频质量评估中采用了什么训练机制?
团队采用了基于“教师-学生”知识蒸馏的创新框架,通过两阶段训练机制实现模型轻量化。
➡️