量子位 ·

用155万模拟视频给模型上课！GVE模型一次学会9种视频检索技能

💡 原文中文，约5600字，阅读约需14分钟。

📝

内容提要

香港科技大学与阿里巴巴合作开发了通用视频检索（GVE）模型，利用155万条多模态训练数据，突破了传统视频检索的瓶颈，展现出优越的泛化能力，推动视频检索从“专用”向“通用”转型。

🎯

关键要点

香港科技大学与阿里巴巴合作开发通用视频检索（GVE）模型，利用155万条多模态训练数据。
GVE模型突破传统视频检索瓶颈，展现优越的泛化能力，推动视频检索从专用向通用转型。
当前视频检索研究面临闭环困境，模型能力受限，难以应对复杂检索需求。
团队提出通用视频检索概念，构建包含16个数据集的综合评测基准UVRB。
GVE模型在零样本设置下超越现有14个主流模型，展现卓越的泛化能力。
现有主流视频检索模型在复杂场景下表现不足，主要局限于粗粒度文本-视频匹配任务。
团队主张将视频检索从特定任务优化转向支持多任务、多粒度、多域的通用建模。
UVR定义了通用视频检索的任务类型和领域，全面涵盖真实视频检索场景。
UVRB基准揭示现有模型的偏科问题，要求模型在9种能力上均有优秀表现。
V-SynFlow流程用于合成155万条高质量多模态训练数据，支持多种模态组合。
GVE模型在实验中表现优异，GVE-7B模型在UVRB基准上显著超越其他基线模型。
消融实验表明，合成数据集和模态金字塔课程共同提升了模型性能。
研究揭示当前多模态视频嵌入模型的能力发展盲区，呼吁将部分相关视频检索纳入评估体系。
模型架构影响能力发展，CLIP与MLLM展现出不同的能力进化路径。
研究强调数据质量与训练策略的重要性，单纯扩大模型规模未必能解决根本问题。
研究团队已开源GVE系列模型及UVRB基准，推动视频检索从窄域专用迈向通用智能。

🔎

延伸解读

视频检索的转型挑战

当前视频检索领域面临的主要挑战是从专用模型向通用模型的转型。传统模型往往在特定任务上表现优异，但在复杂的多模态查询和细粒度检索中却显得力不从心。GVE模型的提出，正是为了打破这一瓶颈，推动视频检索的全面发展。

数据质量的重要性

研究表明，视频检索模型的性能不仅依赖于模型规模，更与训练数据的质量密切相关。GVE模型通过合成高质量的多模态训练数据，显著提升了在复杂任务上的表现。这一发现强调了在视频检索研究中，数据质量与训练策略的优化比单纯扩大模型规模更为重要。

评测标准的变革

现有的视频检索评测标准如MSRVTT，已无法有效反映模型在真实场景中的表现。GVE团队提出的UVRB基准，涵盖了多种任务类型和领域，能够更全面地评估模型的能力。这一新标准的建立，有助于推动视频检索技术的进步与应用。

❓

延伸问答

GVE模型的主要创新点是什么？

GVE模型通过155万条多模态训练数据，突破了传统视频检索的瓶颈，展现出优越的泛化能力，推动视频检索从专用向通用转型。

UVRB基准的作用是什么？

UVRB基准构建了一个包含16个数据集的综合评测体系，要求模型在9种能力上均有优秀表现，揭示现有模型的偏科问题。

GVE模型在复杂场景下的表现如何？

GVE模型在零样本设置下超越现有14个主流模型，展现出卓越的泛化能力，尤其在细粒度和长上下文检索任务中表现优异。

为什么现有视频检索模型难以满足复杂需求？

现有模型主要局限于粗粒度文本-视频匹配，难以处理细粒度、长上下文和多模态组合等复杂检索需求。

GVE模型的训练策略有什么特点？

GVE模型采用模态金字塔课程训练策略，先学习简单任务，再逐步进阶到复杂任务，确保模型能力的全面提升。

研究团队对视频检索未来的展望是什么？

研究团队希望通过新的评估标准和丰富的训练信号，推动视频检索从匹配标题转向理解内容，实现通用智能。

🏷️