打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

💡 原文中文,约2500字,阅读约需6分钟。
📝

内容提要

快手与东北大学联合推出UNITE框架,旨在解决多模态检索中的跨模态干扰问题。该框架能够处理文本、图像和视频等多种输入,采用模态感知对比学习机制,显著提升检索性能。在多个评测中,UNITE表现优异,超越现有模型,展现出良好的通用性和综合性能。

🎯

关键要点

  • 快手与东北大学联合推出UNITE框架,解决多模态检索中的跨模态干扰问题。
  • UNITE框架能够处理文本、图像、视频等多种输入,构建统一嵌入器。
  • 采用模态感知对比学习机制(MAMCL),显著缓解跨模态干扰。
  • UNITE在细粒度检索、指令检索等多个评测中表现优异,超越现有模型。
  • UNITE在图像-文本检索和视频-文本检索任务中均取得最佳成绩。
  • UNITE 7B在MMEB Benchmark中达到了最优性能70.3,超越更大规模模型。
  • 视频-文本数据在检索任务中表现突出,但在复杂指令任务中优势不明显。
  • 细粒度Text-Video样本的添加策略显著提升整体性能。
➡️

继续阅读