打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准
💡
原文中文,约2500字,阅读约需6分钟。
📝
内容提要
快手与东北大学联合推出UNITE框架,旨在解决多模态检索中的跨模态干扰问题。该框架能够处理文本、图像和视频等多种输入,采用模态感知对比学习机制,显著提升检索性能。在多个评测中,UNITE表现优异,超越现有模型,展现出良好的通用性和综合性能。
🎯
关键要点
- 快手与东北大学联合推出UNITE框架,解决多模态检索中的跨模态干扰问题。
- UNITE框架能够处理文本、图像、视频等多种输入,构建统一嵌入器。
- 采用模态感知对比学习机制(MAMCL),显著缓解跨模态干扰。
- UNITE在细粒度检索、指令检索等多个评测中表现优异,超越现有模型。
- UNITE在图像-文本检索和视频-文本检索任务中均取得最佳成绩。
- UNITE 7B在MMEB Benchmark中达到了最优性能70.3,超越更大规模模型。
- 视频-文本数据在检索任务中表现突出,但在复杂指令任务中优势不明显。
- 细粒度Text-Video样本的添加策略显著提升整体性能。
➡️