北大王选所:让多模态大模型更懂人类在做什么|ECCV 2024
💡
原文中文,约2400字,阅读约需6分钟。
📝
内容提要
北京大学提出多模态提示学习方法,利用提示词教大模型理解人物交互关系,通过视觉空间线索和条件提示提高泛化能力。研究团队还提出零样本人物交互检测新框架,实验证明在未见类别上取得最佳性能,具有潜力。
🎯
关键要点
- 北京大学提出多模态提示学习方法(CMMP),利用提示词教大模型理解人物交互关系。
- CMMP方法有效解决了未见类别的识别问题,大幅提升了模型性能。
- CMMP通过视觉空间线索和条件提示学习提高对未见类别的泛化能力。
- 研究团队提出零样本人物交互检测的新框架,将其分为视觉特征提取和交互分类两个子任务。
- 条件视觉提示和条件语言提示用于分别处理视觉和文本信息,消除依赖性。
- 团队采用的多模态模型通过对比学习预训练,增强了图像编码器的交互识别能力。
- 可泛化的交互分类通过一致性约束确保已见和未见类别之间的合理分离。
- 实验结果表明,CMMP在零样本设置上取得最佳性能,证明了条件多模态提示的有效性。
- 本研究的模型在泛化能力方面表现优异,能够有效缓解已见和未见类别之间的性能差异。
➡️