基于 Shapley 值的对比对齐多模态信息提取

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究提出了一种基于图像-上下文-文本交互的新范式,通过使用大型多模态模型生成描述性文本上下文来弥合图像和文本之间的语义和形式差距。实验结果表明,该方法在多模态信息提取方面优于现有的最先进方法。

🎯

关键要点

  • 提出了一种基于图像-上下文-文本交互的新范式。
  • 该方法使用大型多模态模型生成描述性文本上下文,弥合图像和文本之间的语义和形式差距。
  • 引入了一种基于Shapley值的对比对齐方法,量化评估每个元素的个体贡献。
  • 使用对比学习策略增强上下文-文本/图像对之间的交互贡献,降低影响。
  • 设计了自适应融合模块用于选择性的跨模态融合。
  • 在四个多模态信息提取数据集上的实验表明,该方法优于现有的最先进方法。
➡️

继续阅读