HeGraphAdapter:使用异构图适配器调整多模态视觉语言模型

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种新建模框架,将视觉-语言模型中的注意力机制转化为基于图的消息传递。通过$p$-adapter架构,利用$p$-Laplacian消息传递处理异构图。在视觉问答、视觉蕴涵和图像字幕生成等任务中,该方法表现出高效性,并在迁移学习中具有显著优势。

🎯

关键要点

  • 提出了一种新的建模框架,将视觉-语言模型中的注意力机制转化为基于图的消息传递。
  • 使用$p$-adapter架构处理异种图,利用$p$-Laplacian消息传递。
  • 在视觉问答、视觉蕴涵和图像字幕生成等多模态任务中表现出高效性。
  • 实验结果验证了该方法在迁移学习中的显著优势。
➡️

继续阅读