HeGraphAdapter:使用异构图适配器调整多模态视觉语言模型
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种新建模框架,将视觉-语言模型中的注意力机制转化为基于图的消息传递。通过$p$-adapter架构,利用$p$-Laplacian消息传递处理异构图。在视觉问答、视觉蕴涵和图像字幕生成等任务中,该方法表现出高效性,并在迁移学习中具有显著优势。
🎯
关键要点
- 提出了一种新的建模框架,将视觉-语言模型中的注意力机制转化为基于图的消息传递。
- 使用$p$-adapter架构处理异种图,利用$p$-Laplacian消息传递。
- 在视觉问答、视觉蕴涵和图像字幕生成等多模态任务中表现出高效性。
- 实验结果验证了该方法在迁移学习中的显著优势。
➡️