小红花·文摘

本文提出了一种新建模框架，将视觉-语言模型中的注意力机制转化为基于图的消息传递。通过$p$-adapter架构，利用$p$-Laplacian消息传递处理异构图。在视觉问答、视觉蕴涵和图像字幕生成等任务中，该方法表现出高效性，并在迁移学习中具有显著优势。