本文提出了一种新建模框架,将视觉-语言模型中的注意力机制转化为基于图的消息传递。通过$p$-adapter架构,利用$p$-Laplacian消息传递处理异构图。在视觉问答、视觉蕴涵和图像字幕生成等任务中,该方法表现出高效性,并在迁移学习中具有显著优势。
完成下面两步后,将自动完成登录并继续当前操作。