本文介绍了一种新颖的知识桥梁图网络模型,旨在通过自适应信息选择提升视觉对话推理能力。研究探讨了视觉知识与语言模型的整合,提出了结构感知的视觉-语言预训练模型Structure-CLIP和插入式模块X-adapter,以提高多模态任务的性能。实验结果表明,这些方法在视觉问答和图像字幕生成等任务中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。