小红花·文摘

本文介绍了一种新颖的知识桥梁图网络模型，旨在通过自适应信息选择提升视觉对话推理能力。研究探讨了视觉知识与语言模型的整合，提出了结构感知的视觉-语言预训练模型Structure-CLIP和插入式模块X-adapter，以提高多模态任务的性能。实验结果表明，这些方法在视觉问答和图像字幕生成等任务中表现优异。