小红花·文摘

SelfGraphVQA是一种框架，通过预训练场景图生成器从图像中提取场景图，并应用语义保持增强和自监督技术，改进了图表示在视觉问答任务中的利用。实验结果表明，提取的场景图对于视觉问答非常有效，并且通过强调视觉信息的重要性来提升整体性能，为依赖场景图进行复杂推理问题的视觉问答任务提供了更实用的解决方案。