基于关系推理的遥感图像视觉问答:朝向可查询地球的方向发展
原文中文,约300字,阅读约需1分钟。发表于: 。基于城市规划需求,我们开发了一个多模态多任务的 VQA 数据集(EarthVQA),旨在推动基于关系推理的判断、计数和综合分析。SOBA 框架以物体为中心,提出了一个语义物体感知的方法,通过对象语义生成和对象引导的注意力,以及双向交叉注意力,对复杂关系推理进行了先进的视觉问答模型优化。实验证明,SOBA 优于现有的通用和遥感方法,该数据集和框架为地球视觉的复杂分析提供了一个强大的基准。
基于城市规划需求,开发了多模态多任务的VQA数据集(EarthVQA),旨在推动基于关系推理的判断、计数和综合分析。SOBA框架以物体为中心,提出了语义物体感知的方法,通过对象语义生成和对象引导的注意力,以及双向交叉注意力,对复杂关系推理进行了先进的视觉问答模型优化。实验证明,SOBA优于现有的通用和遥感方法,该数据集和框架为地球视觉的复杂分析提供了一个强大的基准。