本研究提出了ReGraP数据集和ReGraP-LLaVA模型,旨在解决个性化多模态大语言模型在多对象关系推理中的局限性。该模型通过结合知识图谱和链式问答,显著提升了个性化知识学习和关系推理能力,表现出色。
基于城市规划需求,开发了多模态多任务的VQA数据集(EarthVQA),旨在推动基于关系推理的判断、计数和综合分析。SOBA框架以物体为中心,提出了语义物体感知的方法,通过对象语义生成和对象引导的注意力,以及双向交叉注意力,对复杂关系推理进行了先进的视觉问答模型优化。实验证明,SOBA优于现有的通用和遥感方法,该数据集和框架为地球视觉的复杂分析提供了一个强大的基准。
该研究探讨了Transformer在抽象符号关系推理任务中的表现。研究发现,Transformer需要大量训练数据才能泛化,且随着嵌入维度的增加,泛化能力下降。研究提出了微调Transformer的方法,通过添加可训练参数来减少所需数据量。
完成下面两步后,将自动完成登录并继续当前操作。