本研究提出遥感多模态视觉模式(RSMMVP)基准,评估多模态大型语言模型(MLLMs)在遥感图像中的表现,揭示其在视觉定位和空间推理方面的局限性,以推动未来发展。
本研究提出遥感多模态视觉模式(RSMMVP)基准。
评估多模态大型语言模型(MLLMs)在遥感图像中的表现。
揭示MLLMs在视觉定位和空间推理方面的局限性。
通过视觉问答(VQA)评估,显示当前MLLMs在遥感特定表示学习方面的不足。
推动未来更高效的遥感应用MLLMs的发展。
完成下面两步后,将自动完成登录并继续当前操作。