BriefGPT - AI 论文速递 ·

IFShip：通过领域知识增强指令调优的可解释细粒度船舶分类的大型视觉-语言模型

💡 原文中文，约1300字，阅读约需4分钟。

📝

内容提要

本文综述了远程感知领域中视觉语言模型的最新进展，重点介绍了MarineGPT、SkyEyeGPT和EarthGPT等多模态模型在船只检测和分类任务中的应用。这些模型通过构建多模态语义空间和利用新技术，显著提升了遥感图像的理解和分类准确性，为未来研究提供了重要的数据和方法。

🎯

❓

MarineGPT通过构建多模态联合语义空间，将海洋相关的图像和文本注入模型，从而提供更敏感和科学的反馈与理解。

SkyEyeGPT在遥感视觉语言理解任务中表现出卓越的图像级和区域级任务结果，能够有效预测开放式任务的答案。

EarthGPT通过集成多传感器遥感图像解释任务，解决了遥感领域缺乏专业知识的问题，并展现出卓越的性能。

Popeye模型采用新型图像-指令-答案方式和跨模态图像解释方法，实现了多源船只检测的统一标签，提升了检测性能。

研究提出了一种新颖的逐步调整技术来增强未见船只类别的分类准确性，并引入了全面的数据集进行验证。

该传输学习框架基于ResNet50模型，结合卷积块注意力模块，达到了94%的高分类精度，优于现有方法。

🏷️