小红花·文摘

本文介绍了MiniVLM和MobileVLM等视觉-语言模型的进展。MiniVLM通过高效特征提取器和MiniLM结构，显著减少了模型大小和推理时间，同时保持高准确率。MobileVLM专为移动设备设计，性能与大型模型相当。此外，研究构建了高质量遥感图像数据集HqDC-1.4M，提升了模型的空间感知能力，并提出了H2RSVLM模型，增强了模型的真实性和可靠性。

H2OVL-密西西比视觉语言模型技术报告

BriefGPT - AI 论文速递 ·

该研究构建了包含 1.4 百万图像 - 字幕对的大规模高质量细节遥感图像数据集 HqDC-1.4M，提供了对遥感图像更好的理解并显著提高了模型的空间感知能力；同时，开发了 RSSA 数据集，通过将无法回答的问题纳入典型的遥感视觉问答任务中，有效改善了模型输出的真实性和幻觉现象，增强了遥感视觉语言模型的诚实度；基于这些数据集，提出了...

H2RSVLM：面向有益诚实的遥感大视觉语言模型

BriefGPT - AI 论文速递 ·