H2OVL-密西西比视觉语言模型技术报告
内容提要
本文介绍了MiniVLM和MobileVLM等视觉-语言模型的进展。MiniVLM通过高效特征提取器和MiniLM结构,显著减少了模型大小和推理时间,同时保持高准确率。MobileVLM专为移动设备设计,性能与大型模型相当。此外,研究构建了高质量遥感图像数据集HqDC-1.4M,提升了模型的空间感知能力,并提出了H2RSVLM模型,增强了模型的真实性和可靠性。
关键要点
-
MiniVLM是一个轻量、快速的视觉-语言模型,模型大小减少73%,推理时间成本降低94%,准确率保持在94-97%。
-
MobileVLM是专为移动设备设计的多模式视觉语言模型,性能与大型模型相当,推断速度在高通骁龙888 CPU和NVIDIA Jeston Orin GPU上分别为21.5个token和65.3个token每秒。
-
MobileVLM V2在MobileVLM的基础上进行了显著改进,1.7B模型在标准VLM基准测试中表现出与3B VLM相当或更好的性能。
-
研究构建了高质量遥感图像数据集HqDC-1.4M,提升了模型的空间感知能力,并开发了RSSA数据集以改善模型输出的真实性。
-
提出的H2RSVLM模型在多个公共遥感数据集上表现出色,能够识别和拒绝无法回答的问题,减轻错误生成。
延伸问答
MiniVLM的主要特点是什么?
MiniVLM是一个轻量、快速的视觉-语言模型,模型大小减少73%,推理时间成本降低94%,准确率保持在94-97%。
MobileVLM是如何优化移动设备性能的?
MobileVLM专为移动设备设计,集成了多种架构设计,推断速度在高通骁龙888 CPU和NVIDIA Jeston Orin GPU上分别为21.5个token和65.3个token每秒。
HqDC-1.4M数据集的作用是什么?
HqDC-1.4M是一个包含1.4百万图像-字幕对的高质量遥感图像数据集,提升了模型的空间感知能力。
H2RSVLM模型的优势是什么?
H2RSVLM模型在多个公共遥感数据集上表现出色,能够识别和拒绝无法回答的问题,减轻错误生成。
MobileVLM V2与MobileVLM相比有哪些改进?
MobileVLM V2在结构设计和训练方案上进行了显著改进,1.7B模型在标准VLM基准测试中表现出与3B VLM相当或更好的性能。
如何提高视觉语言模型的真实性?
通过开发RSSA数据集,将无法回答的问题纳入遥感视觉问答任务中,有效改善模型输出的真实性和幻觉现象。