FastVLM:视觉语言模型的高效视觉编码

FastVLM:视觉语言模型的高效视觉编码

💡 原文英文,约300词,阅读约需1分钟。
📝

内容提要

提升图像分辨率对视觉语言模型(VLM)性能至关重要,但高分辨率下的视觉编码器效率低。FastVLM模型通过优化图像分辨率、延迟和准确性之间的平衡,采用新型混合视觉编码器FastViTHD,显著减少编码时间和视觉标记数量。与之前的方法相比,FastVLM在保持性能的同时,首次标记时间提升了3.2倍,并在高分辨率下表现优异。

🎯

关键要点

  • 提升图像分辨率对视觉语言模型(VLM)性能至关重要,尤其是在文本丰富的图像理解任务中。
  • 高分辨率下,流行的视觉编码器如ViTs效率低下,主要由于大量的标记和高编码延迟。
  • 视觉编码器可以在不同的操作分辨率下优化,减少编码延迟和视觉标记数量,从而降低整体延迟。
  • FastVLM模型通过优化分辨率、延迟和准确性之间的平衡,显著提高了编码效率。
  • FastVLM采用新型混合视觉编码器FastViTHD,能够输出更少的标记并显著减少高分辨率图像的编码时间。
  • 与之前的方法相比,FastVLM在保持性能的同时,首次标记时间提升了3.2倍。
  • 在LLaVA-1.5设置中,FastVLM在关键基准测试中表现出色,且在最高分辨率下(1152x1152)与LLaVa-OneVision相比,TTFT速度提高了85倍,视觉编码器体积缩小了3.4倍。
➡️

继续阅读