小红花·文摘

本文提出了一种新方法Fwd2Bot，用于大型视觉语言模型（LVLM）中视觉令牌的高效压缩。该方法通过双向前传训练，实现了几乎无损的压缩效果，显著提升了生成任务的压缩率，并在图像检索与组合性任务上达到了新的最先进性能。