Fwd2Bot: LVLM Visual Token Compression with Bidirectional Bottleneck
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文提出了一种新方法Fwd2Bot,用于大型视觉语言模型(LVLM)中视觉令牌的高效压缩。该方法通过双向前传训练,实现了几乎无损的压缩效果,显著提升了生成任务的压缩率,并在图像检索与组合性任务上达到了新的最先进性能。
🎯
关键要点
-
提出了一种新方法Fwd2Bot,用于大型视觉语言模型(LVLM)中视觉令牌的高效压缩。
-
Fwd2Bot通过双向前传训练实现几乎无损的压缩效果。
-
该方法显著提升了生成任务的压缩率。
-
在图像检索与组合性任务上达到了新的最先进性能。
🏷️