Fwd2Bot: LVLM Visual Token Compression with Bidirectional Bottleneck
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文提出了一种新方法Fwd2Bot,用于大型视觉语言模型(LVLM)中视觉令牌的高效压缩。该方法通过双向前传训练,实现了几乎无损的压缩效果,显著提升了生成任务的压缩率,并在图像检索与组合性任务上达到了新的最先进性能。
🎯
关键要点
- 提出了一种新方法Fwd2Bot,用于大型视觉语言模型(LVLM)中视觉令牌的高效压缩。
- Fwd2Bot通过双向前传训练实现几乎无损的压缩效果。
- 该方法显著提升了生成任务的压缩率。
- 在图像检索与组合性任务上达到了新的最先进性能。
➡️