LV Pruning: An Effective and Simple Language-Guided Vision Token Pruning Method for Multi-Modal Large Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种名为语言引导视觉令牌修剪(LVPruning)的方法,旨在减少多模态大型语言模型的计算负担。该方法通过评估视觉令牌的重要性,能够将视觉令牌数量减少至多90%,仅导致约0.45%的性能损失,显示出良好的应用潜力。
🎯
关键要点
- 本研究提出了一种名为语言引导视觉令牌修剪(LVPruning)的方法,旨在减少多模态大型语言模型的计算负担。
- LVPruning通过评估视觉令牌的重要性,能够将视觉令牌数量减少至多90%。
- 该方法仅导致约0.45%的性能损失,显示出良好的应用潜力。
- 多模态大型语言模型(MLLMs)在整合视觉和文本模态方面取得了显著成功,但由于处理的视觉令牌数量庞大,导致计算开销显著。
➡️