LV-XAttn:多模态大语言模型中长视觉输入的分布式交叉注意力
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
该研究提出了一种新的分布式交叉注意力机制LV-XAttn,旨在降低多模态大语言模型中视觉输入处理的内存需求和通信开销。通过在每个GPU上保留大的键值块并交换较小的查询块,显著减少了通信开销,支持更长的视觉上下文,实验表明速度提升可达5.58倍。
🎯
关键要点
- 该研究提出了一种新的分布式交叉注意力机制LV-XAttn。
- LV-XAttn旨在降低多模态大语言模型中视觉输入处理的内存需求和通信开销。
- 该方法通过在每个GPU上保留大的键值块并交换较小的查询块来减少通信开销。
- LV-XAttn支持更长的视觉上下文。
- 实验表明,LV-XAttn在多种模型上可实现高达5.58倍的端到端速度提升。
➡️