LV-XAttn:多模态大语言模型中长视觉输入的分布式交叉注意力

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

该研究提出了一种新的分布式交叉注意力机制LV-XAttn,旨在降低多模态大语言模型中视觉输入处理的内存需求和通信开销。通过在每个GPU上保留大的键值块并交换较小的查询块,显著减少了通信开销,支持更长的视觉上下文,实验表明速度提升可达5.58倍。

🎯

关键要点

  • 该研究提出了一种新的分布式交叉注意力机制LV-XAttn。
  • LV-XAttn旨在降低多模态大语言模型中视觉输入处理的内存需求和通信开销。
  • 该方法通过在每个GPU上保留大的键值块并交换较小的查询块来减少通信开销。
  • LV-XAttn支持更长的视觉上下文。
  • 实验表明,LV-XAttn在多种模型上可实现高达5.58倍的端到端速度提升。
➡️

继续阅读