小红花·文摘

该研究提出了一种新的分布式交叉注意力机制LV-XAttn，旨在解决多模态大语言模型在处理大量视觉输入时的高内存需求和通信开销问题。该方法通过在每个GPU上保留大的键值块并交换较小的查询块，显著降低了通信开销，并支持更长的视觉上下文，实验证明可实现高达5.58倍的速度提升。