该研究提出了一种新的分布式交叉注意力机制LV-XAttn,旨在降低多模态大语言模型中视觉输入处理的内存需求和通信开销。通过在每个GPU上保留大的键值块并交换较小的查询块,显著减少了通信开销,支持更长的视觉上下文,实验表明速度提升可达5.58倍。
完成下面两步后,将自动完成登录并继续当前操作。