小红花·文摘

Kimi的新论文提出了一种名为MoBA的长文注意力机制，能够将处理1M长文本的速度提升6.5倍。该机制通过将上下文划分为块，并利用top-k门控机制选择相关信息，从而提高长序列数据的处理效率。MoBA在保持模型性能的同时，支持全注意力与稀疏注意力模式的切换，具有良好的扩展性。