Kimi的新论文提出了一种名为MoBA的长文注意力机制,能够将处理1M长文本的速度提升6.5倍。该机制通过将上下文划分为块,并利用top-k门控机制选择相关信息,从而提高长序列数据的处理效率。MoBA在保持模型性能的同时,支持全注意力与稀疏注意力模式的切换,具有良好的扩展性。
完成下面两步后,将自动完成登录并继续当前操作。