美团龙猫LongCat技术升级!新注意力机制解码速度快10倍,还能处理1M超长文本

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

美团龙猫LongCat推出新稀疏注意力机制LoZA,解码速度提升10倍,支持处理1M长文本。通过优化模型结构,降低计算复杂度,提高效率,同时保持稳定性能。该技术在长文本任务中优于同类模型,未来将支持动态稀疏比例,以适应不同场景需求。

🎯

关键要点

  • 美团龙猫LongCat推出新稀疏注意力机制LoZA,解码速度提升10倍,支持处理1M长文本。
  • LoZA通过优化模型结构,降低计算复杂度,提高效率,同时保持稳定性能。
  • 新机制解决了长文本任务的理解和算力难题,相比于之前的全注意力MLA机制,LoZA只改造了一半核心模块。
  • LoZA的核心思路是专注于处理重要内容,减少对不重要部分的计算。
  • 模型通过全局筛查找出可改造的多头潜在注意力模块,并用可学习权重α进行优化。
  • 将低性能模块替换为流式稀疏注意力SSA,计算复杂度降至线性级别O(L·S)。
  • LoZA设计了1024Token稀疏窗口,包含全局块和局部块,确保整体逻辑不被忽略。
  • 在处理128K上下文时,解码速度比原来快10倍,256K上下文预加载速度快50%。
  • LoZA在处理长文本任务时表现优于同类模型Qwen-3,且性能未缩水。
  • 未来计划支持动态稀疏比例,以适应不同场景需求。

延伸问答

LoZA机制的主要优势是什么?

LoZA机制的主要优势是解码速度提升10倍,支持处理1M长文本,同时降低计算复杂度,保持稳定性能。

LoZA是如何优化长文本处理的?

LoZA通过优化模型结构,专注于处理重要内容,减少对不重要部分的计算,从而提高效率。

LoZA与之前的MLA机制有什么不同?

LoZA只改造了一半核心模块,相比于全注意力的MLA机制,计算复杂度从O(L²)降至O(L·S),提高了处理效率。

LoZA在处理长文本任务时的表现如何?

LoZA在处理长文本任务时表现优于同类模型Qwen-3,且性能未缩水,解码速度显著提升。

未来LoZA有哪些发展计划?

未来LoZA计划支持动态稀疏比例,以适应不同场景需求,提升短文本和长文本处理的效率。

LoZA如何降低计算复杂度?

LoZA通过将低性能模块替换为流式稀疏注意力SSA,形成交错结构,使计算复杂度降至线性级别O(L·S)。

➡️

继续阅读