美团龙猫LongCat技术升级!新注意力机制解码速度快10倍,还能处理1M超长文本

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

美团龙猫LongCat推出新稀疏注意力机制LoZA,解码速度提升10倍,支持处理1M长文本。通过优化模型结构,降低计算复杂度,提高效率,同时保持稳定性能。该技术在长文本任务中优于同类模型,未来将支持动态稀疏比例,以适应不同场景需求。

🎯

关键要点

  • 美团龙猫LongCat推出新稀疏注意力机制LoZA,解码速度提升10倍,支持处理1M长文本。
  • LoZA通过优化模型结构,降低计算复杂度,提高效率,同时保持稳定性能。
  • 新机制解决了长文本任务的理解和算力难题,相比于之前的全注意力MLA机制,LoZA只改造了一半核心模块。
  • LoZA的核心思路是专注于处理重要内容,减少对不重要部分的计算。
  • 模型通过全局筛查找出可改造的多头潜在注意力模块,并用可学习权重α进行优化。
  • 将低性能模块替换为流式稀疏注意力SSA,计算复杂度降至线性级别O(L·S)。
  • LoZA设计了1024Token稀疏窗口,包含全局块和局部块,确保整体逻辑不被忽略。
  • 在处理128K上下文时,解码速度比原来快10倍,256K上下文预加载速度快50%。
  • LoZA在处理长文本任务时表现优于同类模型Qwen-3,且性能未缩水。
  • 未来计划支持动态稀疏比例,以适应不同场景需求。
➡️

继续阅读