美团龙猫LongCat技术升级!新注意力机制解码速度快10倍,还能处理1M超长文本
💡
原文中文,约1600字,阅读约需4分钟。
📝
内容提要
美团龙猫LongCat推出新稀疏注意力机制LoZA,解码速度提升10倍,支持处理1M长文本。通过优化模型结构,降低计算复杂度,提高效率,同时保持稳定性能。该技术在长文本任务中优于同类模型,未来将支持动态稀疏比例,以适应不同场景需求。
🎯
关键要点
- 美团龙猫LongCat推出新稀疏注意力机制LoZA,解码速度提升10倍,支持处理1M长文本。
- LoZA通过优化模型结构,降低计算复杂度,提高效率,同时保持稳定性能。
- 新机制解决了长文本任务的理解和算力难题,相比于之前的全注意力MLA机制,LoZA只改造了一半核心模块。
- LoZA的核心思路是专注于处理重要内容,减少对不重要部分的计算。
- 模型通过全局筛查找出可改造的多头潜在注意力模块,并用可学习权重α进行优化。
- 将低性能模块替换为流式稀疏注意力SSA,计算复杂度降至线性级别O(L·S)。
- LoZA设计了1024Token稀疏窗口,包含全局块和局部块,确保整体逻辑不被忽略。
- 在处理128K上下文时,解码速度比原来快10倍,256K上下文预加载速度快50%。
- LoZA在处理长文本任务时表现优于同类模型Qwen-3,且性能未缩水。
- 未来计划支持动态稀疏比例,以适应不同场景需求。
➡️