美团龙猫LongCat技术升级!新注意力机制解码速度快10倍,还能处理1M超长文本
💡
原文中文,约1600字,阅读约需4分钟。
📝
内容提要
美团龙猫LongCat推出新稀疏注意力机制LoZA,解码速度提升10倍,支持处理1M长文本。通过优化模型结构,降低计算复杂度,提高效率,同时保持稳定性能。该技术在长文本任务中优于同类模型,未来将支持动态稀疏比例,以适应不同场景需求。
🎯
关键要点
- 美团龙猫LongCat推出新稀疏注意力机制LoZA,解码速度提升10倍,支持处理1M长文本。
- LoZA通过优化模型结构,降低计算复杂度,提高效率,同时保持稳定性能。
- 新机制解决了长文本任务的理解和算力难题,相比于之前的全注意力MLA机制,LoZA只改造了一半核心模块。
- LoZA的核心思路是专注于处理重要内容,减少对不重要部分的计算。
- 模型通过全局筛查找出可改造的多头潜在注意力模块,并用可学习权重α进行优化。
- 将低性能模块替换为流式稀疏注意力SSA,计算复杂度降至线性级别O(L·S)。
- LoZA设计了1024Token稀疏窗口,包含全局块和局部块,确保整体逻辑不被忽略。
- 在处理128K上下文时,解码速度比原来快10倍,256K上下文预加载速度快50%。
- LoZA在处理长文本任务时表现优于同类模型Qwen-3,且性能未缩水。
- 未来计划支持动态稀疏比例,以适应不同场景需求。
❓
延伸问答
LoZA机制的主要优势是什么?
LoZA机制的主要优势是解码速度提升10倍,支持处理1M长文本,同时降低计算复杂度,保持稳定性能。
LoZA是如何优化长文本处理的?
LoZA通过优化模型结构,专注于处理重要内容,减少对不重要部分的计算,从而提高效率。
LoZA与之前的MLA机制有什么不同?
LoZA只改造了一半核心模块,相比于全注意力的MLA机制,计算复杂度从O(L²)降至O(L·S),提高了处理效率。
LoZA在处理长文本任务时的表现如何?
LoZA在处理长文本任务时表现优于同类模型Qwen-3,且性能未缩水,解码速度显著提升。
未来LoZA有哪些发展计划?
未来LoZA计划支持动态稀疏比例,以适应不同场景需求,提升短文本和长文本处理的效率。
LoZA如何降低计算复杂度?
LoZA通过将低性能模块替换为流式稀疏注意力SSA,形成交错结构,使计算复杂度降至线性级别O(L·S)。
➡️