量子位 ·

美团龙猫LongCat技术升级！新注意力机制解码速度快10倍，还能处理1M超长文本

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

美团龙猫LongCat推出新稀疏注意力机制LoZA，解码速度提升10倍，支持处理1M长文本。通过优化模型结构，降低计算复杂度，提高效率，同时保持稳定性能。该技术在长文本任务中优于同类模型，未来将支持动态稀疏比例，以适应不同场景需求。

🎯

🔎

美团龙猫LongCat的LoZA机制通过优化模型结构，显著降低了计算复杂度，使得处理长文本的效率大幅提升。相比于传统的全注意力机制，LoZA在解码速度和性能上都有明显优势，尤其在处理1M长文本时表现突出。这种技术的进步为长文本处理提供了更高效的解决方案，适用于需要快速响应的应用场景。

LoZA的设计不仅提升了长文本处理能力，还计划支持动态稀疏比例，以适应不同的文本场景。这意味着在短文本任务中可以使用全注意力机制以保证精度，而在长文本任务中则能利用稀疏模块提高效率。这种灵活性将使得LoZA在多模态模型和复杂内容处理上具备更广泛的应用潜力。

在与同类模型Qwen-3的比较中，LoZA在处理长文本任务时表现更为优越，且性能未缩水。这一优势不仅提升了LongCat系列的市场竞争力，也为用户提供了更高效的文本处理工具。随着技术的不断进步，LoZA有望在未来的AI应用中占据重要地位。

❓

LoZA机制的主要优势是解码速度提升10倍，支持处理1M长文本，同时降低计算复杂度，保持稳定性能。

LoZA通过优化模型结构，专注于处理重要内容，减少对不重要部分的计算，从而提高效率。

LoZA只改造了一半核心模块，相比于全注意力的MLA机制，计算复杂度从O(L²)降至O(L·S)，提高了处理效率。

LoZA在处理长文本任务时表现优于同类模型Qwen-3，且性能未缩水，解码速度显著提升。

未来LoZA计划支持动态稀疏比例，以适应不同场景需求，提升短文本和长文本处理的效率。

LoZA通过将低性能模块替换为流式稀疏注意力SSA，形成交错结构，使计算复杂度降至线性级别O(L·S)。

🏷️