美团技术团队 ·

美团发布基于 N-gram 全新模型：嵌入扩展新范式，实现轻量化 MoE 高效进化

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

美团 LongCat 团队推出了 LongCat-Flash-Lite，这是一款轻量化的 MoE 模型，参数量为685亿，推理时激活29亿至45亿参数。该模型在智能体和编程任务中表现优异，尤其在复杂工具使用和代码修复方面，现已开源，欢迎开发者体验。

🎯

🔎

LongCat-Flash-Lite采用N-gram嵌入层，显著提升了模型对局部上下文的理解能力。这种方法通过将多个token组合成N-gram向量，能够更准确地捕捉语义，避免误解。例如，在处理编程相关的指令时，模型能更好地理解上下文，从而提高执行的准确性。

LongCat-Flash-Lite通过动态激活机制和系统级优化，实现了高效的推理性能。尽管模型参数量庞大，但每次推理仅激活29亿至45亿参数，减少了计算开销。这种稀疏激活的设计使得模型在处理复杂任务时，能够保持高吞吐量和低延迟，适合实际应用场景。

LongCat-Flash-Lite的开源不仅提供了模型权重和技术细节，还鼓励开发者参与到模型的研究与应用中。这种开放的态度有助于推动技术的进步和社区的合作，开发者可以利用每日5000万tokens的免费额度，快速测试和验证自己的想法，促进创新。

❓

LongCat-Flash-Lite模型的参数量为685亿。

LongCat-Flash-Lite在编程任务中表现优异，尤其在代码修复和终端命令执行方面。

N-gram嵌入层增强模型对局部上下文语义的捕获能力，提升语义理解的精准度。

LongCat-Flash-Lite通过动态激活机制和三重优化实现推理效率的提升。

LongCat-Flash-Lite已开源，欢迎开发者体验和研究，提供每日5000万tokens的免费额度。

LongCat-Flash-Lite在智能体工具使用方面表现突出，尤其在电信、零售和航空等行业场景中取得高分。

🏷️