美团技术团队 ·

美团 LongCat-Flash-Thinking-2601 发布，工具调用能力登顶开源 SOTA！

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

美团LongCat团队发布了LongCat-Flash-Thinking-2601模型，具备卓越的智能体搜索和工具调用能力，支持重思考模式，提升决策质量。该模型在编程和数学推理等评测中表现优异，已开源并可在线体验，旨在降低开发者使用门槛。

🎯

🔎

LongCat-Flash-Thinking-2601引入的重思考模式，通过并行思考和总结归纳两个阶段，显著提升了模型在复杂问题上的决策能力。这种方法不仅能确保思考的全面性，还能有效避免遗漏最优解，适合需要深度分析的应用场景。

该模型在噪声环境下的稳健训练使其具备了更强的环境适应能力。通过模拟API调用失败等不确定性，LongCat-Flash-Thinking-2601能够在复杂场景中稳定发挥，适合实际应用中的多变情况，降低了决策失误的风险。

美团LongCat团队的开源策略降低了开发者的使用门槛，提供了模型权重和推理代码。这使得开发者能够快速试用和深入开发，促进了智能体技术的普及与应用，推动了相关领域的创新。

❓

该模型具备智能体搜索和工具调用能力，支持重思考模式，提升决策质量。

在编程能力评测中获得82.8分，数学推理在AIME-25评测中满分100分，表现优异。

重思考模式分为并行思考和总结归纳两个阶段，确保思考周全，提升决策质量。

通过环境扩展与多环境强化学习，构建多样化的训练环境，提升模型在未知场景中的表现。

模型的权重、推理代码已开源，开发者可以在GitHub和Hugging Face等平台上获取。

经过稳健训练后，该模型在复杂、不理想的场景中也能稳定发挥，高效完成任务。

🏷️