💡
原文中文,约3300字,阅读约需8分钟。
📝
内容提要
美团LongCat团队推出了新推理模型LongCat-Flash-Thinking,具备全球领先的推理能力,特别在逻辑、数学和编程方面表现优异。该模型结合深度思考与工具调用,增强了智能体的推理和形式化证明能力,并已在HuggingFace和Github上开源。
🎯
关键要点
- 美团LongCat团队发布了新推理模型LongCat-Flash-Thinking,具备全球领先的推理能力。
- 该模型在逻辑、数学、代码等领域的推理任务中达到了最先进水平(SOTA)。
- LongCat-Flash-Thinking增强了智能体自主调用工具的能力,并扩展了形式化定理证明能力。
- 模型采用领域并行强化学习训练方法,解决了混合训练的稳定性问题。
- 异步弹性共卡系统(DORA)实现了训练速度的三倍提升,确保策略一致性。
- 提出了双路径推理框架,提升了智能体推理能力和工具调用效率。
- 形式化推理框架通过专家迭代框架提升了模型的形式化推理能力。
- LongCat-Flash-Thinking在多项权威评测中刷新纪录,展现出卓越的通用推理能力。
- 在数学推理方面,模型在HMMT和AIME基准测试中取得突破性成绩。
- 在编程领域,LongCat-Flash-Thinking在LiveCodeBench和OJBench测试中表现优异。
- 模型在智能体工具调用方面表现突出,刷新开源SOTA成绩。
- LongCat-Flash-Thinking在形式化推理能力上也展现出绝对优势。
- 模型已在HuggingFace和Github上开源,用户可前往体验。
➡️