💡
原文中文,约6100字,阅读约需15分钟。
📝
内容提要
美团LongCat团队推出了开源模型LongCat-Flash-Thinking-2601,拥有5600亿参数,旨在解决智能体在复杂环境中的适应性问题。该模型通过环境扩展、强化学习和噪声训练,在多领域任务中表现出色,显著提升了泛化能力和决策稳定性。
🎯
关键要点
- 美团LongCat团队推出开源模型LongCat-Flash-Thinking-2601,拥有5600亿参数。
- 该模型旨在解决智能体在复杂环境中的适应性问题。
- LongCat-Flash-Thinking-2601在智能体基准测试中表现优异,提升了泛化能力和决策稳定性。
- 智能体在真实世界中常常表现不佳,主要由于缺乏适应多样化环境的基础模型。
- LongCat团队提出以'两个扩展+噪声训练'为核心的智能体训练范式。
- 环境扩展构建了覆盖20多个领域的规模化训练场,提升模型的实际任务执行能力。
- 强化学习扩展通过异步训练系统DORA实现高效稳定训练,支持大规模多环境训练。
- 噪声训练方案系统化注入真实世界扰动,提升模型在不确定环境中的稳定决策能力。
- 重思考机制通过多条推理路径的生成与分析,提升模型在复杂任务中的表现。
- LongCat-Flash-Thinking-2601在多个基准测试中表现出色,展现强泛化能力。
- Zigzag注意力机制结合了多头潜在注意力与流式稀疏注意力,降低计算复杂度。
- LongCat-Flash-Thinking-2601的发布为开源模型在真实世界任务中的泛化能力设立了新标准。
➡️