字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?
💡
原文中文,约2600字,阅读约需7分钟。
📝
内容提要
字节推出的Seed-Thinking-v1.5模型以200B参数超越DeepSeek-R1的671B,提升了推理表现。通过优化数据和强化学习算法,该模型在数学和代码等任务中表现优异。尽管在某些基准测试中仍落后于o3-mini-high,但其潜力引发关注。
🎯
关键要点
- 字节推出的Seed-Thinking-v1.5模型以200B参数超越DeepSeek-R1的671B,提升了推理表现。
- 模型通过优化数据、强化学习算法和基础设施,从三个角度提升推理能力。
- 字节团队将RL训练数据分为可验证和不可验证问题,采用不同的奖励建模方法。
- 可验证问题包括STEM问题、代码问题和逻辑推理问题,而不可验证问题主要涉及创意写作等任务。
- 团队开发了BeyondAIME数学推理评测集,以解决现有基准的局限性。
- 字节提出了VAPO和DAPO两个RL框架,以稳定强化学习训练过程。
- Seed-Thinking-v1.5借鉴了多项关键技术,如价值预训练和解耦的GAE。
- 团队设计了SRS流式Rollout系统和混合分布式训练框架,以提高训练效率。
- 在AIME 2024基准测试中,Seed-Thinking-v1.5取得86.7的成绩,接近o3-mini-high模型。
- Seed-Thinking-v1.5在代码生成场景中的表现与Gemini 2.5 Pro相当,但仍落后于o3-mini-high。
- 团队认为SimpleQA基准测试更关注预训练模型规模,而非推理能力。
- 模型的发布尚未确定,未来可能会部署到豆包APP。
❓
延伸问答
Seed-Thinking-v1.5模型的参数规模是多少?
Seed-Thinking-v1.5模型的参数规模为200B。
字节如何提升Seed-Thinking-v1.5的推理能力?
字节通过优化数据、强化学习算法和基础设施,从三个角度提升了推理能力。
Seed-Thinking-v1.5在AIME 2024基准测试中的成绩如何?
Seed-Thinking-v1.5在AIME 2024基准测试中取得了86.7的成绩。
字节团队是如何处理可验证和不可验证问题的?
字节团队将RL训练数据分为可验证和不可验证问题,采用不同的奖励建模方法。
Seed-Thinking-v1.5与DeepSeek-R1的参数对比如何?
Seed-Thinking-v1.5有200B参数,而DeepSeek-R1有671B参数,前者更轻量级。
未来Seed-Thinking-v1.5会部署到哪个平台?
未来可能会部署到豆包APP。
➡️