字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?

💡 原文中文,约2600字,阅读约需7分钟。
📝

内容提要

字节推出的Seed-Thinking-v1.5模型以200B参数超越DeepSeek-R1的671B,提升了推理表现。通过优化数据和强化学习算法,该模型在数学和代码等任务中表现优异。尽管在某些基准测试中仍落后于o3-mini-high,但其潜力引发关注。

🎯

关键要点

  • 字节推出的Seed-Thinking-v1.5模型以200B参数超越DeepSeek-R1的671B,提升了推理表现。
  • 模型通过优化数据、强化学习算法和基础设施,从三个角度提升推理能力。
  • 字节团队将RL训练数据分为可验证和不可验证问题,采用不同的奖励建模方法。
  • 可验证问题包括STEM问题、代码问题和逻辑推理问题,而不可验证问题主要涉及创意写作等任务。
  • 团队开发了BeyondAIME数学推理评测集,以解决现有基准的局限性。
  • 字节提出了VAPO和DAPO两个RL框架,以稳定强化学习训练过程。
  • Seed-Thinking-v1.5借鉴了多项关键技术,如价值预训练和解耦的GAE。
  • 团队设计了SRS流式Rollout系统和混合分布式训练框架,以提高训练效率。
  • 在AIME 2024基准测试中,Seed-Thinking-v1.5取得86.7的成绩,接近o3-mini-high模型。
  • Seed-Thinking-v1.5在代码生成场景中的表现与Gemini 2.5 Pro相当,但仍落后于o3-mini-high。
  • 团队认为SimpleQA基准测试更关注预训练模型规模,而非推理能力。
  • 模型的发布尚未确定,未来可能会部署到豆包APP。

延伸问答

Seed-Thinking-v1.5模型的参数规模是多少?

Seed-Thinking-v1.5模型的参数规模为200B。

字节如何提升Seed-Thinking-v1.5的推理能力?

字节通过优化数据、强化学习算法和基础设施,从三个角度提升了推理能力。

Seed-Thinking-v1.5在AIME 2024基准测试中的成绩如何?

Seed-Thinking-v1.5在AIME 2024基准测试中取得了86.7的成绩。

字节团队是如何处理可验证和不可验证问题的?

字节团队将RL训练数据分为可验证和不可验证问题,采用不同的奖励建模方法。

Seed-Thinking-v1.5与DeepSeek-R1的参数对比如何?

Seed-Thinking-v1.5有200B参数,而DeepSeek-R1有671B参数,前者更轻量级。

未来Seed-Thinking-v1.5会部署到哪个平台?

未来可能会部署到豆包APP。

➡️

继续阅读