200B参数击败满血DeepSeek-R1,字节豆包推理模型Seed-Thinking-v1.5要来了

200B参数击败满血DeepSeek-R1,字节豆包推理模型Seed-Thinking-v1.5要来了

💡 原文中文,约4400字,阅读约需11分钟。
📝

内容提要

字节跳动推出了新推理模型Seed-Thinking-v1.5,参数总量200B,激活20B,性能超越671B的DeepSeek-R1。该模型在多个基准测试中表现优异,特别是在STEM领域和编程任务中展现出强大的推理能力。团队还开发了新的评估基准,未来将向公众开放。

🎯

关键要点

  • 字节跳动推出了新推理模型Seed-Thinking-v1.5,参数总量200B,激活20B。
  • Seed-Thinking-v1.5在多个基准测试中表现超越671B的DeepSeek-R1,特别是在STEM领域和编程任务中。
  • 该模型在AIME 2024测试中获得86.7分,Codeforces评测达到55.0分,GPQA测试得分77.3。
  • Seed-Thinking-v1.5在非推理任务中表现出显著的泛化能力,胜率比DeepSeek R1高出8%。
  • 模型采用混合专家模型(MoE)设计,规模紧凑高效。
  • 团队开发了BeyondAIME和Codeforces两个内部基准测试,未来将向公众开放。
  • 在数学推理方面,Seed-Thinking-v1.5在AIME 2024基准上取得高分,表现接近高计算量的o3-mini-high。
  • 在竞赛编程方面,Seed-Thinking-v1.5在pass@1和pass@8指标上均超过DeepSeek-R1。
  • 科学问题上,Seed-Thinking-v1.5在GPQA基准上得分接近o3,提升主要归功于数学训练的泛化能力。
  • 开发高质量推理模型的关键在于数据、强化学习算法和基础设施。
  • 团队在数据方面依赖思维链数据,强化学习训练中整合了STEM问题和逻辑推理数据。
  • 提出了VAPO和DAPO框架以解决强化学习训练的不稳定性。
  • 奖励建模是强化学习的关键,团队设计了Seed-Verifier和Seed-Thinking-Verifier两种奖励建模方案。
  • 基础设施方面,团队开发了流式推演架构,提升了迭代速度和稳定性。
  • Seed-Thinking-v1.5的训练框架基于HybridFlow编程抽象构建,支持高效的分布式训练。

延伸问答

Seed-Thinking-v1.5模型的参数配置是什么?

Seed-Thinking-v1.5模型总参数为200B,实际激活参数为20B。

Seed-Thinking-v1.5在STEM领域的表现如何?

Seed-Thinking-v1.5在STEM领域表现优异,在AIME 2024测试中获得86.7分。

该模型与DeepSeek-R1相比有什么优势?

Seed-Thinking-v1.5在多个基准测试中超越DeepSeek-R1,特别是在非推理任务中胜率高出8%。

Seed-Thinking-v1.5的训练框架是怎样的?

Seed-Thinking-v1.5的训练框架基于HybridFlow编程抽象构建,支持高效的分布式训练。

团队为提高模型性能采取了哪些关键措施?

团队在数据、强化学习算法和基础设施方面进行了创新,以提升模型性能。

Seed-Thinking-v1.5的评估基准有哪些?

团队开发了BeyondAIME和Codeforces两个内部基准测试,未来将向公众开放。

➡️

继续阅读