机器之心 ·

200B参数击败满血DeepSeek-R1，字节豆包推理模型Seed-Thinking-v1.5要来了

💡 原文中文，约4400字，阅读约需11分钟。

📝

内容提要

字节跳动推出了新推理模型Seed-Thinking-v1.5，参数总量200B，激活20B，性能超越671B的DeepSeek-R1。该模型在多个基准测试中表现优异，特别是在STEM领域和编程任务中展现出强大的推理能力。团队还开发了新的评估基准，未来将向公众开放。

🎯

关键要点

字节跳动推出了新推理模型Seed-Thinking-v1.5，参数总量200B，激活20B。
Seed-Thinking-v1.5在多个基准测试中表现超越671B的DeepSeek-R1，特别是在STEM领域和编程任务中。
该模型在AIME 2024测试中获得86.7分，Codeforces评测达到55.0分，GPQA测试得分77.3。
Seed-Thinking-v1.5在非推理任务中表现出显著的泛化能力，胜率比DeepSeek R1高出8%。
模型采用混合专家模型（MoE）设计，规模紧凑高效。
团队开发了BeyondAIME和Codeforces两个内部基准测试，未来将向公众开放。
在数学推理方面，Seed-Thinking-v1.5在AIME 2024基准上取得高分，表现接近高计算量的o3-mini-high。
在竞赛编程方面，Seed-Thinking-v1.5在pass@1和pass@8指标上均超过DeepSeek-R1。
科学问题上，Seed-Thinking-v1.5在GPQA基准上得分接近o3，提升主要归功于数学训练的泛化能力。
开发高质量推理模型的关键在于数据、强化学习算法和基础设施。
团队在数据方面依赖思维链数据，强化学习训练中整合了STEM问题和逻辑推理数据。
提出了VAPO和DAPO框架以解决强化学习训练的不稳定性。
奖励建模是强化学习的关键，团队设计了Seed-Verifier和Seed-Thinking-Verifier两种奖励建模方案。
基础设施方面，团队开发了流式推演架构，提升了迭代速度和稳定性。
Seed-Thinking-v1.5的训练框架基于HybridFlow编程抽象构建，支持高效的分布式训练。

🔎

延伸解读

模型性能的实际应用

Seed-Thinking-v1.5在STEM领域和编程任务中的优异表现，意味着它在教育和技术行业的应用潜力巨大。尤其是在数学推理和竞赛编程方面的高分，可能会吸引更多教育机构和企业采用该模型来提升学习和开发效率。

强化学习的创新方法

该模型在强化学习训练中引入了VAPO和DAPO框架，解决了传统方法的不稳定性。这一创新不仅提升了模型的训练效果，也为未来的推理模型开发提供了新的思路，值得关注其在其他领域的应用潜力。

基准测试的开放性

字节跳动计划将BeyondAIME和Codeforces基准测试向公众开放，这将促进研究者和开发者对推理模型的进一步探索与应用。开放基准测试有助于推动整个行业的进步，提升模型的透明度和可验证性。

❓

延伸问答

Seed-Thinking-v1.5模型的参数配置是什么？

Seed-Thinking-v1.5模型总参数为200B，实际激活参数为20B。

Seed-Thinking-v1.5在STEM领域的表现如何？

Seed-Thinking-v1.5在STEM领域表现优异，在AIME 2024测试中获得86.7分。

该模型与DeepSeek-R1相比有什么优势？

Seed-Thinking-v1.5在多个基准测试中超越DeepSeek-R1，特别是在非推理任务中胜率高出8%。

Seed-Thinking-v1.5的训练框架是怎样的？

Seed-Thinking-v1.5的训练框架基于HybridFlow编程抽象构建，支持高效的分布式训练。

团队为提高模型性能采取了哪些关键措施？

团队在数据、强化学习算法和基础设施方面进行了创新，以提升模型性能。

Seed-Thinking-v1.5的评估基准有哪些？

团队开发了BeyondAIME和Codeforces两个内部基准测试，未来将向公众开放。

🏷️

标签

STEM Seed-Thinking-v1.5 deepseek 字节跳动推理模型编程任务豆包

➡️

继续阅读

cinv身份证校验库
✅ 18 位格式校验：长度、字符集、地址码首位 ✅ 出生日期合法性校验：闰年/平年、各月天数（纯标准库，无 chrono 依赖 ✅ MOD 11‑2 校验...
字节跳动AI业务组织调整；朱一明减持兆易创新套现44亿元；三星电子半导体业务季度营业利润增长逾250倍 | 日报
（全球TMT 2026年07月30日讯）今日要点：字节跳动AI业务组织调整；朱一明减持兆易创新套现44亿元；月 […]
互联网时代的话题是「连接」，AI时代的话题是「执行」
2013年开始，OTO成为互联网的主要逻辑，随着微信、各类App成为互联网入口的主流，人们对互联网的认知逐渐达到顶峰，最后提炼出两个字：连接。在移动互联网...
宜鼎国际推出全新DDR5 MRDIMM内存，传输速度提升至12800 MT/s
（全球TMT 2026年07月30日讯）宜鼎国际（Innodisk）发表全新DDR5 MRDIMM内存模组，搭 […]
新玩具！PanstarCloud德国法兰克福三网精品优化服务器 2.79美元/月 30%循环优惠
服务器提供商 PanstarCloud 日前推出德国法兰克福数据中心活动，提供精品优化线路服务器 7 折促销， […]
实时视频通信：已改变了成年人在线交友的方式
数字社交平台的重心，已经从"维护已有关系"转向了"建立全新连接"。直播视频平台上的核心预期，就是你在这里认识新的人。这是对...