字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?
内容提要
字节推出的Seed-Thinking-v1.5模型以200B参数超越DeepSeek-R1的671B,提升了推理表现。通过优化数据和强化学习算法,该模型在数学和代码等任务中表现优异。尽管在某些基准测试中仍落后于o3-mini-high,但其潜力引发关注。
关键要点
-
字节推出的Seed-Thinking-v1.5模型以200B参数超越DeepSeek-R1的671B,提升了推理表现。
-
模型通过优化数据、强化学习算法和基础设施,从三个角度提升推理能力。
-
字节团队将RL训练数据分为可验证和不可验证问题,采用不同的奖励建模方法。
-
可验证问题包括STEM问题、代码问题和逻辑推理问题,而不可验证问题主要涉及创意写作等任务。
-
团队开发了BeyondAIME数学推理评测集,以解决现有基准的局限性。
-
字节提出了VAPO和DAPO两个RL框架,以稳定强化学习训练过程。
-
Seed-Thinking-v1.5借鉴了多项关键技术,如价值预训练和解耦的GAE。
-
团队设计了SRS流式Rollout系统和混合分布式训练框架,以提高训练效率。
-
在AIME 2024基准测试中,Seed-Thinking-v1.5取得86.7的成绩,接近o3-mini-high模型。
-
Seed-Thinking-v1.5在代码生成场景中的表现与Gemini 2.5 Pro相当,但仍落后于o3-mini-high。
-
团队认为SimpleQA基准测试更关注预训练模型规模,而非推理能力。
-
模型的发布尚未确定,未来可能会部署到豆包APP。
延伸问答
Seed-Thinking-v1.5模型的参数规模是多少?
Seed-Thinking-v1.5模型的参数规模为200B。
字节如何提升Seed-Thinking-v1.5的推理能力?
字节通过优化数据、强化学习算法和基础设施,从三个角度提升了推理能力。
Seed-Thinking-v1.5在AIME 2024基准测试中的成绩如何?
Seed-Thinking-v1.5在AIME 2024基准测试中取得了86.7的成绩。
字节团队是如何处理可验证和不可验证问题的?
字节团队将RL训练数据分为可验证和不可验证问题,采用不同的奖励建模方法。
Seed-Thinking-v1.5与DeepSeek-R1的参数对比如何?
Seed-Thinking-v1.5有200B参数,而DeepSeek-R1有671B参数,前者更轻量级。
未来Seed-Thinking-v1.5会部署到哪个平台?
未来可能会部署到豆包APP。