量子位 ·

字节新推理模型逆袭DeepSeek，200B参数战胜671B，豆包史诗级加强?

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

字节推出的Seed-Thinking-v1.5模型以200B参数超越DeepSeek-R1的671B，提升了推理表现。通过优化数据和强化学习算法，该模型在数学和代码等任务中表现优异。尽管在某些基准测试中仍落后于o3-mini-high，但其潜力引发关注。

🎯

关键要点

字节推出的Seed-Thinking-v1.5模型以200B参数超越DeepSeek-R1的671B，提升了推理表现。
模型通过优化数据、强化学习算法和基础设施，从三个角度提升推理能力。
字节团队将RL训练数据分为可验证和不可验证问题，采用不同的奖励建模方法。
可验证问题包括STEM问题、代码问题和逻辑推理问题，而不可验证问题主要涉及创意写作等任务。
团队开发了BeyondAIME数学推理评测集，以解决现有基准的局限性。
字节提出了VAPO和DAPO两个RL框架，以稳定强化学习训练过程。
Seed-Thinking-v1.5借鉴了多项关键技术，如价值预训练和解耦的GAE。
团队设计了SRS流式Rollout系统和混合分布式训练框架，以提高训练效率。
在AIME 2024基准测试中，Seed-Thinking-v1.5取得86.7的成绩，接近o3-mini-high模型。
Seed-Thinking-v1.5在代码生成场景中的表现与Gemini 2.5 Pro相当，但仍落后于o3-mini-high。
团队认为SimpleQA基准测试更关注预训练模型规模，而非推理能力。
模型的发布尚未确定，未来可能会部署到豆包APP。

❓

延伸问答

Seed-Thinking-v1.5模型的参数规模是多少？

Seed-Thinking-v1.5模型的参数规模为200B。

字节如何提升Seed-Thinking-v1.5的推理能力？

字节通过优化数据、强化学习算法和基础设施，从三个角度提升了推理能力。

Seed-Thinking-v1.5在AIME 2024基准测试中的成绩如何？

Seed-Thinking-v1.5在AIME 2024基准测试中取得了86.7的成绩。

字节团队是如何处理可验证和不可验证问题的？

字节团队将RL训练数据分为可验证和不可验证问题，采用不同的奖励建模方法。

Seed-Thinking-v1.5与DeepSeek-R1的参数对比如何？

Seed-Thinking-v1.5有200B参数，而DeepSeek-R1有671B参数，前者更轻量级。

未来Seed-Thinking-v1.5会部署到哪个平台？

未来可能会部署到豆包APP。

🏷️

继续阅读

DeepSeek识图模式是个新模型？！一手实测在此（没错我被灰度到了）
DeepSeek的识图模式在灰度测试中表现优异，支持快速识别和推理。非思考模式下速度快但准确性需提升；思考模式下推理能力强但耗时较长。该模式有效处理OCR...
生数科技认领神秘登顶模型：AI视频公司拿出工业级Demo，跨本体跑通复杂长程任务
生数科技推出的MotuBrain是一款具身智能机器人通用大脑，具备世界模型的预测和行动能力，展现出卓越的物理理解和行动能力。MotuBrain通过统一建模...
Cloudflare IPsec的后量子加密现已普遍可用
Cloudflare宣布其IPsec服务现已支持后量子加密，旨在抵御“先收集后解密”的攻击。该技术采用混合ML-KEM算法，确保与Cisco和Fortin...
《混沌之脑（Chaos;Head）》游戏原案（下）
故事围绕拓巳的内心挣扎展开，他渴望死亡却又害怕死亡，反复经历自杀幻想。面对七海的存在，他感到困惑与绝望，认为自己是妄想的产物，最终在痛苦中寻求解脱，渴望被他人解放。
《混沌之脑（Chaos;Head）》游戏原案（上）
在《混沌之脑》中，西条拓巳在崩坏的城市中体验到恐惧与孤独，卷入“新世代疯狂”事件。故事探讨存在的意义、孤独感以及对现实与虚拟的逃避。拓巳的内心挣扎与妄想交...
Spotify认证徽章让你知道这位艺术家不是人工智能创作的
Spotify推出新的验证程序，旨在打击垃圾信息、假冒和人工智能音乐。获得“Spotify认证”标志的艺术家需具备持续的听众活动和参与度。目前，AI生成音...