量子位 ·

字节突然开源Seed-OSS，512K上下文主流4倍长度，推理能力刷纪录

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

字节跳动开源了Seed-OSS-36B大模型，参数达到360亿，支持512K上下文，推理能力创纪录。该模型采用Apache-2.0协议，适用于学术和商业，且引入“思考预算”机制，灵活控制推理深度，推动国产开源模型的发展。

🎯

关键要点

字节跳动开源了Seed-OSS-36B大模型，参数达到360亿，支持512K上下文。
该模型采用Apache-2.0协议，适用于学术和商业。
Seed-OSS引入了“思考预算”机制，灵活控制推理深度。
Seed-OSS的上下文窗口为512K，是主流模型的4倍。
模型架构包括360亿参数的稠密模型，64层，隐藏层维度5120。
在知识理解和推理能力方面，Seed-OSS表现优异，刷新了多项开源模型记录。
字节Seed团队成立于2023年，致力于打造先进的AI基础模型。
团队已开源多个项目，包括代码生成模型Seed-Coder和多模态模型BAGEL。
Seed-OSS的开源进一步推动了国产开源模型的发展。

🔎

延伸解读

Seed-OSS的上下文优势

Seed-OSS的512K上下文窗口是当前主流模型的四倍，这使其在处理长篇文档和复杂信息时具有显著优势。对于法律、技术和学术领域的应用，Seed-OSS能够更有效地理解和分析大量信息，提升工作效率。

思考预算机制的灵活性

Seed-OSS引入的“思考预算”机制允许用户根据任务复杂度调整模型的推理深度。这种灵活性使得模型在简单任务时能够快速响应，而在复杂任务中则能进行深入思考，适应不同场景的需求。

开源协议的影响

Seed-OSS采用Apache-2.0开源协议，意味着它可以被广泛应用于学术和商业项目。这一策略不仅促进了技术的传播，也为开发者提供了更多的创新空间，推动国产开源模型的发展。

性能与训练数据的关系

尽管Seed-OSS的训练数据量为12T，低于许多同规模模型的15T以上，但其在多个基准测试中表现出色。这表明，模型的架构和训练方法可能在性能上起到了更为关键的作用，值得研究者关注。

❓

延伸问答

Seed-OSS-36B大模型的参数有多少？

Seed-OSS-36B大模型的参数达到360亿。

Seed-OSS支持的上下文窗口有多大？

Seed-OSS支持512K的上下文窗口，是主流模型的4倍。

Seed-OSS引入了什么机制来控制推理深度？

Seed-OSS引入了“思考预算”机制，可以灵活控制推理深度。

Seed-OSS的开源协议是什么？

Seed-OSS采用Apache-2.0开源协议。

Seed-OSS在知识理解方面的表现如何？

Seed-OSS-36B-Base在MMLU-Pro上达到了65.1分，表现优异。

字节跳动的Seed团队成立于哪一年？

字节跳动的Seed团队成立于2023年。

🏷️