字节突然开源Seed-OSS,512K上下文主流4倍长度,推理能力刷纪录

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

字节跳动开源了Seed-OSS-36B大模型,参数达到360亿,支持512K上下文,推理能力创纪录。该模型采用Apache-2.0协议,适用于学术和商业,且引入“思考预算”机制,灵活控制推理深度,推动国产开源模型的发展。

🎯

关键要点

  • 字节跳动开源了Seed-OSS-36B大模型,参数达到360亿,支持512K上下文。
  • 该模型采用Apache-2.0协议,适用于学术和商业。
  • Seed-OSS引入了“思考预算”机制,灵活控制推理深度。
  • Seed-OSS的上下文窗口为512K,是主流模型的4倍。
  • 模型架构包括360亿参数的稠密模型,64层,隐藏层维度5120。
  • 在知识理解和推理能力方面,Seed-OSS表现优异,刷新了多项开源模型记录。
  • 字节Seed团队成立于2023年,致力于打造先进的AI基础模型。
  • 团队已开源多个项目,包括代码生成模型Seed-Coder和多模态模型BAGEL。
  • Seed-OSS的开源进一步推动了国产开源模型的发展。

延伸问答

Seed-OSS-36B大模型的参数有多少?

Seed-OSS-36B大模型的参数达到360亿。

Seed-OSS支持的上下文窗口有多大?

Seed-OSS支持512K的上下文窗口,是主流模型的4倍。

Seed-OSS引入了什么机制来控制推理深度?

Seed-OSS引入了“思考预算”机制,可以灵活控制推理深度。

Seed-OSS的开源协议是什么?

Seed-OSS采用Apache-2.0开源协议。

Seed-OSS在知识理解方面的表现如何?

Seed-OSS-36B-Base在MMLU-Pro上达到了65.1分,表现优异。

字节跳动的Seed团队成立于哪一年?

字节跳动的Seed团队成立于2023年。

➡️

继续阅读