字节Seed首次开源代码模型,拿下同规模多个SOTA,提出用小模型管理数据范式

💡 原文中文,约4200字,阅读约需10分钟。
📝

内容提要

字节Seed首次开源代码模型Seed-Coder,参数8B,超越Qwen3。该模型通过自我生成和筛选高质量训练数据,提升代码生成能力,支持89种编程语言,包含约1万亿个独特token,采用MIT开源协议。

🎯

关键要点

  • 字节Seed首次开源代码模型Seed-Coder,参数8B,超越Qwen3。
  • Seed-Coder通过自我生成和筛选高质量训练数据,提升代码生成能力。
  • 模型支持89种编程语言,包含约1万亿个独特token,采用MIT开源协议。
  • Seed-Coder有三个版本:Base、Instruct和Reasoning,其中Instruct在编程方面表现出色。
  • 模型上下文长度为32K,使用6T tokens进行训练。
  • Seed团队提出“模型中心”的数据处理方式,使用模型策划数据。
  • 数据过滤分为文件级代码、仓库级代码、Commit数据和代码相关网络数据四个类别。
  • 预处理阶段实施去重,减少约98%的原始数据量。
  • 使用经过22万份代码文档训练的评分模型过滤低质量代码文件。
  • Seed-Coder从14万个高质量GitHub仓库收集7400万个提交记录,进行格式化为代码变更预测任务。
  • 网络数据处理框架对大规模网络档案进行预处理,构建约1.2万亿tokens的网络数据语料库。
  • Seed-Coder的预训练分为常规预训练和持续预训练两个阶段。
  • 开发了Seed-Coder的两个特殊变体:指令模型和推理模型,增强模型的实用性。
  • 字节Seed近期多个动作聚焦在降门槛、开源开放方面,发布视频生成和推理模型。
  • 推出了电脑操作智能体UI-TARS,超越GPT-4o等,且免费商用。
  • 字节Seed内部调整,多个团队直接向Seed负责人汇报,设立“Seed Edge”研究项目。
  • 字节的动向显示AI圈子的新风向:开源、开放、原始性创新、AI普惠。
➡️

继续阅读