量子位 ·

字节Seed首次开源代码模型，拿下同规模多个SOTA，提出用小模型管理数据范式

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

字节Seed首次开源代码模型Seed-Coder，参数8B，超越Qwen3。该模型通过自我生成和筛选高质量训练数据，提升代码生成能力，支持89种编程语言，包含约1万亿个独特token，采用MIT开源协议。

🎯

关键要点

字节Seed首次开源代码模型Seed-Coder，参数8B，超越Qwen3。
Seed-Coder通过自我生成和筛选高质量训练数据，提升代码生成能力。
模型支持89种编程语言，包含约1万亿个独特token，采用MIT开源协议。
Seed-Coder有三个版本：Base、Instruct和Reasoning，其中Instruct在编程方面表现出色。
模型上下文长度为32K，使用6T tokens进行训练。
Seed团队提出“模型中心”的数据处理方式，使用模型策划数据。
数据过滤分为文件级代码、仓库级代码、Commit数据和代码相关网络数据四个类别。
预处理阶段实施去重，减少约98%的原始数据量。
使用经过22万份代码文档训练的评分模型过滤低质量代码文件。
Seed-Coder从14万个高质量GitHub仓库收集7400万个提交记录，进行格式化为代码变更预测任务。
网络数据处理框架对大规模网络档案进行预处理，构建约1.2万亿tokens的网络数据语料库。
Seed-Coder的预训练分为常规预训练和持续预训练两个阶段。
开发了Seed-Coder的两个特殊变体：指令模型和推理模型，增强模型的实用性。
字节Seed近期多个动作聚焦在降门槛、开源开放方面，发布视频生成和推理模型。
推出了电脑操作智能体UI-TARS，超越GPT-4o等，且免费商用。
字节Seed内部调整，多个团队直接向Seed负责人汇报，设立“Seed Edge”研究项目。
字节的动向显示AI圈子的新风向：开源、开放、原始性创新、AI普惠。

🏷️

继续阅读

LeCun创业0产品估值247亿，回应谢赛宁入伙
LeCun创办的Advanced Machine Intelligence（AMI）估值247亿，专注于世界模型，强调开源和理解真实世界的重要性。他批评M...
当开源的门缝变窄，真正需要我们警觉的是什么？
2025年4月13日，中国开发者在访问GitHub时遭遇403访问限制，标志着该平台对中国的封锁。这一事件影响了全球开源生态，促使开发者重新思考技术依赖，...
具身智能资源汇总：机器人学习数据集，在线体验世界建模模型，英伟达/字节/小米等最新研究论文
本文系统整理了一批具身智能相关的高质量数据集、在线教程、论文，为进一步学习和研究提供参考，欢迎前往 hyper.ai 探索更多优质资源！
🌟 GSoC 2026 来了！与我们一起迎接又一个创新之年 🌟
谷歌夏季代码（GSoC）2026正式启动，ASF将连续第21年参与。GSoC旨在吸引新贡献者参与开源软件开发，项目持续12周以上。自2005年以来，ASF...
为什么平台公司不断收购前端框架团队
Cloudflare最近收购了前端框架Astro，反映出大型平台对流行框架的支持。Cloudflare希望通过Astro推动更好的互联网，支持独立网站，并...
使用 GitHub Copilot SDK 将智能体集成到任何应用程序中
GitHub Copilot SDK 简化了构建自主工作流的过程，支持多种编程语言，提供 AI 模型、工具定义和实时流功能，帮助开发者提升应用程序的效率和生产力。

字节Seed首次开源代码模型，拿下同规模多个SOTA，提出用小模型管理数据范式

内容提要

关键要点

标签

继续阅读