机器之心 ·

完全开源的代码大模型OpenCoder来了，跻身性能第一梯队

💡 原文中文，约5400字，阅读约需13分钟。

📝

内容提要

OpenCoder项目由墨尔本大学和复旦大学的研究生合作开发，旨在提供高质量的开源代码大型语言模型（CodeLLM）。该项目公开了模型权重、训练数据和处理流程，推动了代码AI的可复现性发展。研究团队强调数据质量和合成数据的重要性，OpenCoder在多个评估任务中表现优异，超越了现有的开源模型。

🎯

关键要点

OpenCoder项目由墨尔本大学和复旦大学的研究生合作开发，旨在提供高质量的开源代码大型语言模型（CodeLLM）。
该项目公开了模型权重、训练数据和处理流程，推动了代码AI的可复现性发展。
研究团队强调数据质量和合成数据的重要性，OpenCoder在多个评估任务中表现优异，超越了现有的开源模型。
OpenCoder不仅公开了模型权重和推理代码，还提供了可重复的训练数据和完整的数据处理流程。
构建高质量CodeLLM的关键因素包括数据质量、添加互联网代码相关语料和使用高质量合成数据。
OpenCoder希望通过更高的开源程度，加速研究进展，推动代码AI的可复现发展。
RefineCode是OpenCoder提出的高质量、可复现的数据集，包含9600亿个标记，涵盖607种编程语言。
数据处理流程包括预处理、去重、转换、过滤和数据重配比，以确保数据的高质量。
OpenCoder采用WSD学习率调度策略，确保模型的稳定性与高效性。
指令微调阶段使用两阶段训练策略，提升模型的泛化能力和适应性。
消融分析表明，file-level去重是代码数据去重的最优选择，高质量合成数据对性能提升至关重要。
OpenCoder在HumanEval、MBPP等评估任务上显著超过现有开源模型，验证了其数据处理流程与合成数据的有效性。
OpenCoder在多语言代码生成评估基准中表现突出，证实了其出色的多语言性能。

❓

延伸问答

OpenCoder项目的主要目标是什么？

OpenCoder项目旨在提供高质量的开源代码大型语言模型（CodeLLM），推动代码AI的可复现性发展。

OpenCoder如何确保数据的高质量？

OpenCoder通过精细的启发式规则清洗、文件粒度的去重以及添加互联网代码相关语料来确保数据的高质量。

RefineCode数据集的特点是什么？

RefineCode是一个高质量、可复现的数据集，包含9600亿个标记，涵盖607种编程语言，并融入130多条语言特定规则。

OpenCoder在评估任务中的表现如何？

OpenCoder在HumanEval、MBPP等评估任务中显著超过现有开源模型，验证了其数据处理流程与合成数据的有效性。

OpenCoder的训练策略有哪些关键步骤？

OpenCoder采用了WSD学习率调度策略和两阶段训练策略，以确保模型的稳定性与高效性，并提升泛化能力。

OpenCoder如何促进代码AI的可复现性发展？

OpenCoder通过公开模型权重、训练数据和处理流程，提供全面的构建细节，促进代码AI的可复现性发展。

🏷️

继续阅读

[开源] 阿里巴巴发布AI驱动的代码审查工具Open Code Review 帮助开发者审查代码
阿里巴巴开源了基于人工智能的代码审查工具Open Code Review（OCR），旨在解决传统审查中的覆盖不全、位置漂移和不稳定等问题。开发者可通过配置...
Roku LT OS开源解析：从遥控器系统到电动赛车控制平台
Roku开源了Roku LT OS，旨在为开发者提供轻量化架构和高度确定性的执行能力，适用于嵌入式设备和电动赛车。该系统强调资源控制和时间可预测性，已在电...
Crown Engine 0.63 恢复了其 OpenGL 渲染器，以支持旧版硬件
Crown Engine 0.63 是一款基于 C++ 的开源游戏引擎，新增 LOD 组组件以优化性能，并支持 OBJ 网格格式。更新改进了 FBX 导入...
VoidZero团队已加入Cloudflare
VoidZero团队已加入Cloudflare，Vite及其相关项目将继续保持开源和中立。Cloudflare承诺投资100万美元支持Vite生态系统的维...
谷歌Gemma 4 12B的性能几乎与26B基准相当——并可在您的笔记本电脑上运行
谷歌推出了Gemma 4 12B模型，旨在为标准笔记本电脑提供高性能的多模态智能。该模型内存占用比Gemma 4 26B小一半，但性能接近，支持本地运行，...
基于 Amazon ECS Fargate 和 Graviton 构建企业级多租户 AI Agent 平台：OpenClaw + Hermes 双 Agent 实践
AI Agent 从实验走向生产，企业需要让不同团队各跑独立实例且互不可见。本文介绍基于 Amazon ECS Fargate + Graviton 的轻...