InfoQ ·

Agentica项目的开源DeepCoder模型在编码基准测试中超越了OpenAI的O1

💡 原文英文，约600词，阅读约需3分钟。

📝

内容提要

Agentica项目与Together AI发布了DeepCoder-14B-Preview，这是一个基于Deepseek-R1-Distilled-Qwen-14B的开源AI编码模型。该模型在LiveCodeBench上的通过率为60.6%，超过了OpenAI的o1模型。开发团队通过强化学习优化了模型，并共享了数据集、代码和训练日志，旨在推动RL训练的民主化。DeepCoder在多个编码基准测试中表现优异，显著缩短了训练时间。

🎯

关键要点

Agentica项目与Together AI发布了DeepCoder-14B-Preview，这是一个开源AI编码模型。
DeepCoder-14B-Preview在LiveCodeBench上的通过率为60.6%，超过了OpenAI的o1模型。
该模型基于Deepseek-R1-Distilled-Qwen-14B，使用强化学习进行微调。
开发团队优化了verl分布式RL框架，使端到端训练效率提高了2倍。
团队共享了模型创建的所有工件，包括代码、数据和训练日志，旨在推动RL训练的民主化。
DeepCoder在多个编码基准测试中表现优异，得分与封闭源推理模型相当或更好。
团队开发了自动化管道，以确保训练数据的高质量和可验证性。
通过并行运行训练和推理，解决了RL训练中的采样瓶颈，训练迭代时间减少了1.4倍。
Andrew Ng的新闻通讯《The Batch》对DeepCoder给予了高度评价，称其优化减少了RL训练的复杂性。
DeepCoder-14B-Preview的训练代码已在GitHub上发布，模型文件可从Huggingface下载。

🔎

延伸解读

开源与民主化的意义

DeepCoder-14B-Preview的发布不仅展示了其在编码基准测试中的优异表现，还强调了开源的重要性。通过共享数据集、代码和训练日志，开发团队希望推动强化学习（RL）训练的民主化，使更多开发者能够参与到这一领域，促进技术的共同进步。

训练效率的提升

DeepCoder团队通过优化verl分布式RL框架，将端到端训练效率提高了2倍。这一改进不仅缩短了训练时间，还解决了RL训练中的采样瓶颈，显示出在模型训练过程中，技术创新对效率提升的重要性。

高质量数据的重要性

在创建训练数据集时，DeepCoder团队特别关注数据的质量和可验证性。他们开发了自动化管道，以确保仅保留具有可验证解决方案的问题。这一做法强调了高质量数据在机器学习模型训练中的关键作用，尤其是在编码任务中。

❓

延伸问答

DeepCoder-14B-Preview的主要特点是什么？

DeepCoder-14B-Preview是一个开源AI编码模型，基于Deepseek-R1-Distilled-Qwen-14B，具有60.6%的LiveCodeBench通过率，超过OpenAI的o1模型。

DeepCoder是如何优化其训练效率的？

DeepCoder通过修改verl分布式RL框架，将端到端训练效率提高了2倍，并通过并行运行训练和推理来解决采样瓶颈，减少了训练迭代时间。

DeepCoder在编码基准测试中的表现如何？

DeepCoder在多个编码基准测试中表现优异，得分与封闭源推理模型相当或更好，包括LiveCodeBench、Codeforces和HumanEval等。

Agentica项目的目标是什么？

Agentica项目的目标是推动RL训练的民主化，通过共享数据集、代码和训练日志，使社区能够重现其工作并使RL训练对所有人可及。

DeepCoder的训练数据是如何处理的？

DeepCoder团队开发了一个自动化管道，仅保留具有可验证解决方案和至少五个单元测试的问题，以确保训练数据的高质量。

DeepCoder的训练代码和模型文件在哪里可以找到？

DeepCoder的训练代码已在GitHub上发布，模型文件可以从Huggingface下载。

🏷️