Agentica项目的开源DeepCoder模型在编码基准测试中超越了OpenAI的O1

Agentica项目的开源DeepCoder模型在编码基准测试中超越了OpenAI的O1

💡 原文英文,约600词,阅读约需3分钟。
📝

内容提要

Agentica项目与Together AI发布了DeepCoder-14B-Preview,这是一个基于Deepseek-R1-Distilled-Qwen-14B的开源AI编码模型。该模型在LiveCodeBench上的通过率为60.6%,超过了OpenAI的o1模型。开发团队通过强化学习优化了模型,并共享了数据集、代码和训练日志,旨在推动RL训练的民主化。DeepCoder在多个编码基准测试中表现优异,显著缩短了训练时间。

🎯

关键要点

  • Agentica项目与Together AI发布了DeepCoder-14B-Preview,这是一个开源AI编码模型。

  • DeepCoder-14B-Preview在LiveCodeBench上的通过率为60.6%,超过了OpenAI的o1模型。

  • 该模型基于Deepseek-R1-Distilled-Qwen-14B,使用强化学习进行微调。

  • 开发团队优化了verl分布式RL框架,使端到端训练效率提高了2倍。

  • 团队共享了模型创建的所有工件,包括代码、数据和训练日志,旨在推动RL训练的民主化。

  • DeepCoder在多个编码基准测试中表现优异,得分与封闭源推理模型相当或更好。

  • 团队开发了自动化管道,以确保训练数据的高质量和可验证性。

  • 通过并行运行训练和推理,解决了RL训练中的采样瓶颈,训练迭代时间减少了1.4倍。

  • Andrew Ng的新闻通讯《The Batch》对DeepCoder给予了高度评价,称其优化减少了RL训练的复杂性。

  • DeepCoder-14B-Preview的训练代码已在GitHub上发布,模型文件可从Huggingface下载。

延伸问答

DeepCoder-14B-Preview的通过率是多少?

DeepCoder-14B-Preview在LiveCodeBench上的通过率为60.6%。

DeepCoder-14B-Preview是基于什么模型开发的?

DeepCoder-14B-Preview基于Deepseek-R1-Distilled-Qwen-14B模型开发。

开发团队如何优化DeepCoder的训练效率?

开发团队通过修改verl分布式RL框架,使端到端训练效率提高了2倍,并通过并行运行训练和推理来解决采样瓶颈。

DeepCoder-14B-Preview的训练数据是如何处理的?

团队开发了自动化管道,仅保留具有可验证解和至少五个单元测试的问题,以确保训练数据的高质量。

DeepCoder-14B-Preview的训练代码在哪里可以找到?

DeepCoder-14B-Preview的训练代码已在GitHub上发布。

Andrew Ng对DeepCoder的评价是什么?

Andrew Ng在《The Batch》中高度评价DeepCoder,称其优化减少了RL训练的复杂性。

➡️

继续阅读