💡
原文英文,约600词,阅读约需3分钟。
📝
内容提要
Agentica项目与Together AI发布了DeepCoder-14B-Preview,这是一个基于Deepseek-R1-Distilled-Qwen-14B的开源AI编码模型。该模型在LiveCodeBench上的通过率为60.6%,超过了OpenAI的o1模型。开发团队通过强化学习优化了模型,并共享了数据集、代码和训练日志,旨在推动RL训练的民主化。DeepCoder在多个编码基准测试中表现优异,显著缩短了训练时间。
🎯
关键要点
- Agentica项目与Together AI发布了DeepCoder-14B-Preview,这是一个开源AI编码模型。
- DeepCoder-14B-Preview在LiveCodeBench上的通过率为60.6%,超过了OpenAI的o1模型。
- 该模型基于Deepseek-R1-Distilled-Qwen-14B,使用强化学习进行微调。
- 开发团队优化了verl分布式RL框架,使端到端训练效率提高了2倍。
- 团队共享了模型创建的所有工件,包括代码、数据和训练日志,旨在推动RL训练的民主化。
- DeepCoder在多个编码基准测试中表现优异,得分与封闭源推理模型相当或更好。
- 团队开发了自动化管道,以确保训练数据的高质量和可验证性。
- 通过并行运行训练和推理,解决了RL训练中的采样瓶颈,训练迭代时间减少了1.4倍。
- Andrew Ng的新闻通讯《The Batch》对DeepCoder给予了高度评价,称其优化减少了RL训练的复杂性。
- DeepCoder-14B-Preview的训练代码已在GitHub上发布,模型文件可从Huggingface下载。
❓
延伸问答
DeepCoder-14B-Preview的主要特点是什么?
DeepCoder-14B-Preview是一个开源AI编码模型,基于Deepseek-R1-Distilled-Qwen-14B,具有60.6%的LiveCodeBench通过率,超过OpenAI的o1模型。
DeepCoder是如何优化其训练效率的?
DeepCoder通过修改verl分布式RL框架,将端到端训练效率提高了2倍,并通过并行运行训练和推理来解决采样瓶颈,减少了训练迭代时间。
DeepCoder在编码基准测试中的表现如何?
DeepCoder在多个编码基准测试中表现优异,得分与封闭源推理模型相当或更好,包括LiveCodeBench、Codeforces和HumanEval等。
Agentica项目的目标是什么?
Agentica项目的目标是推动RL训练的民主化,通过共享数据集、代码和训练日志,使社区能够重现其工作并使RL训练对所有人可及。
DeepCoder的训练数据是如何处理的?
DeepCoder团队开发了一个自动化管道,仅保留具有可验证解决方案和至少五个单元测试的问题,以确保训练数据的高质量。
DeepCoder的训练代码和模型文件在哪里可以找到?
DeepCoder的训练代码已在GitHub上发布,模型文件可以从Huggingface下载。
➡️