💡 原文英文,约600词,阅读约需3分钟。
📝

内容提要

Agentica项目与Together AI发布了DeepCoder-14B-Preview,这是一个基于Deepseek-R1-Distilled-Qwen-14B的开源AI编码模型。该模型在LiveCodeBench上的通过率为60.6%,超过了OpenAI的o1模型。开发团队通过强化学习优化了模型,并共享了数据集、代码和训练日志,旨在推动RL训练的民主化。DeepCoder在多个编码基准测试中表现优异,显著缩短了训练时间。

🎯

关键要点

  • Agentica项目与Together AI发布了DeepCoder-14B-Preview,这是一个开源AI编码模型。
  • DeepCoder-14B-Preview在LiveCodeBench上的通过率为60.6%,超过了OpenAI的o1模型。
  • 该模型基于Deepseek-R1-Distilled-Qwen-14B,使用强化学习进行微调。
  • 开发团队优化了verl分布式RL框架,使端到端训练效率提高了2倍。
  • 团队共享了模型创建的所有工件,包括代码、数据和训练日志,旨在推动RL训练的民主化。
  • DeepCoder在多个编码基准测试中表现优异,得分与封闭源推理模型相当或更好。
  • 团队开发了自动化管道,以确保训练数据的高质量和可验证性。
  • 通过并行运行训练和推理,解决了RL训练中的采样瓶颈,训练迭代时间减少了1.4倍。
  • Andrew Ng的新闻通讯《The Batch》对DeepCoder给予了高度评价,称其优化减少了RL训练的复杂性。
  • DeepCoder-14B-Preview的训练代码已在GitHub上发布,模型文件可从Huggingface下载。
➡️

继续阅读