内容提要
Agentica项目与Together AI发布了DeepCoder-14B-Preview,这是一个基于Deepseek-R1-Distilled-Qwen-14B的开源AI编码模型。该模型在LiveCodeBench上的通过率为60.6%,超过了OpenAI的o1模型。开发团队通过强化学习优化了模型,并共享了数据集、代码和训练日志,旨在推动RL训练的民主化。DeepCoder在多个编码基准测试中表现优异,显著缩短了训练时间。
关键要点
-
Agentica项目与Together AI发布了DeepCoder-14B-Preview,这是一个开源AI编码模型。
-
DeepCoder-14B-Preview在LiveCodeBench上的通过率为60.6%,超过了OpenAI的o1模型。
-
该模型基于Deepseek-R1-Distilled-Qwen-14B,使用强化学习进行微调。
-
开发团队优化了verl分布式RL框架,使端到端训练效率提高了2倍。
-
团队共享了模型创建的所有工件,包括代码、数据和训练日志,旨在推动RL训练的民主化。
-
DeepCoder在多个编码基准测试中表现优异,得分与封闭源推理模型相当或更好。
-
团队开发了自动化管道,以确保训练数据的高质量和可验证性。
-
通过并行运行训练和推理,解决了RL训练中的采样瓶颈,训练迭代时间减少了1.4倍。
-
Andrew Ng的新闻通讯《The Batch》对DeepCoder给予了高度评价,称其优化减少了RL训练的复杂性。
-
DeepCoder-14B-Preview的训练代码已在GitHub上发布,模型文件可从Huggingface下载。
延伸问答
DeepCoder-14B-Preview的通过率是多少?
DeepCoder-14B-Preview在LiveCodeBench上的通过率为60.6%。
DeepCoder-14B-Preview是基于什么模型开发的?
DeepCoder-14B-Preview基于Deepseek-R1-Distilled-Qwen-14B模型开发。
开发团队如何优化DeepCoder的训练效率?
开发团队通过修改verl分布式RL框架,使端到端训练效率提高了2倍,并通过并行运行训练和推理来解决采样瓶颈。
DeepCoder-14B-Preview的训练数据是如何处理的?
团队开发了自动化管道,仅保留具有可验证解和至少五个单元测试的问题,以确保训练数据的高质量。
DeepCoder-14B-Preview的训练代码在哪里可以找到?
DeepCoder-14B-Preview的训练代码已在GitHub上发布。
Andrew Ng对DeepCoder的评价是什么?
Andrew Ng在《The Batch》中高度评价DeepCoder,称其优化减少了RL训练的复杂性。