4月9日,Agentica团队与Together AI联合开源了参数为14B的DeepCoder-14B-Preview代码推理模型,其性能与OpenAI o3-Mini相当,在LiveCodeBench v5上实现了60.6%的通过率,并提供了一键部署教程。
本研究提出了一种统一的测试时计算扩展框架,旨在解决软件工程智能体在私有环境中的部署挑战。通过增加推理时计算而非使用更大模型,显著提高了代码推理性能,实验表明32B模型在问题解决率上达46%,超越了更大模型。
本研究提出了一种新方法,通过等价性检查评估大型语言模型的代码推理能力。引入EquiBench数据集,包含2400个程序对,结果表明当前模型在复杂类别上的表现仍需改进。
完成下面两步后,将自动完成登录并继续当前操作。