4月9日,Agentica团队与Together AI联合开源了参数为14B的DeepCoder-14B-Preview代码推理模型,其性能与OpenAI o3-Mini相当,在LiveCodeBench v5上实现了60.6%的通过率,并提供了一键部署教程。
本研究提出了一种统一的测试时计算扩展框架,旨在解决软件工程智能体在私有环境中的部署挑战。通过增加推理时计算而非使用更大模型,显著提高了代码推理性能,实验表明32B模型在问题解决率上达46%,超越了更大模型。
本研究提出了一种新方法,通过等价性检查评估大型语言模型的代码推理能力。引入EquiBench数据集,包含2400个程序对,结果表明当前模型在复杂类别上的表现仍需改进。
本文探讨了理解大型语言模型(LLMs)的优秀资源,重点在文本和代码推理。推荐学习材料包括Andrej Karpathy的课程、Nvidia和微软的生成AI介绍,以及OpenAI的提示工程指南。学习时应根据个人兴趣调整,尽量避免使用库,直接编写代码以获得最佳效果。作者分享了自己的学习经验和开发的FlexiGPT插件。
本文探讨了一种通过自然语言生成问题并转化为代码的方法,以提高大型语言模型在数学问题求解中的准确性。引入了近端策略优化算法和注意力机制,实验证明该方法在多个数学计算数据集上有效。此外,提出了 REval 框架以评估代码推理能力,强调提升代码 LLM 的迫切需求。
CodeMind 框架评估了九个大型语言模型的代码推理能力,发现它们在简单程序上表现良好,但在复杂逻辑和算术运算方面性能下降。研究提出了 L2CEval 系统,分析了模型在语言到代码生成中的表现及影响因素,并发布了评估框架和模型输出。此外,研究还揭示了改进程序测试能力的方法,并提出了 NPHardEval 基准,以客观评估 LLMs 的推理能力。
完成下面两步后,将自动完成登录并继续当前操作。