小红花·文摘

4月9日，Agentica团队与Together AI联合开源了参数为14B的DeepCoder-14B-Preview代码推理模型，其性能与OpenAI o3-Mini相当，在LiveCodeBench v5上实现了60.6%的通过率，并提供了一键部署教程。

在线教程丨媲美 o3-mini，开源代码推理模型 DeepCoder-14B-Preview 狂揽 3k stars

HyperAI超神经 ·

本研究提出了一种统一的测试时计算扩展框架，旨在解决软件工程智能体在私有环境中的部署挑战。通过增加推理时计算而非使用更大模型，显著提高了代码推理性能，实验表明32B模型在问题解决率上达46%，超越了更大模型。

Thinking Longer, Not Larger: Enhancing Software Engineering Agents through Scaled Test-Time Computation

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过等价性检查评估大型语言模型的代码推理能力。引入EquiBench数据集，包含2400个程序对，结果表明当前模型在复杂类别上的表现仍需改进。

EquiBench: Evaluating the Code Reasoning Ability of Large Language Models through Equivalence Checking

BriefGPT - AI 论文速递 ·

本文探讨了理解大型语言模型（LLMs）的优秀资源，重点在文本和代码推理。推荐学习材料包括Andrej Karpathy的课程、Nvidia和微软的生成AI介绍，以及OpenAI的提示工程指南。学习时应根据个人兴趣调整，尽量避免使用库，直接编写代码以获得最佳效果。作者分享了自己的学习经验和开发的FlexiGPT插件。

学习生成AI和大型语言模型（LLMs）的优秀资源

Scramblings ·

本文探讨了一种通过自然语言生成问题并转化为代码的方法，以提高大型语言模型在数学问题求解中的准确性。引入了近端策略优化算法和注意力机制，实验证明该方法在多个数学计算数据集上有效。此外，提出了 REval 框架以评估代码推理能力，强调提升代码 LLM 的迫切需求。

语言模型作为编译器：模拟伪代码执行提升语言模型的算法推理能力

BriefGPT - AI 论文速递 ·

CodeMind 框架评估了九个大型语言模型的代码推理能力，发现它们在简单程序上表现良好，但在复杂逻辑和算术运算方面性能下降。研究提出了 L2CEval 系统，分析了模型在语言到代码生成中的表现及影响因素，并发布了评估框架和模型输出。此外，研究还揭示了改进程序测试能力的方法，并提出了 NPHardEval 基准，以客观评估 LLMs 的推理能力。

评估大型语言模型的程序执行运行时行为

BriefGPT - AI 论文速递 ·