Thinking Longer, Not Larger: Enhancing Software Engineering Agents through Scaled Test-Time Computation

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种统一的测试时计算扩展框架,旨在解决软件工程智能体在私有环境中的部署挑战。通过增加推理时计算而非使用更大模型,显著提高了代码推理性能,实验表明32B模型在问题解决率上达46%,超越了更大模型。

🎯

关键要点

  • 本研究提出了一种统一的测试时计算扩展框架,旨在解决软件工程智能体在私有环境中的部署挑战。
  • 通过增加推理时计算而非使用更大模型,显著提高了代码推理性能。
  • 实验结果表明,32B模型在问题解决率上达到了46%,超越了更大模型,验证了测试时计算现象的有效性。
➡️

继续阅读