用SWE-Gym训练软件工程代理和验证器
📝
内容提要
本文提出了SWE-Gym,首个用于训练实际软件工程(SWE)代理的环境,旨在填补现有培训系统的不足。通过在包含2438个真实Python任务实例的环境中训练基于语言模型的SWE代理,我们实现了在SWE-Bench Verified和Lite测试集上分别达到32.0%和26.0%的新基准,为SWE代理的研究提供了重要资源。
🏷️
标签
➡️