💡
原文英文,约400词,阅读约需2分钟。
📝
内容提要
SWE-Gym是首个用于训练软件工程代理的环境,包含2438个真实的Python任务实例。通过SWE-Gym训练的语言模型代理在SWE-Bench测试集上取得了显著提升,验证了其有效性。该平台及相关模型和代理轨迹已公开发布,以促进进一步研究。
🎯
关键要点
- SWE-Gym是首个用于训练真实世界软件工程代理的环境,包含2438个真实的Python任务实例。
- SWE-Gym的任务包括可执行的运行环境、单元测试和用自然语言指定的任务。
- 通过SWE-Gym训练的语言模型代理在SWE-Bench测试集上取得了显著提升,解决率提高了19%。
- 结合经过微调的SWE代理,SWE-Bench Verified和Lite测试集的成绩分别达到了32.0%和26.0%。
- SWE-Gym、模型和代理轨迹已公开发布,以促进进一步研究。
❓
延伸问答
SWE-Gym是什么?
SWE-Gym是首个用于训练真实世界软件工程代理的环境,包含2438个真实的Python任务实例。
SWE-Gym的任务包括哪些内容?
SWE-Gym的任务包括可执行的运行环境、单元测试和用自然语言指定的任务。
通过SWE-Gym训练的代理在测试集上的表现如何?
通过SWE-Gym训练的语言模型代理在SWE-Bench测试集上取得了显著提升,解决率提高了19%。
SWE-Gym的公开发布有什么意义?
SWE-Gym、模型和代理轨迹的公开发布旨在促进进一步研究。
SWE-Gym与SWE-Bench的成绩如何?
结合经过微调的SWE代理,SWE-Bench Verified和Lite测试集的成绩分别达到了32.0%和26.0%。
SWE-Gym的训练环境有什么特点?
SWE-Gym提供了真实的代码库和可执行的运行环境,支持单元测试和自然语言任务描述。
➡️