使用SWE-Gym训练软件工程代理和验证器

使用SWE-Gym训练软件工程代理和验证器

💡 原文英文,约400词,阅读约需2分钟。
📝

内容提要

SWE-Gym是首个用于训练软件工程代理的环境,包含2438个真实的Python任务实例。通过SWE-Gym训练的语言模型代理在SWE-Bench测试集上取得了显著提升,验证了其有效性。该平台及相关模型和代理轨迹已公开发布,以促进进一步研究。

🎯

关键要点

  • SWE-Gym是首个用于训练真实世界软件工程代理的环境,包含2438个真实的Python任务实例。
  • SWE-Gym的任务包括可执行的运行环境、单元测试和用自然语言指定的任务。
  • 通过SWE-Gym训练的语言模型代理在SWE-Bench测试集上取得了显著提升,解决率提高了19%。
  • 结合经过微调的SWE代理,SWE-Bench Verified和Lite测试集的成绩分别达到了32.0%和26.0%。
  • SWE-Gym、模型和代理轨迹已公开发布,以促进进一步研究。

延伸问答

SWE-Gym是什么?

SWE-Gym是首个用于训练真实世界软件工程代理的环境,包含2438个真实的Python任务实例。

SWE-Gym的任务包括哪些内容?

SWE-Gym的任务包括可执行的运行环境、单元测试和用自然语言指定的任务。

通过SWE-Gym训练的代理在测试集上的表现如何?

通过SWE-Gym训练的语言模型代理在SWE-Bench测试集上取得了显著提升,解决率提高了19%。

SWE-Gym的公开发布有什么意义?

SWE-Gym、模型和代理轨迹的公开发布旨在促进进一步研究。

SWE-Gym与SWE-Bench的成绩如何?

结合经过微调的SWE代理,SWE-Bench Verified和Lite测试集的成绩分别达到了32.0%和26.0%。

SWE-Gym的训练环境有什么特点?

SWE-Gym提供了真实的代码库和可执行的运行环境,支持单元测试和自然语言任务描述。

➡️

继续阅读