介绍SWE-bench验证

介绍SWE-bench验证

💡 原文英文,约300词,阅读约需1分钟。
📝

内容提要

SWE-bench测试集样本来自12个开源Python项目的GitHub问题,包含解决方案代码和单元测试,分为FAIL_TO_PASS和PASS_TO_PASS两组,编辑需通过这两组测试以确保问题解决且未影响其他功能。

🎯

关键要点

  • SWE-bench测试集样本来自12个开源Python项目的GitHub问题。
  • 每个样本包含解决方案代码和单元测试。
  • 测试分为FAIL_TO_PASS和PASS_TO_PASS两组。
  • FAIL_TO_PASS测试在解决方案代码添加前失败,添加后通过。
  • PASS_TO_PASS测试在合并PR前后均通过,用于检查未影响其他功能。
  • 编辑需通过两组测试以确保问题解决且未影响其他功能。
  • 编辑者需访问问题陈述和代码库,但不显示测试。

延伸问答

SWE-bench测试集的样本来源是什么?

SWE-bench测试集样本来自12个开源Python项目的GitHub问题。

SWE-bench测试集包含哪些内容?

每个样本包含解决方案代码和单元测试。

FAIL_TO_PASS和PASS_TO_PASS测试有什么区别?

FAIL_TO_PASS测试在解决方案代码添加前失败,添加后通过;而PASS_TO_PASS测试在合并PR前后均通过。

编辑者在使用SWE-bench时需要做什么?

编辑者需访问问题陈述和代码库,并编辑文件以解决问题,但不显示测试。

如何评估编辑提案的有效性?

通过运行FAIL_TO_PASS和PASS_TO_PASS测试来评估,如果两组测试均通过,则提案有效。

SWE-bench测试的目的是什么?

SWE-bench测试的目的是确保问题解决且未影响其他功能。

➡️

继续阅读