💡
原文英文,约300词,阅读约需1分钟。
📝
内容提要
SWE-bench测试集样本来自12个开源Python项目的GitHub问题,包含解决方案代码和单元测试,分为FAIL_TO_PASS和PASS_TO_PASS两组,编辑需通过这两组测试以确保问题解决且未影响其他功能。
🎯
关键要点
- SWE-bench测试集样本来自12个开源Python项目的GitHub问题。
- 每个样本包含解决方案代码和单元测试。
- 测试分为FAIL_TO_PASS和PASS_TO_PASS两组。
- FAIL_TO_PASS测试在解决方案代码添加前失败,添加后通过。
- PASS_TO_PASS测试在合并PR前后均通过,用于检查未影响其他功能。
- 编辑需通过两组测试以确保问题解决且未影响其他功能。
- 编辑者需访问问题陈述和代码库,但不显示测试。
❓
延伸问答
SWE-bench测试集的样本来源是什么?
SWE-bench测试集样本来自12个开源Python项目的GitHub问题。
SWE-bench测试集包含哪些内容?
每个样本包含解决方案代码和单元测试。
FAIL_TO_PASS和PASS_TO_PASS测试有什么区别?
FAIL_TO_PASS测试在解决方案代码添加前失败,添加后通过;而PASS_TO_PASS测试在合并PR前后均通过。
编辑者在使用SWE-bench时需要做什么?
编辑者需访问问题陈述和代码库,并编辑文件以解决问题,但不显示测试。
如何评估编辑提案的有效性?
通过运行FAIL_TO_PASS和PASS_TO_PASS测试来评估,如果两组测试均通过,则提案有效。
SWE-bench测试的目的是什么?
SWE-bench测试的目的是确保问题解决且未影响其他功能。
➡️