OpenAI ·

介绍SWE-bench验证

Q: SWE-bench测试集包含哪些内容？

每个样本包含解决方案代码和单元测试。

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

SWE-bench测试集样本来自12个开源Python项目的GitHub问题，包含解决方案代码和单元测试，分为FAIL_TO_PASS和PASS_TO_PASS两组，编辑需通过这两组测试以确保问题解决且未影响其他功能。

🎯

关键要点

SWE-bench测试集样本来自12个开源Python项目的GitHub问题。
每个样本包含解决方案代码和单元测试。
测试分为FAIL_TO_PASS和PASS_TO_PASS两组。
FAIL_TO_PASS测试在解决方案代码添加前失败，添加后通过。
PASS_TO_PASS测试在合并PR前后均通过，用于检查未影响其他功能。
编辑需通过两组测试以确保问题解决且未影响其他功能。
编辑者需访问问题陈述和代码库，但不显示测试。

🔎

延伸解读

SWE-bench的测试机制

SWE-bench通过FAIL_TO_PASS和PASS_TO_PASS两组测试来验证代码的有效性。FAIL_TO_PASS测试确保解决方案能够解决特定问题，而PASS_TO_PASS测试则确保其他功能未受到影响。这种双重测试机制提高了代码修改的可靠性，减少了潜在的回归错误。

开源项目的实践意义

SWE-bench的样本来源于12个开源Python项目，展示了如何利用社区的力量来提升代码质量。通过解决实际的GitHub问题，开发者不仅能提高自己的技能，还能为开源社区贡献力量，促进项目的持续改进。

编辑者的挑战

编辑者在进行代码修改时，需仔细理解问题陈述和代码库，但测试结果并不直接展示给他们。这要求编辑者具备较强的分析能力和代码理解能力，以确保所做的修改既能解决问题，又不影响其他功能。

❓

延伸问答

SWE-bench测试集的样本来源是什么？

SWE-bench测试集样本来自12个开源Python项目的GitHub问题。

SWE-bench测试集包含哪些内容？

每个样本包含解决方案代码和单元测试。

FAIL_TO_PASS和PASS_TO_PASS测试有什么区别？

FAIL_TO_PASS测试在解决方案代码添加前失败，添加后通过；而PASS_TO_PASS测试在合并PR前后均通过。

编辑者在使用SWE-bench时需要做什么？

编辑者需访问问题陈述和代码库，并编辑文件以解决问题，但不显示测试。

如何评估编辑提案的有效性？

通过运行FAIL_TO_PASS和PASS_TO_PASS测试来评估，如果两组测试均通过，则提案有效。

SWE-bench测试的目的是什么？

SWE-bench测试的目的是确保问题解决且未影响其他功能。

🏷️