SWE-bench与SWE-bench Verified基准

SWE-bench与SWE-bench Verified基准

💡 原文英文,约800词,阅读约需3分钟。
📝

内容提要

研究人员提出了SWE-bench评估框架,包含2294个来自GitHub的真实软件工程问题,旨在测试语言模型解决问题的能力。通过FAIL_TO_PASS和PASS_TO_PASS单元测试验证解决方案的正确性。OpenAI与开发者合作,改进了测试样本质量,发布了SWE-bench Verified,包含500个经过验证的样本。

🎯

关键要点

  • 研究人员提出了SWE-bench评估框架,包含2294个来自GitHub的真实软件工程问题。
  • SWE-bench旨在测试语言模型解决软件工程问题的能力。
  • 评估过程中,AI编码代理需要编辑代码库以解决问题,并通过FAIL_TO_PASS和PASS_TO_PASS单元测试验证解决方案的正确性。
  • SWE-bench已成为评估大型语言模型在软件工程表现的热门基准。
  • OpenAI与开发者合作,改进了测试样本质量,发布了SWE-bench Verified,包含500个经过验证的样本。
  • SWE-bench Verified解决了原始测试集中问题描述不明确和单元测试过于具体等问题。
  • SWE-bench Verified的样本经过93名经验丰富的Python开发者的人工筛选,确保了样本质量。
  • OpenAI还发布了所有SWE-bench测试样本的人类注释,允许按难度划分数据集。
➡️

继续阅读