JoyCode:SWE-bench Verified打榜技术报告
📝
内容提要
SWE-bench Verified 是由普林斯顿大学等机构开发的软件工程基准测试,专门用于评估AI系统解决真实软件工程问题的能力。该基准测试收集了来自 scikit-learn、matplotlib、requests 等知名开源 Python 项目的真实 GitHub Issues,要求AI模型理解问题描述、分析现有代码库结构,并生成能够修复 Bug 或实现新功能的代码补丁。
🏷️
标签
➡️