Unveiling Pitfalls: Understanding the Reasons for the Failure of AI-driven Code Agents in GitHub Issue Resolution
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究探讨了人工智能驱动的代码代理在GitHub问题解决中的失败原因,指出现有评估过于关注最终代码输出。通过分析解决过程,发现Python执行错误与低解决率及推理负担相关,并识别出常见错误类型。这些结果有助于提高透明度并为未来研究奠定基础。
🎯
关键要点
- 本研究填补了对AI驱动代码代理动态解决问题过程的理解缺口。
- 现有评估过于侧重于最终代码输出,忽视了解决过程的分析。
- 通过分析解决过程轨迹和测试日志,发现Python执行错误与较低的解决率及推理负担相关。
- 识别出普遍出现的错误类型,有助于提高透明度。
- 研究结果和数据集的公开分享为未来研究提供了基础。
➡️