评估软件开发智能体:真实世界GitHub场景中的补丁模式、代码质量和问题复杂性
原文中文,约300字,阅读约需1分钟。发表于: 。本研究填补了AI驱动软件开发中针对智能体生成的补丁缺乏全面评估的空白,通过对来自10个顶级智能体的4,892个补丁在500个真实GitHub问题中的影响进行分析,揭示了智能体在代码质量上的不同表现。研究发现,尽管大多数智能体维持了代码的可靠性和安全性,且部分智能体降低了代码重复率,但在复杂代码库中表现欠佳,表明将复杂任务分解为小任务可提高效率。
研究分析了10个顶级智能体在500个GitHub问题中生成的4,892个补丁,发现智能体在代码质量上表现不同。大多数智能体能保持代码可靠性和安全性,并减少重复率,但在复杂代码库中效果不佳。建议将复杂任务分解为小任务以提高效率。