OpenAI 研究人员发现,即使是最好的人工智能也 “无法解决 ”大部分编码问题

💡 原文中文,约1300字,阅读约需4分钟。
📝

内容提要

OpenAI 研究人员发现,尽管人工智能模型在编码任务上取得了一定进展,但仍无法解决大多数问题,表现远不及人类工程师。新基准测试表明,模型仅能处理表面问题,缺乏深入理解和可靠性。

🎯

关键要点

  • OpenAI 研究人员发现,最先进的人工智能模型仍无法与人类编码员相比。
  • 新基准测试表明,人工智能模型只能处理表面问题,缺乏深入理解和可靠性。
  • 研究使用了名为 SWE-Lancer 的基准,基于来自 Upwork 的 1400 多项软件工程任务。
  • 模型在处理单个任务和管理任务时表现不佳,无法发现大型项目中的漏洞。
  • 尽管运行速度快,但模型未能掌握错误的普遍程度,导致解决方案不正确。
  • Claude 3.5 Sonnet 的表现优于 OpenAI 的模型,但大部分答案仍然错误。
  • 研究认为,模型需要更高的可靠性才能在现实编码任务中获得信任。
  • 尽管 LLM 进步迅速,但在软件工程方面的技能仍不足以取代人类工程师。
➡️

继续阅读