硕鼠的博客站 ·

最新编程跑分 ProgramBench，大模型全军覆没，AI编程真正可怕在哪？

💡 原文中文，约8800字，阅读约需21分钟。

📝

内容提要

最新的AI编程测试ProgramBench显示，当前大模型在完成完整软件工程项目上表现不佳，结果为0%。这一测试明确了未来AI编程的目标，AI将朝着从零开始重建软件的方向发展。程序员的工作暂时保住，但未来需要转型为需求定义者和质量负责人。AI生成的代码可能不再符合人类可读性，未来编程将面临新的挑战。

🎯

关键要点

最新的AI编程测试ProgramBench显示，当前大模型在完成完整软件工程项目上表现不佳，结果为0%。
测试要求AI根据已编译的可执行文件和使用文档，自行规划并写出完整程序，未提供源码。
参与测试的9个模型均未能通过所有功能测试，显示出AI在软件工程领域的局限性。
ProgramBench明确了未来AI编程的目标，即AI需要能够从零开始重建软件。
AI生成的代码可能不再符合人类可读性，未来编程将面临新的挑战，程序员的角色需转型为需求定义者和质量负责人。
AI在编程能力上快速提升，但当前仍无法完成完整的软件重建，未来的挑战在于如何定义和实现完整的软件工程。
AI生成的代码可能不符合传统的软件工程规范，可能导致人类难以理解和维护。
程序员需要适应新的环境，转变为需求定义者和系统验收者，以应对AI的快速发展。

🔎

延伸解读

AI编程的未来挑战

ProgramBench测试显示，当前AI模型在完成完整软件工程项目上表现不佳，结果为0%。这表明，尽管AI在编程能力上快速提升，但仍面临重建完整软件的重大挑战。未来，AI编程的目标将是从零开始构建软件，程序员的角色也需随之转型，成为需求定义者和质量负责人。

AI生成代码的可读性问题

测试结果显示，AI生成的代码往往不符合人类可读性标准，可能导致维护困难。AI倾向于生成长函数和简单目录结构，这与传统软件工程的规范相悖。程序员需关注这一点，以确保未来的代码不仅能运行，还能被人类理解和维护。

程序员的角色转型

随着AI编程能力的提升，程序员的工作内容将逐渐上移，需从单纯的代码执行者转变为需求定义者和系统验收者。未来，程序员需要掌握如何定义问题、验证结果和控制风险，以适应AI快速发展的环境。

❓

延伸问答

ProgramBench测试的主要目的是什么？

ProgramBench测试的主要目的是评估AI在从零开始重建完整软件工程项目的能力。

当前大模型在ProgramBench测试中的表现如何？

当前大模型在ProgramBench测试中的表现不佳，所有参与的9个模型均未能通过测试，结果为0%。

程序员在AI编程发展的未来中需要转型成什么角色？

程序员需要转型为需求定义者和质量负责人，以适应AI编程的发展。

ProgramBench测试与之前的SWE-Bench测试有什么不同？

ProgramBench测试要求AI在没有源码的情况下，根据可执行文件和文档自行规划和编写完整程序，而SWE-Bench则是在已有项目中修复bug。

AI生成的代码可能面临哪些问题？

AI生成的代码可能不符合人类可读性，导致难以理解和维护，且可能不遵循传统的软件工程规范。

ProgramBench测试的结果对AI编程的未来意味着什么？

ProgramBench测试的结果表明，AI编程的目标已经明确，未来AI将朝着能够从零开始重建软件的方向发展。

🏷️