自主编程正从“更好的提示词”转向“更好的控制系统”。工程师们通过目标、评估器和循环设计自主编程 Agent,使其在无须人类干预的情况下持续工作。目标定义期望的最终状态,评估器验证成果,循环系统监控进度并调整指令,确保 Agent 在失败时能继续尝试。有效的验证器和可视化工具是实现自主性的关键,帮助工程师优化工作流程和提高效率。
Claude Opus 4.7版本在自主编程和视觉处理能力上有显著提升,支持长边最高2576像素。新功能包括在线审查和自动模式,但相较于4.6版本,token消耗增加,长上下文性能有所下降。
智谱GLM-5.1模型在长程任务能力上取得显著突破,能够在14小时内优化CUDA Kernel,速度提升至35.7倍。该模型展示了自主编程、测试和优化的能力,且能在1小时内构建MacOS环境。在SWE-bench Pro测试中,GLM-5.1超越多款顶尖模型,标志着中国开源AI的崛起,推动行业变革。
OpenAI推出的GPT-5-Codex专注于自主编程,能够独立完成复杂项目,支持多种开发环境。其动态思考能力使简单任务响应迅速,而复杂任务则投入更多时间。Codex在代码审查和前端开发方面表现优异,安全性得到保障。整体而言,GPT-5-Codex是一次显著升级,可能推动编程AI的精英化发展。
Refact.ai Agent在Aider Polyglot基准测试中表现突出,得分分别为92.9%(无思考)和93.3%(有思考),领先其他模型。该代理具备完全自主的编程能力,能够独立进行任务规划、执行、测试和优化,无需人工干预,从而提高开发效率。
两名前谷歌DeepMind研究人员Misha Laskin和Ioannis Antonoglou成立了Reflection AI,旨在开发超级智能,并已获得1.3亿美元融资。公司计划利用大语言模型和强化学习构建自主编程工具,自动化编程任务。
Reflection AI由前DeepMind科学家创立,专注于自主编程,已融资1.55亿美元,估值5.55亿美元。团队成员来自DeepMind和OpenAI,旨在构建超级智能系统,提高工程师的工作效率。
完成下面两步后,将自动完成登录并继续当前操作。