量子位 ·

Auto Research时代，47个没有标准答案的任务成了Agent能力必测榜

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

量子位的研究表明，AI在工程优化中进入“迭代优化”时代。新发布的Agent Benchmark测试强调AI需在反馈中自我修正，像工程师一样寻找最优解。研究发现，AI的改进难度随时间增加，深度比宽度更重要。未来，AI将与人类研究员协作，自动优化复杂系统，推动生产力变革。

🎯

🔎

Frontier-Eng Benchmark测试强调AI在复杂工程任务中的自我修正能力。与传统的知识记忆不同，AI需要在真实环境中不断调整和优化方案，这种能力的提升是AI未来发展的关键。

研究指出，AI在优化过程中，深度比宽度更为重要。虽然并行尝试多条路径可以避免卡壳，但真正的突破往往依赖于持续的积累和深度修正，这对AI的设计和应用提出了新的挑战。

未来的实验室可能会出现人类研究员与AI的紧密合作模式。人类负责设定目标，而AI则在不断的反馈中进行优化，这种协作将推动生产力的重大变革，改变传统的工程研发流程。

❓

Agent Benchmark测试旨在评估AI在工程优化中的自我修正能力，要求AI像工程师一样在复杂问题中寻找最优解。

AI在工程优化中面临的挑战包括处理复杂的工程问题、在反馈中自我修正，以及在没有标准答案的情况下寻找最优解。

深度比宽度更重要，因为许多工程突破需要持续积累和修正，而不是仅仅依赖多条并行路径的尝试。

AI通过在真实环境中接入仿真器，获取反馈并不断修改参数和代码，进行持续的迭代优化。

未来AI将与人类研究员协作，研究员负责提出目标，AI则负责持续优化和迭代，像一个工程团队一样解决复杂问题。

AI的进化规律包括：随着时间推移，改进的难度增加，前期提升较快，后期改进变得困难，且深度比宽度更为重要。

🏷️