研究者评估了四个编程Agent在自主实现AlphaZero自对弈流水线的能力。Claude Opus 4.7在八次试验中七次击败Pascal Pons求解器,显示出显著优势。研究提出了“简洁任务描述+端到端实现”的评估方法,强调Agent的自主理解和设计能力。实验结果表明,前沿Agent在能力上存在巨大差距,Claude Opus 4.7的表现尤为突出。
完成下面两步后,将自动完成登录并继续当前操作。