自2026年2月起,Claude模型的推理深度下降67%,导致其在复杂工程任务中的表现显著退化,用户需频繁干预,效率降低。推理能力不足成为主要瓶颈,需恢复推理深度以提升工程能力。
SWE-Lancer是一个包含1400多个自由软件工程任务的基准,价值100万美元。任务涵盖独立工程和管理决策,但模型表现仍未能解决大多数任务。我们已开源统一的Docker镜像和公共评估集,以促进未来研究。
完成下面两步后,将自动完成登录并继续当前操作。