本研究评估大型语言模型(LLM)代理的自我推理能力,填补了代理任务研究的空白。通过考察自我修改和知识寻求等情境,发现只有前沿模型具备此能力,且高度依赖上下文。未来模型的提升可通过评估测量实现。
完成下面两步后,将自动完成登录并继续当前操作。