本研究提出了AutoLibra框架,解决了传统代理评估粗糙且依赖专家设计的问题。通过开放式人类反馈,AutoLibra能够生成细粒度评估指标,并在文本游戏任务中提升代理性能20%。
完成下面两步后,将自动完成登录并继续当前操作。