小红花·文摘

本研究提出了AutoLibra框架，解决了传统代理评估粗糙且依赖专家设计的问题。通过开放式人类反馈，AutoLibra能够生成细粒度评估指标，并在文本游戏任务中提升代理性能20%。