本研究提出了AutoLibra框架,解决了传统代理评估粗糙且依赖专家设计的问题。通过开放式人类反馈,AutoLibra能够生成细粒度评估指标,并在文本游戏任务中提升代理性能20%。
本研究提出了GLIDER,一个强大的3B评估LLM,旨在解决闭源LLM评估模型在细粒度指标和可解释性方面的不足。GLIDER在FLASK上的表现优于GPT-4o,与人类评判的一致性高达91.3%。
完成下面两步后,将自动完成登录并继续当前操作。