本研究提出了AutoLibra框架,解决了传统代理评估粗糙且依赖专家设计的问题。通过开放式人类反馈,AutoLibra能够生成细粒度评估指标,并在文本游戏任务中提升代理性能20%。
本研究提出了GLIDER,一个强大的评估模型,旨在解决闭源LLM在真实应用中的细粒度指标和可解释性不足的问题。GLIDER能够根据用户定义的标准对文本进行评分,并在多个评价标准上超越以往模型,显示出与人类评判的高一致性(91.3%)。
完成下面两步后,将自动完成登录并继续当前操作。