现有基准测试无法有效评估语言代理与用户的互动能力。我们提出了$ au$-bench,通过模拟语言模型与特定领域API的对话,比较对话结束时的数据库状态与目标状态,以评估代理行为的可靠性。实验结果显示,最先进的代理在任务成功率和一致性方面表现不佳,需改进其行为。
现有基准测试无法有效评估语言代理与用户的互动能力。我们提出了$ au$-bench,通过模拟语言模型与特定领域API的对话来进行评估。引入新指标(pass^k)以比较代理行为的可靠性。实验结果显示,先进代理在任务成功率和一致性方面表现不佳,需要改进其行为。
完成下面两步后,将自动完成登录并继续当前操作。