小红花·文摘

现有基准测试无法有效评估语言代理与用户的互动能力。我们提出了$ au$-bench，通过模拟语言模型与特定领域API的对话，比较对话结束时的数据库状态与目标状态，以评估代理行为的可靠性。实验结果显示，最先进的代理在任务成功率和一致性方面表现不佳，需改进其行为。

BriefGPT - AI 论文速递 ·

现有基准测试无法有效评估语言代理与用户的互动能力。我们提出了$ au$-bench，通过模拟语言模型与特定领域API的对话来进行评估。引入新指标(pass^k)以比较代理行为的可靠性。实验结果显示，先进代理在任务成功率和一致性方面表现不佳，需要改进其行为。

BriefGPT - AI 论文速递 ·