MARCO:多智能体实时聊天协调

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

现有基准测试无法有效评估语言代理与用户的互动能力。我们提出了$ au$-bench,通过模拟语言模型与特定领域API的对话,比较对话结束时的数据库状态与目标状态,以评估代理行为的可靠性。实验结果显示,最先进的代理在任务成功率和一致性方面表现不佳,需改进其行为。

🎯

关键要点

  • 现有基准测试无法有效评估语言代理与用户的互动能力。
  • $ au$-bench是一个新提出的基准测试,模拟语言模型与特定领域API的对话。
  • 评估过程通过比较对话结束时的数据库状态与目标状态来进行。
  • 引入了一种新的度量指标(pass^k)来评估代理行为的可靠性。
  • 实验结果显示,最先进的代理在任务成功率和一致性方面表现不佳。
  • 需要提出方法来改善代理的行为一致性和可靠性。
➡️

继续阅读