锤子:通过函数掩蔽实现的强大的设备端语言模型函数调用

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

现有基准测试无法有效评估语言代理与人类互动能力。为此,我们提出了$ au$-bench,模拟用户与具备特定API工具的语言代理对话。通过比较对话结束时的数据库状态与目标状态来评估代理表现,并引入pass^k指标评估多次试验中的可靠性。实验显示,即使是先进的代理如gpt-4o,成功率也不足50%,尤其在零售领域表现不佳。研究指出需改善代理的一致性和可靠性。

🎯

关键要点

  • 现有基准测试无法有效评估语言代理与人类用户的交互能力。

  • $ au$-bench是一个新提出的基准测试,模拟用户与具备特定API工具的语言代理的对话。

  • 评估过程通过比较对话结束时的数据库状态与目标状态来进行。

  • 引入了新的度量指标pass^k,用于评估代理在多次试验中的可靠性。

  • 实验结果显示,先进的代理如gpt-4o在任务成功率上不足50%。

  • 在零售领域,代理的一致性表现不佳,pass^8低于25%。

  • 研究指出需要改善代理的行为一致性和可靠性。

➡️

继续阅读