锤子:通过函数掩蔽实现的强大的设备端语言模型函数调用
BriefGPT - AI 论文速递 · 2024-10-06T00:00:00Z
现有基准测试无法有效评估语言代理与人类互动能力。为此,我们提出了$ au$-bench,模拟用户与具备特定API工具的语言代理对话。通过比较对话结束时的数据库状态与目标状态来评估代理表现,并引入pass^k指标评估多次试验中的可靠性。实验显示,即使是先进的代理如gpt-4o,成功率也不足50%,尤其在零售领域表现不佳。研究指出需改善代理的一致性和可靠性。
原文中文,约300字,阅读约需1分钟。