锤子:通过函数掩蔽实现的强大的设备端语言模型函数调用
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对现有函数调用模型在不同基准测试中的表现差异和命名规范误导这一关键问题,提出了一种新颖的方法。所提出的Hammer模型通过增强数据集和函数掩蔽技术,显著提高了对不相关函数的敏感性。实证结果显示,Hammer在多个基准测试中不仅优于更大的模型,还表现出强大的泛化能力,为函数调用性能建立了新的标准。
现有基准测试无法有效评估语言代理与人类互动能力。为此,我们提出了$ au$-bench,模拟用户与具备特定API工具的语言代理对话。通过比较对话结束时的数据库状态与目标状态来评估代理表现,并引入pass^k指标评估多次试验中的可靠性。实验显示,即使是先进的代理如gpt-4o,成功率也不足50%,尤其在零售领域表现不佳。研究指出需改善代理的一致性和可靠性。