ToolHop:用于评估大型语言模型在多跳工具使用中的查询驱动基准

💡 原文中文,约700字,阅读约需2分钟。
📝

内容提要

本研究提出了ToolHop数据集,包含995个用户查询和3912个相关工具,旨在评估大型语言模型在多跳工具使用中的表现。研究发现,GPT-4o模型的准确率为49.04%,显示出改进的潜力。

🎯

关键要点

  • 本研究提出了ToolHop数据集,包含995个用户查询和3912个相关工具。
  • ToolHop旨在为多跳工具使用提供严格的评估。
  • 研究通过创新的查询驱动数据构建方法,揭示了14个大型语言模型在多跳工具使用中的重大挑战。
  • GPT-4o模型的准确率为49.04%,显示出改进的潜力。
➡️

继续阅读