小红花·文摘

本研究提出了ToolHop数据集，包含995个用户查询和3912个相关工具，旨在评估大型语言模型在多跳工具使用中的表现。研究发现，GPT-4o模型的准确率为49.04%，显示出改进的潜力。