本研究提出了ToolHop数据集,包含995个用户查询和3912个相关工具,旨在评估大型语言模型在多跳工具使用中的表现。研究发现,GPT-4o模型的准确率为49.04%,显示出改进的潜力。
完成下面两步后,将自动完成登录并继续当前操作。