MTU-Bench:针对大型语言模型的多粒度工具使用基准

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了MTU-Bench,一个多粒度工具使用基准,解决了现有工具在评估场景和成本上的不足。它涵盖五种工具使用场景,采用基于预测和实际结果的评估指标,降低评估成本。实验表明,MTU-Bench有效提升了大型语言模型的工具使用能力。

🎯

关键要点

  • 本研究提出了MTU-Bench,一个多粒度工具使用基准。
  • MTU-Bench解决了现有工具使用基准在评估场景和评估成本上的不足。
  • 该基准涵盖五种工具使用场景。
  • 采用基于预测结果和真实情况的评估指标,降低评估成本。
  • 实验结果表明,MTU-Bench有效提升了大型语言模型的工具使用能力。
➡️

继续阅读