MTU-Bench:针对大型语言模型的多粒度工具使用基准
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了MTU-Bench,一个多粒度工具使用基准,解决了现有工具在评估场景和成本上的不足。它涵盖五种工具使用场景,采用基于预测和实际结果的评估指标,降低评估成本。实验表明,MTU-Bench有效提升了大型语言模型的工具使用能力。
🎯
关键要点
- 本研究提出了MTU-Bench,一个多粒度工具使用基准。
- MTU-Bench解决了现有工具使用基准在评估场景和评估成本上的不足。
- 该基准涵盖五种工具使用场景。
- 采用基于预测结果和真实情况的评估指标,降低评估成本。
- 实验结果表明,MTU-Bench有效提升了大型语言模型的工具使用能力。
➡️