ScienceAgentBench:迈向对语言智能体在数据驱动科学发现中的严格评估
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
通过引入可扩展工具集,研究从全知问题解决转向使用专业工具,提升LLMs的科学推理能力。开发了MathFunc工具和SciAgent,用于科学问题的工具检索和使用。通过SciToolBench评估,SciAgent表现优异,特别是SciAgent-Mistral-7B和SciAgent-DeepMath-7B的性能超过同类模型。
🎯
关键要点
- 引入可扩展工具集,研究重点转向专业工具使用者。
- 构建MathFunc工具库,包含超过30,000个样本和约6,000个工具。
- 开发SciAgent用于科学问题的工具检索、理解和使用。
- 建立SciToolBench基准测试评估LLMs在工具协助下的能力。
- SciAgent在SciToolBench上的表现优异,特别是SciAgent-Mistral-7B的准确率高出13%。
- SciAgent-DeepMath-7B的性能显著优于ChatGPT。
➡️