ScienceAgentBench:迈向对语言智能体在数据驱动科学发现中的严格评估
原文中文,约400字,阅读约需1分钟。发表于: 。本研究旨在解决语言智能体在完全自动化科学发现中的能力不足问题,并提出了ScienceAgentBench作为评估这一能力的新基准。研究发现,当前的语言智能体在科学工作流程中仅能独立解决32.4%的任务,这凸显了其在进行数据驱动发现时的局限性和改进需求。
通过引入可扩展工具集,研究从全知问题解决转向使用专业工具,提升LLMs的科学推理能力。开发了MathFunc工具和SciAgent,用于科学问题的工具检索和使用。通过SciToolBench评估,SciAgent表现优异,特别是SciAgent-Mistral-7B和SciAgent-DeepMath-7B的性能超过同类模型。