刀锋:用于数据驱动科学的语言模型代理基准
原文中文,约500字,阅读约需2分钟。发表于: 。本研究解决了在数据驱动科学中评估语言模型代理的复杂性问题,提出了BLADE这一基准工具来自动评估代理在开放式研究问题上的多面响应。研究发现,尽管语言模型具有广泛的知识,但它们的分析能力往往较为基础,而能够与数据交互的代理则在分析决策的多样性上有所改善。此工作为数据驱动科学中的代理评估提供了新的视角和方法。
SciKnowEval是一个评估LLMs科学知识水平的新框架,通过生物学和化学示例构建了一个包含50,000个问题和解决方案的数据集。评估结果显示,专有LLMs在解决科学计算和应用方面有改进空间。SciKnowEval将建立全面标准,促进LLMs发展。