DiscoveryBench:基于大型语言模型的数据驱动发现
原文中文,约600字,阅读约需2分钟。发表于: 。快速提取、调用函数和数据分析是大型语言模型 (LLMs) 快速生成代码,从提供的数据集中自动化搜索和验证假设的关键。我们通过 DiscoveryBench 这一全面的基准测试来评估这个问题,该基准测试形式化了数据驱动发现的多步骤过程。该基准测试的设计是为了系统评估当前模型在发现任务中的能力,并为改进这些能力提供有用的资源。
最近的研究表明,基于大型语言模型(LLMs)的自动化软件工程在解决简短算法任务方面表现良好,但在解决复杂编程任务方面仍存在挑战。为了评估LLMs在编程任务中的能力,研究人员引入了一个基准测试集Bench,结果显示LLMs在使用函数调用方面的准确性仍不如人类。这表明需要进一步改进LLMs在这一领域的应用。