BoxingGym: 自动实验设计与模型发现的基准进展

📝

内容提要

本文解决了大规模语言模型(LLM)在科学模型提出、实验数据收集及基于新数据修订模型方面缺乏系统性基准的问题。提出的BoxingGym基准通过10个环境对实验设计与模型发现进行系统评估,并发现当前的LLM在这两个领域的表现均不佳,增强LLM-agent与显式统计模型的结合并未有效改善其结果。

➡️

继续阅读