SciEval: 一个用于科学研究的多级大型语言模型评估基准

这篇论文提出了 SciEval 基准评估体系，以解决现有预先收集客观问题的数据泄露问题和缺乏主观问答能力评估的问题。SciEval 基于 Bloom 的认知分类学，覆盖了四个维度，系统评估科学研究能力。研究者进行了全面的实验证明，尽管 GPT-4 在与其他 LLMs 相比取得了最先进的表现，但仍有很大的改进空间，特别是在动态问题方面。数据和代码现已公开。

研究引入了SciBench基准套件，测试语言模型在解决科学问题时的推理能力。当前的语言模型表现不佳，综合得分仅为35.80%。用户研究发现了十种问题解决能力的错误分类。没有一种单一的提示策略明显优于其他策略，并且某些策略在提高某些技能的同时会导致其他技能下降。预计SciBench将推动语言模型的推理能力进一步发展，促进科学研究和发现。

SciBench 大型语言模型推理能力提示策略语言模型错误分类