MaterialBENCH:评估大学水平材料科学的问题解决能力的大型语言模型
原文中文,约500字,阅读约需2分钟。发表于: 。本研究构建了一个针对大型语言模型(LLMs)在材料科学领域的大学水平基准数据集MaterialBENCH,旨在评估其解决相关问题的能力。通过实验,本研究发现不同类型问题的表现差异,并讨论了如何提高模型在复杂问题解决上的推理能力,从而推动材料研究和发现的进展。
研究人员引入了SciBench基准套件,测试语言模型在复杂科学问题上的推理能力。结果显示当前语言模型表现不佳,综合得分仅为35.80%。研究人员将语言模型的错误归类为十种问题解决能力,发现没有一种单一的提示策略明显优于其他策略。预计SciBench将推动语言模型的发展,促进科学研究和发现。