SciKnowEval: 评估大规模语言模型的多级科学知识

📝

内容提要

大型语言模型(LLMs)在科学研究中的广泛应用需要先进的评估标准来全面评估它们对科学知识的理解和应用。为了解决这个问题,我们引入了 SciKnowEval 基准,这是一个新颖的框架,从五个渐进的科学知识水平对 LLMs 进行系统评估:广泛学习、认真探究、深入思考、清晰辨别和勤奋实践。这些水平旨在评估 LLMs...

🏷️

标签

➡️

继续阅读