OpenScholar:通过检索增强的大型语言模型综合科学文献

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

我们提出了SciKnowEval基准,以五个科学知识水平评估大型语言模型(LLMs),涵盖知识广度、探索能力和伦理考量。以生物学和化学为例,构建了50,000个科学问题的数据集,评估了20个LLMs。结果表明,尽管性能优越,专有LLMs在科学计算方面仍需改进。

🎯

关键要点

  • 提出了SciKnowEval基准,用于评估大型语言模型(LLMs)的科学知识水平。

  • 评估标准包括五个科学知识水平:广泛学习、认真探究、深入思考、清晰辨别和勤奋实践。

  • 这些水平评估LLMs的知识广度、探索能力、反思和推理能力、伦理和安全考量以及实践熟练性。

  • 以生物学和化学为例,构建了一个包含50,000个科学问题的数据集。

  • 对20个开源和专有LLMs进行了评估,结果显示专有LLMs在科学计算方面仍需改进。

  • SciKnowEval旨在建立全面的标准,促进科学知识与安全意识的结合。

➡️

继续阅读