OpenScholar:通过检索增强的大型语言模型综合科学文献
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
我们提出了SciKnowEval基准,以五个科学知识水平评估大型语言模型(LLMs),涵盖知识广度、探索能力和伦理考量。以生物学和化学为例,构建了50,000个科学问题的数据集,评估了20个LLMs。结果表明,尽管性能优越,专有LLMs在科学计算方面仍需改进。
🎯
关键要点
-
提出了SciKnowEval基准,用于评估大型语言模型(LLMs)的科学知识水平。
-
评估标准包括五个科学知识水平:广泛学习、认真探究、深入思考、清晰辨别和勤奋实践。
-
这些水平评估LLMs的知识广度、探索能力、反思和推理能力、伦理和安全考量以及实践熟练性。
-
以生物学和化学为例,构建了一个包含50,000个科学问题的数据集。
-
对20个开源和专有LLMs进行了评估,结果显示专有LLMs在科学计算方面仍需改进。
-
SciKnowEval旨在建立全面的标准,促进科学知识与安全意识的结合。
➡️