我们提出了SciKnowEval基准,以五个科学知识水平评估大型语言模型(LLMs),涵盖知识广度、探索能力和伦理考量。以生物学和化学为例,构建了50,000个科学问题的数据集,评估了20个LLMs。结果表明,尽管性能优越,专有LLMs在科学计算方面仍需改进。
完成下面两步后,将自动完成登录并继续当前操作。