本文探讨了大型语言模型(LLM)在科学研究中的应用,特别是GPT-4的性能。研究表明,LLM在药物发现和生物学等领域表现优异,但在科学知识整合能力上仍需改进。通过开发SciKnowEval基准,评估LLM的科学知识深度和广度,结果显示专有模型在科学计算方面有提升空间。此外,研究提出了提高学术文献可读性的方法,以便公众更好地理解科学知识。
完成下面两步后,将自动完成登录并继续当前操作。