小红花·文摘

本文探讨了大型语言模型（LLM）在科学研究中的应用，特别是GPT-4的性能。研究表明，LLM在药物发现和生物学等领域表现优异，但在科学知识整合能力上仍需改进。通过开发SciKnowEval基准，评估LLM的科学知识深度和广度，结果显示专有模型在科学计算方面有提升空间。此外，研究提出了提高学术文献可读性的方法，以便公众更好地理解科学知识。