大型语言模型在具有挑战性的生物基准测试中超越专家

📝

内容提要

本研究系统评估了27种前沿的大型语言模型在八个生物学基准测试中的表现,涵盖了分子生物学、遗传学、克隆、病毒学和生物安全等领域。研究发现,顶尖模型在病毒学能力测试的挑战性文本子集上的表现提升超过四倍,现在的表现是专家病毒学家的两倍,显示了AI系统在生物领域的显著进步,同时呼吁更复杂的评估方法以跟上AI的发展。

➡️

继续阅读