科研党狂喜!AI预测神经学研究结论超过人类专家水平 | Nature子刊

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

研究显示,经过训练的语言模型(LLM)在神经科学预测中的准确率达到81.4%,超过人类专家的63%。新基准BrainBench评估了LLM在多个神经学子领域的表现,尤其在行为认知方面表现突出。尽管LLM的预测能力强,部分研究者仍质疑其在科研中的重要性,认为实验和解释更为关键。

🎯

关键要点

  • 经过训练的语言模型(LLM)在神经科学预测中的准确率达到81.4%,超过人类专家的63%。
  • 新基准BrainBench评估了LLM在多个神经学子领域的表现,尤其在行为认知方面表现突出。
  • LLM在神经学的五个子领域均表现优于人类专家,特别是在行为认知和系统/回路领域。
  • 较小的模型如Llama2-7B和Mistral-7B与较大的模型表现相当,聊天或指令优化模型的表现不如基础模型。
  • 人类专家的准确率在限制为自我报告专业知识的最高20%时上升到66.2%,但仍低于LLM。
  • LLM和人类专家的置信度校准良好,高置信度的预测更有可能是正确的。
  • 研究表明LLM没有记忆BrainBench项目,而是学习了广泛的科学模式。
  • BrainBench基准测试通过修改论文摘要来评估LLM和人类专家的预测能力。
  • 部分研究者质疑LLM在科研中的重要性,认为实验和解释更为关键。
  • 该研究为神经科学研究提供了新方向,未来可能扩展到更多学术领域。

延伸问答

LLM在神经科学预测中的准确率是多少?

LLM在神经科学预测中的准确率达到81.4%。

BrainBench基准测试的主要目的是什么?

BrainBench基准测试旨在评估LLM在预测神经科学结果方面的能力。

LLM在神经科学的哪些子领域表现突出?

LLM在行为/认知和系统/回路等子领域表现突出。

人类专家的预测准确率在什么条件下提高?

当限制人类响应为自我报告专业知识的最高20%时,准确率提高到66.2%。

研究者对LLM在科研中的重要性有何看法?

部分研究者质疑LLM在科研中的重要性,认为实验和解释更为关键。

LLM是否记忆了BrainBench项目的数据?

研究表明LLM没有记忆BrainBench项目,而是学习了广泛的科学模式。

➡️

继续阅读