量子位 ·

科研党狂喜！AI预测神经学研究结论超过人类专家水平 | Nature子刊

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

研究显示，经过训练的语言模型（LLM）在神经科学预测中的准确率达到81.4%，超过人类专家的63%。新基准BrainBench评估了LLM在多个神经学子领域的表现，尤其在行为认知方面表现突出。尽管LLM的预测能力强，部分研究者仍质疑其在科研中的重要性，认为实验和解释更为关键。

🎯

关键要点

经过训练的语言模型（LLM）在神经科学预测中的准确率达到81.4%，超过人类专家的63%。
新基准BrainBench评估了LLM在多个神经学子领域的表现，尤其在行为认知方面表现突出。
LLM在神经学的五个子领域均表现优于人类专家，特别是在行为认知和系统/回路领域。
较小的模型如Llama2-7B和Mistral-7B与较大的模型表现相当，聊天或指令优化模型的表现不如基础模型。
人类专家的准确率在限制为自我报告专业知识的最高20%时上升到66.2%，但仍低于LLM。
LLM和人类专家的置信度校准良好，高置信度的预测更有可能是正确的。
研究表明LLM没有记忆BrainBench项目，而是学习了广泛的科学模式。
BrainBench基准测试通过修改论文摘要来评估LLM和人类专家的预测能力。
部分研究者质疑LLM在科研中的重要性，认为实验和解释更为关键。
该研究为神经科学研究提供了新方向，未来可能扩展到更多学术领域。

❓

延伸问答

LLM在神经科学预测中的准确率是多少？

LLM在神经科学预测中的准确率达到81.4%。

BrainBench基准测试的主要目的是什么？

BrainBench基准测试旨在评估LLM在预测神经科学结果方面的能力。

LLM在神经科学的哪些子领域表现突出？

LLM在行为/认知和系统/回路等子领域表现突出。

人类专家的预测准确率在什么条件下提高？

当限制人类响应为自我报告专业知识的最高20%时，准确率提高到66.2%。

研究者对LLM在科研中的重要性有何看法？

部分研究者质疑LLM在科研中的重要性，认为实验和解释更为关键。

LLM是否记忆了BrainBench项目的数据？

研究表明LLM没有记忆BrainBench项目，而是学习了广泛的科学模式。

🏷️

继续阅读

AI科研工具深度解析：Paperclip如何用arXiv重构论文检索分析方式
Paperclip通过整合arXiv等数据库，重构了AI论文检索方式，允许AI快速检索和分析论文，提升科研效率。AI能够直接处理全文，支持批量操作和跨领域...
AI数智时代：股票智能预测系统功能实战
本案例介绍了基于华为云码道的股票智能预测系统，利用Transformer算法和Tushare获取A股历史数据，预测未来5日价格。用户可通过可视化图表查看预...
生物研究正在变成软件工程：AI开始接管生物实验大脑！
生物研究正逐渐依赖AI进行数据分析，推动科学判断的自动化。AI能够高效筛选和分析生物数据，提升研究效率。未来，数据分析能力将成为生物研究的核心，快速将数据...
开源Sandcastle项目实战：AI独自写889次代码更新全流程揭秘
Sandcastle项目展示了AI独立完成889次代码更新的能力，采用严格的流程设计，包括AI编写、检查和审核代码，人类仅负责最终确认。项目通过明确的任务...
一年烧钱近7000亿美元！谷歌、Meta、亚马逊、微软：AI不只是风口
4月30日消息，当地时间周三盘后，Alphabet、Meta、亚马逊和微软集中披露财报，四大科技巨头交出了一份由AI和云计算推动的成绩单：Alphabet...
苹果意外泄露CLAUDE.md背后真相：AI开发流程正在被彻底重写的信号！
苹果意外泄露的CLAUDE.md文件揭示了AI开发流程的重大变化，强调从传统编码转向以自然语言编写提示词。这一事件暴露了企业在AI工具使用中的隐患和开发流...