1亿参数的细胞大模型来了!登Nature子刊,清华大学团队发布scFoundation:对2万基因同时建模

💡 原文中文,约6700字,阅读约需16分钟。
📝

内容提要

清华大学研究人员发表了一篇名为「Large-scale foundation model on single-cell transcriptomics」的研究论文,介绍了一种名为scFoundation的细胞大模型,能够同时处理约2万个基因,具有卓越的性能提升。研究人员通过构建全面的单细胞数据集进行模型训练,结果显示scFoundation模型在细胞药物响应预测和细胞扰动预测等任务中表现出卓越性能。该研究为建立细胞预训练大模型提供了新的思路和方法,拓展了单细胞领域基础模型的边界。

🎯

关键要点

  • 清华大学研究人员发表了关于细胞大模型scFoundation的研究论文。
  • scFoundation模型能够同时处理约2万个基因,性能显著提升。
  • 研究通过构建全面的单细胞数据集进行模型训练,解决了数据组织松散和测序深度差异等挑战。
  • scFoundation模型基于5000万个细胞的基因表达数据进行训练,拥有1亿参数。
  • 模型采用非对称设计,减少计算和内存挑战,支持多种生物医学下游任务。
  • 研究人员设计了RDA建模的预训练任务,考虑了测序深度的高方差。
  • scFoundation在细胞药物反应预测和细胞扰动预测等任务中表现出卓越性能。
  • 模型支持开箱即用和微调两种模式,能够直接提升细胞数据质量。
  • 研究结果显示,scFoundation在癌症药物反应预测和单细胞药物反应分类任务中表现优异。
  • scFoundation为建立细胞预训练大模型提供了新的思路和方法,拓展了单细胞领域基础模型的边界。
  • 全球领先的人工智能企业和研究团队正在致力于构建更优的生物领域垂直大模型。
➡️

继续阅读