💡 原文中文,约4300字,阅读约需11分钟。
📝

内容提要

中国科学院团队开发了GeneCompass模型,整合多物种单细胞转录组数据和生物学知识,提升基因调控理解和任务性能。模型处理了1.26亿个人类和小鼠单细胞数据,覆盖3.6万个基因,展示了跨物种基因调控的保守性。GeneCompass在基因扰动和药物反应预测中表现出色,推动生命科学研究。

🎯

关键要点

  • 中国科学院团队开发了GeneCompass模型,整合多物种单细胞转录组数据和生物学知识。
  • GeneCompass处理了1.26亿个人类和小鼠单细胞数据,覆盖3.6万个基因。
  • 模型展示了跨物种基因调控的保守性,推动生命科学研究。
  • GeneCompass是首个知识与数据联合驱动的多物种生命基础大模型。
  • 模型参数量达到1.3亿,支持细胞状态变化预测及多种生命过程的精准分析。
  • 研究团队收集了全球范围内的单细胞转录组数据,建立了高质量数据集scCompass-126M。
  • GeneCompass采用知识嵌入的深度学习架构,显著提升了多种下游任务的性能。
  • 研究发现多物种联合训练能够捕获生物进化保守规律,提升模型性能。
  • GeneCompass在基因扰动预测、药物反应预测等任务中表现出色,达到SOTA水平。
  • 模型可用于细胞命运预测和关键基因筛选,揭示新机制。
  • GeneCompass展示了基于多物种无标注大数据预训练的策略优势,成为生物问题分析的通用解决方案。
➡️

继续阅读