💡
原文中文,约4300字,阅读约需11分钟。
📝
内容提要
中国科学院团队开发了GeneCompass模型,整合多物种单细胞转录组数据和生物学知识,提升基因调控理解和任务性能。模型处理了1.26亿个人类和小鼠单细胞数据,覆盖3.6万个基因,展示了跨物种基因调控的保守性。GeneCompass在基因扰动和药物反应预测中表现出色,推动生命科学研究。
🎯
关键要点
- 中国科学院团队开发了GeneCompass模型,整合多物种单细胞转录组数据和生物学知识。
- GeneCompass处理了1.26亿个人类和小鼠单细胞数据,覆盖3.6万个基因。
- 模型展示了跨物种基因调控的保守性,推动生命科学研究。
- GeneCompass是首个知识与数据联合驱动的多物种生命基础大模型。
- 模型参数量达到1.3亿,支持细胞状态变化预测及多种生命过程的精准分析。
- 研究团队收集了全球范围内的单细胞转录组数据,建立了高质量数据集scCompass-126M。
- GeneCompass采用知识嵌入的深度学习架构,显著提升了多种下游任务的性能。
- 研究发现多物种联合训练能够捕获生物进化保守规律,提升模型性能。
- GeneCompass在基因扰动预测、药物反应预测等任务中表现出色,达到SOTA水平。
- 模型可用于细胞命运预测和关键基因筛选,揭示新机制。
- GeneCompass展示了基于多物种无标注大数据预训练的策略优势,成为生物问题分析的通用解决方案。
➡️