内容提要
中国科学院团队开发了GeneCompass模型,整合多物种单细胞转录组数据和生物学知识,提升基因调控理解和任务性能。模型处理了1.26亿个人类和小鼠单细胞数据,覆盖3.6万个基因,展示了跨物种基因调控的保守性。GeneCompass在基因扰动和药物反应预测中表现出色,推动生命科学研究。
关键要点
-
中国科学院团队开发了GeneCompass模型,整合多物种单细胞转录组数据和生物学知识。
-
GeneCompass处理了1.26亿个人类和小鼠单细胞数据,覆盖3.6万个基因。
-
模型展示了跨物种基因调控的保守性,推动生命科学研究。
-
GeneCompass是首个知识与数据联合驱动的多物种生命基础大模型。
-
模型参数量达到1.3亿,支持细胞状态变化预测及多种生命过程的精准分析。
-
研究团队收集了全球范围内的单细胞转录组数据,建立了高质量数据集scCompass-126M。
-
GeneCompass采用知识嵌入的深度学习架构,显著提升了多种下游任务的性能。
-
研究发现多物种联合训练能够捕获生物进化保守规律,提升模型性能。
-
GeneCompass在基因扰动预测、药物反应预测等任务中表现出色,达到SOTA水平。
-
模型可用于细胞命运预测和关键基因筛选,揭示新机制。
-
GeneCompass展示了基于多物种无标注大数据预训练的策略优势,成为生物问题分析的通用解决方案。
延伸问答
GeneCompass模型的主要功能是什么?
GeneCompass模型主要用于解析基因调控机制,支持基因扰动预测、药物反应预测等多种生命科学任务。
GeneCompass是如何处理单细胞转录组数据的?
GeneCompass处理了超过1.26亿个人类和小鼠的单细胞转录组数据,覆盖3.6万个基因,结合了多种生物学先验知识。
GeneCompass在基因扰动预测中表现如何?
GeneCompass在基因扰动预测中表现出色,预测的前20个差异表达基因的均方误差平均降低了15.4%。
GeneCompass模型的创新之处是什么?
GeneCompass是首个结合知识与数据的多物种生命基础大模型,采用知识嵌入的深度学习架构,显著提升了多种下游任务的性能。
GeneCompass如何提升生命科学研究的效率?
GeneCompass通过多物种联合训练捕获生物进化保守规律,提升了模型性能,从而提高了生命科学研究的效率和精准性。
GeneCompass的参数量是多少?
GeneCompass的参数量达到1.3亿。