量化617,462种人类微蛋白必需性,北大LLM蛋白质综合预测与分析,登Nature子刊

量化617,462种人类微蛋白必需性,北大LLM蛋白质综合预测与分析,登Nature子刊

💡 原文中文,约3100字,阅读约需8分钟。
📝

内容提要

北京大学研究团队开发了蛋白质重要性计算器(PIC),利用深度学习模型预测人类蛋白质的必需性。PIC在活体人类、细胞系和小鼠中表现优异,助力疾病预防和治疗。研究成果发表于《Nature Computational Science》。

🎯

关键要点

  • 北京大学研究团队开发了蛋白质重要性计算器(PIC),利用深度学习模型预测人类蛋白质的必需性。

  • PIC在活体人类、细胞系和小鼠中表现优异,提供跨层面的全面预测结果。

  • 研究成果发表于《Nature Computational Science》,标题为《基于预训练大语言模型的人类蛋白质必需性综合预测与分析》。

  • 必需蛋白由必需基因编码,对生物体的生存至关重要,识别必需蛋白对疾病的预防、诊断和治疗至关重要。

  • PIC模型包括325个不同级别的模型,分别用于人类、小鼠和细胞系的预测。

  • 研究人员通过消融研究和超参数优化选择了具有6.5亿个参数的ESM-2模型进行蛋白质序列特征提取。

  • PIC模型的性能通过多项指标评估,PIC-human的AUROC最高为0.9132。

  • PIC模型在与现有方法比较中,AUROC提高了5.13–12.10%,显著提高了准确率、精确率和F1得分。

  • 未来探索包括增强PES的可解释性、预测不同物种间蛋白质的必要性以及结合蛋白质结构信息提升预测效果。

延伸问答

蛋白质重要性计算器(PIC)是什么?

蛋白质重要性计算器(PIC)是北京大学研究团队开发的基于深度学习的模型,用于预测人类蛋白质的必需性。

PIC模型在预测人类蛋白质必需性方面的表现如何?

PIC模型在预测人类蛋白质必需性方面表现优异,PIC-human的AUROC最高为0.9132,显著提高了准确率和精确率。

PIC模型是如何优化的?

PIC模型通过消融研究和超参数优化选择了具有6.5亿个参数的ESM-2模型进行蛋白质序列特征提取。

研究团队如何验证蛋白质必需评分的有效性?

研究团队通过识别乳腺癌的潜在预后生物标志物和量化617,462种人类微蛋白的必需性来验证蛋白质必需评分的有效性。

PIC模型的未来研究方向有哪些?

未来研究方向包括增强PES的可解释性、预测不同物种间蛋白质的必要性以及结合蛋白质结构信息提升预测效果。

PIC模型与现有方法相比有什么优势?

PIC模型相比现有方法,AUROC提高了5.13–12.10%,并显著提高了准确率、精确率和F1得分。

➡️

继续阅读