机器之心 ·

量化617,462种人类微蛋白必需性，北大LLM蛋白质综合预测与分析，登Nature子刊

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

北京大学研究团队开发了蛋白质重要性计算器（PIC），利用深度学习模型预测人类蛋白质的必需性。PIC在活体人类、细胞系和小鼠中表现优异，助力疾病预防和治疗。研究成果发表于《Nature Computational Science》。

🎯

🔎

人类必需蛋白（HEP）对生存和发育至关重要，识别这些蛋白质有助于疾病的预防和治疗。PIC模型的开发为这一领域提供了新的工具，能够在活体人类和动物模型中进行更准确的预测，填补了传统方法的不足。

PIC模型在准确性上显著优于现有方法，AUROC提高了5.13%至12.10%。然而，模型目前仅限于人类蛋白质的预测，未来需要扩展到其他物种，以便更全面地理解蛋白质的必需性及其在药物开发中的潜在应用。

未来的研究可以集中在增强PIC模型的可解释性和结合蛋白质结构信息上。理解PES的生物学含义将有助于更好地应用该模型，同时整合结构信息可能会进一步提升预测的准确性，为疾病治疗提供新的思路。

❓

蛋白质重要性计算器（PIC）是北京大学研究团队开发的基于深度学习的模型，用于预测人类蛋白质的必需性。

PIC模型在预测人类蛋白质必需性方面表现优异，PIC-human的AUROC最高为0.9132，显著提高了准确率和精确率。

PIC模型通过消融研究和超参数优化选择了具有6.5亿个参数的ESM-2模型进行蛋白质序列特征提取。

研究团队通过识别乳腺癌的潜在预后生物标志物和量化617,462种人类微蛋白的必需性来验证蛋白质必需评分的有效性。

未来研究方向包括增强PES的可解释性、预测不同物种间蛋白质的必要性以及结合蛋白质结构信息提升预测效果。

PIC模型相比现有方法，AUROC提高了5.13–12.10%，并显著提高了准确率、精确率和F1得分。

🏷️