机器之心 ·

LLM时代，计算蛋白质科学进展如何？香港理工大学等发布系统性综述

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

蛋白质是生命的基本构建单元，参与新陈代谢和信号传导。研究者利用大型语言模型（pLMs）推动计算蛋白质科学，探讨序列、结构与功能的关系。综述了pLMs的分类、应用及其在抗体和酶设计等领域的潜力，并强调未来的研究方向。

🎯

🔎

随着大型语言模型（pLMs）的发展，蛋白质科学的研究方向正逐渐向更高效的结构和功能预测转变。未来的研究可能会集中在如何更好地整合实验数据与计算模型，以提高预测的准确性和可靠性。

pLMs在蛋白质设计、抗体和酶设计等领域展现出巨大的应用潜力。通过利用这些模型，研究人员能够更快速地开发新型蛋白质，推动生物医学领域的创新，尤其是在药物发现方面。

尽管pLMs在蛋白质科学中取得了显著进展，但仍面临数据稀缺和模型可解释性等挑战。研究者需关注如何克服这些限制，以确保模型的广泛适用性和可靠性。

❓

蛋白质参与新陈代谢、信号传导和免疫反应等基本生命活动。

蛋白质语言模型（pLMs）是利用大型语言模型技术来理解蛋白质序列、结构和功能之间关系的模型。

pLMs在蛋白质结构预测中能够从氨基酸序列中准确推断出蛋白质的三维结构，提升预测精度。

pLMs可以分为基于序列的模型、结构与功能增强的模型以及多模态模型。

从头设计蛋白质要求模型在广阔的蛋白质空间中准确把握哪些序列和结构能够实现所需功能，难度较大。

未来研究方向包括数据稀缺问题、蛋白质相互作用建模、可解释性和计算效率等方面的挑战。

🏷️