入选顶会ICML,清华AIR等联合发布蛋白质语言模型ESM-AA,超越传统SOTA
原文中文,约4500字,阅读约需11分钟。发表于: 。然而,蛋白质的结构复杂多变,传统的实验方法在解析蛋白质结构时既耗时又费力——蛋白质语言模型 (PLMs) 应运而生,利用深度学习技术,通过分析大量的蛋白质序列数据,学习蛋白质的生物化学规律和共进化模式,在蛋白质结构预测、适应性预测和蛋白质设计等领域取得了显著成就,极大地推动了蛋白质工程的发展。在将多尺度 PE 集成到 Transformer 时,该研究首先用残差尺度位置编码 ER 替换了...
蛋白质语言模型ESM-AA通过多尺度训练提高了蛋白质结构预测和适应性预测的性能。ESM-AA在靶点-配体结合任务中表现优于其他模型,并在分子表示学习任务中超越了最先进模型。ESM-AA的多尺度预训练框架包括掩码语言建模和成对距离恢复。ESM-AA在酶-底物亲和力回归任务和药物-靶点亲和力回归任务中表现优于其他模型。蛋白质语言模型的应用前景广阔,不仅限于医疗和生物制药领域,还可扩展到其他领域。