极道 ·

蛋白质语言模型综述

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

蛋白质语言模型是一种模仿人类语言的模型，用于蛋白质序列数据的分析。通过设计和训练蛋白质模型，可以生成与天然蛋白质相似的序列，并在实验中表现出更好的性能。结合蛋白质结构的模型和模型规模对性能有影响。研究蛋白质语言模型有巨大潜力，可帮助理解蛋白质的结构和功能，实现合成全新的蛋白质。

🎯

❓

蛋白质语言模型模仿人类语言，用于分析蛋白质序列数据，生成与天然蛋白质相似的序列。

蛋白质序列由20种氨基酸组成，其排列决定了蛋白质的结构和功能。

ProGen模型通过条件标签生成特定蛋白质序列，其性能与天然蛋白质相当。

反向折叠方法从理想结构出发，预测可折叠到该结构的序列，适用于酶和治疗性蛋白质的设计。

ESM-2是一个150亿参数的模型，利用语言模型的内部表示进行结构预测，尽管准确性不如AlphaFold。

研究蛋白质语言模型可能导致突破性发现，帮助理解蛋白质的结构和功能，甚至合成全新的蛋白质。

🏷️