本研究探讨了蛋白质语言模型在生物信息学中的应用,提出了多种新方法以提高蛋白质序列预测和生成的准确性。研究表明,即使在数据有限的情况下,也能生成高质量的蛋白质结构,推动了蛋白质组学和结构生物学的发展。
华盛顿大学David Baker团队开发了ProteinGenerator (PG),一种基于RoseTTAFold的模型,能同时生成蛋白质序列和结构。PG通过迭代去噪,以所需属性为指导,设计耐热蛋白质和生物活性肽。研究显示,PG在设计准确度上优于传统方法,能生成多状态和功能蛋白,并适应多种序列约束。PG还能设计含稀有氨基酸的蛋白质,展示了超越天然序列的能力。
完成下面两步后,将自动完成登录并继续当前操作。