上海交通大学将于2025年8月举办第三届「AI for Bioengineering 暑期学校」,吸引200余位青年学者探讨AI与生物工程的结合。李明辰博士介绍了蛋白质语言模型在功能预测和序列生成方面的研究进展,并提出了一种基于蛋白质结构、序列和功能的新分类方法,强调了其在突变预测和蛋白质设计中的应用。
近年来,蛋白质语言模型在药物靶点识别和抗体设计等生物领域得到广泛应用。麻省理工学院的研究者通过新技术揭示了这些模型的预测机制,帮助选择更合适的模型,加速新药或疫苗靶点的发现。这项研究提高了模型的可解释性,并可能揭示新的生物学见解。
本研究探讨了多模态蛋白质语言模型在三维结构离散化中的信息损失问题,提出了改进的生成建模和结构感知架构,显著提升了结构生成的多样性和蛋白质折叠能力,推动了大规模模型的结构建模进展。
杜克大学和西湖大学的研究人员开发了PTM-Mamba,这是一种能够同时建模野生型和翻译后修饰(PTM)序列的蛋白质语言模型。该模型通过双向Mamba块和新门控机制,增强了对PTM的理解,支持疾病关联和药物可药性预测等任务。研究表明,PTM-Mamba在多个基准测试中优于现有模型,展示了其在生物学研究和精准治疗中的潜力。
本研究提出了一种新型蛋白质语言模型Prot42,旨在解决传统蛋白质工程的复杂性和资源消耗问题。Prot42能够生成高亲和力的蛋白质结合剂,并处理长达8192个氨基酸的序列,显著提升计算蛋白设计能力。
本研究探讨了理解和控制蛋白质语言模型的新方法,采用稀疏自编码器,揭示模型处理蛋白质序列的方式。研究表明,通过操控特征可以引导模型行为,并在生物实验中验证了蛋白质特征检测的改进。
浙江大学研究人员开发了基于蛋白质语言模型的自动进化平台PLMeAE,结合机器学习与自动化生物工厂,显著提高了蛋白质工程的速度和准确性,优化了设计与测试流程,推动了工业应用的发展。
本研究分析了FLIP基准下大型蛋白质语言模型(如ESM-2和SaProt)的表现,发现它们在数据稀缺的特定任务中显著提高了预测准确性,为蛋白质预测提供了新的参考。
「Meet AI4S」系列直播第五期将于12月10日举行,浙江大学王泽元博士将分享新型去噪蛋白质语言模型DePLM的研究,展示其在蛋白质优化中的应用与优势。该模型有效过滤无关信息,提高预测准确性,并已入选NeurIPS 2024。
本研究提出DapPep框架,结合轻量级自注意力架构与预训练蛋白质语言模型,增强T细胞受体与抗原性肽结合的预测能力,尤其在数据稀缺的情况下,展现出临床应用潜力。
本研究提出SeqProFT,通过LoRA微调ESM-2模型,降低了蛋白质语言模型在特定任务微调时的计算资源需求。结合多头注意力机制,提升了模型对蛋白质序列的理解,实验结果表明其在回归和分类任务中表现优异,收敛速度更快。
本研究探讨了蛋白质语言模型在生物信息学中的应用,提出了多种新方法以提高蛋白质序列预测和生成的准确性。研究表明,即使在数据有限的情况下,也能生成高质量的蛋白质结构,推动了蛋白质组学和结构生物学的发展。
本研究优化了蛋白质语言模型的训练,通过增加多样性以防止过拟合,并引入元基因组蛋白质序列,发现了新的规律。适当调整计算资源可提高模型的精确度。
本研究提出MutaPLM框架,旨在解决蛋白质语言模型在突变解释方面的不足,能够有效提供突变效应的可理解解释,具有重要的应用潜力。
中山大学团队开发了GraphEC,这是一种基于几何图学习的酶功能预测技术。它利用ESMFold预测结构和预训练的蛋白质语言模型,从蛋白质结构中提取功能信息。GraphEC能有效预测酶的活性位点、EC编号和最佳pH值,表现优于现有方法,具有在合成生物学和基因组学中的应用潜力。未来可通过改进结构质量和结合大型语言模型提升预测能力。
在「Meet AI4S」直播中,周子宜博士介绍了蛋白质语言模型(PLM)在蛋白质工程中的应用。PLM通过建模蛋白质序列的共进化信息来预测突变的适应性,并生成蛋白质。研究重点包括检索增强型、多模态PLM和小样本学习方法FSFP。FSFP通过排序学习、LoRA和元学习提升性能,适用于不同PLM。未来方向包括AI辅助定向进化中的主动学习策略。
通过创新的预训练框架,提出了一个统一的蛋白质语言模型xTrimoPGLM,能够同时处理蛋白质理解和生成任务。xTrimoPGLM具有超过1000亿个参数和1万亿个训练标记的规模,在18个蛋白质理解基准测试中优于其他基准。它能够提供蛋白质结构的原子分辨率视图,并超越现有基于语言模型的工具的3D结构预测能力。此外,xTrimoPGLM可以生成全新的蛋白质序列,并在精调后进行可编程的生成。这些结果凸显了xTrimoPGLM在蛋白质科学中的重要意义。
洛桑联邦理工学院的研究团队开发了一种使用蛋白质语言模型的方法,可以预测蛋白质之间的相互作用。该方法在小型数据集上表现良好,并可改进蛋白质复合物的结构预测。研究人员已免费提供该方法,希望推动计算生物学的发展。该方法有助于了解疾病机制和开发治疗方法。
上海交通大学研究团队开发了一种名为FSFP的训练策略,可在数据匮乏情况下优化蛋白质语言模型。该方法利用元迁移学习、排序学习和参数微调,提高了蛋白质突变-性质预测的效果。研究结果发表在Nature Communications上。该研究还使用FSFP设计了Phi29 DNA聚合酶,提高了阳性率。该方法在小样本学习任务中具有显著优势,并在多个基础模型上成功应用。
蛋白质语言模型ESM-AA通过多尺度训练提高了蛋白质结构预测和适应性预测的性能。ESM-AA在靶点-配体结合任务中表现优于其他模型,并在分子表示学习任务中超越了最先进模型。ESM-AA的多尺度预训练框架包括掩码语言建模和成对距离恢复。ESM-AA在酶-底物亲和力回归任务和药物-靶点亲和力回归任务中表现优于其他模型。蛋白质语言模型的应用前景广阔,不仅限于医疗和生物制药领域,还可扩展到其他领域。
完成下面两步后,将自动完成登录并继续当前操作。