小红花·文摘

上海交通大学将于2025年8月举办第三届「AI for Bioengineering 暑期学校」，吸引200余位青年学者探讨AI与生物工程的结合。李明辰博士介绍了蛋白质语言模型在功能预测和序列生成方面的研究进展，并提出了一种基于蛋白质结构、序列和功能的新分类方法，强调了其在突变预测和蛋白质设计中的应用。

以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类：李明辰博士详解蛋白质语言模型

HyperAI超神经 ·

研究人员揭示蛋白质语言模型的内部机制

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) ·

本研究探讨了多模态蛋白质语言模型在三维结构离散化中的信息损失问题，提出了改进的生成建模和结构感知架构，显著提升了结构生成的多样性和蛋白质折叠能力，推动了大规模模型的结构建模进展。

Elucidating the Design Space of Multimodal Protein Language Models

BriefGPT - AI 论文速递 ·

结合ESM-2，杜克大学开发高效PTM感知蛋白质语言模型，实现新SOTA

机器之心 ·

本研究提出了一种新型蛋白质语言模型Prot42，旨在解决传统蛋白质工程的复杂性和资源消耗问题。Prot42能够生成高亲和力的蛋白质结合剂，并处理长达8192个氨基酸的序列，显著提升计算蛋白设计能力。

Prot42：一种针对目标的蛋白质结合剂生成的全新蛋白质语言模型家族

BriefGPT - AI 论文速递 ·

新方法揭示了人工智能模型如何处理蛋白质序列，并实现对预测的控制

DEV Community ·

AI做生物实验？还能迭代？浙大集成PLM和「自动化生物工厂」革新蛋白质工程范式

机器之心 ·

本研究分析了FLIP基准下大型蛋白质语言模型（如ESM-2和SaProt）的表现，发现它们在数据稀缺的特定任务中显著提高了预测准确性，为蛋白质预测提供了新的参考。

Exploring Large Protein Language Models in the Context of FLIP Benchmark Evaluation

BriefGPT - AI 论文速递 ·

「Meet AI4S」系列直播第五期将于12月10日举行，浙江大学王泽元博士将分享新型去噪蛋白质语言模型DePLM的研究，展示其在蛋白质优化中的应用与优势。该模型有效过滤无关信息，提高预测准确性，并已入选NeurIPS 2024。

直播预告 | 蛋白质优化新突破！浙江大学成果入选NeurIPS 2024，论文一作详解技术亮点

HyperAI超神经 ·

本研究提出DapPep框架，结合轻量级自注意力架构与预训练蛋白质语言模型，增强T细胞受体与抗原性肽结合的预测能力，尤其在数据稀缺的情况下，展现出临床应用潜力。

DapPep：领域自适应无肽学习的通用T细胞受体-抗原结合亲和力预测

BriefGPT - AI 论文速递 ·

本研究提出SeqProFT，通过LoRA微调ESM-2模型，降低了蛋白质语言模型在特定任务微调时的计算资源需求。结合多头注意力机制，提升了模型对蛋白质序列的理解，实验结果表明其在回归和分类任务中表现优异，收敛速度更快。

SeqProFT: Applying LoRA Finetuning for Sequence-Based Protein Property Prediction

BriefGPT - AI 论文速递 ·

本研究探讨了蛋白质语言模型在生物信息学中的应用，提出了多种新方法以提高蛋白质序列预测和生成的准确性。研究表明，即使在数据有限的情况下，也能生成高质量的蛋白质结构，推动了蛋白质组学和结构生物学的发展。

LA4SR：用生成式人工智能照亮黑暗蛋白组

BriefGPT - AI 论文速递 ·

本研究旨在优化蛋白质语言模型的训练，提出通过增加多样性和避免过拟合的方法。研究表明，纳入元基因组蛋白质序列可以发现新的标定规律，适当调整计算资源能够提升模型的精确度，同时控制计算预算。

训练计算优化的蛋白质语言模型

BriefGPT - AI 论文速递 ·

本研究提出了MutaPLM框架，旨在解决现有蛋白质语言模型在突变解释方面的不足。MutaPLM通过增量网络有效捕捉突变表示，提供可理解的突变效应解释，并识别理想特性的突变，展现出重要的应用潜力。

MutaPLM: Protein Language Modeling for Mutation Explanation and Engineering

BriefGPT - AI 论文速递 ·

准确预测蛋白质功能，中山大学基于几何图学习的酶工程新方法

机器之心 ·

在「Meet AI4S」直播中，周子宜博士介绍了蛋白质语言模型（PLM）在蛋白质工程中的应用。PLM通过建模蛋白质序列的共进化信息来预测突变的适应性，并生成蛋白质。研究重点包括检索增强型、多模态PLM和小样本学习方法FSFP。FSFP通过排序学习、LoRA和元学习提升性能，适用于不同PLM。未来方向包括AI辅助定向进化中的主动学习策略。

登 Nature 子刊！论文一作详解蛋白质语言模型的小样本学习方法，解决湿实验数据匮乏难题

HyperAI超神经 ·

该研究通过训练自回归和自编码器模型，开发了多种蛋白质语言模型，提升了蛋白质功能预测的准确性。新模型如xTrimoPGLM和Prot2Text结合了结构信息和文本数据，显著增强了蛋白质的理解和生成能力，推动了计算生物学的发展。

ProteinGPT：用于蛋白质属性预测和结构理解的多模态大型语言模型

BriefGPT - AI 论文速递 ·

精度媲美AlphaFold，EPFL的AI方法从序列中匹配蛋白质互作

机器之心 ·

上海交通大学研究团队开发了一种名为FSFP的训练策略，可在数据匮乏情况下优化蛋白质语言模型。该方法利用元迁移学习、排序学习和参数微调，提高了蛋白质突变-性质预测的效果。研究结果发表在Nature Communications上。该研究还使用FSFP设计了Phi29 DNA聚合酶，提高了阳性率。该方法在小样本学习任务中具有显著优势，并在多个基础模型上成功应用。

20个实验数据创造AI蛋白质里程碑！上海交大联合上海AI Lab发布FSFP，有效优化蛋白质预训练模型

HyperAI超神经 ·

蛋白质语言模型ESM-AA通过多尺度训练提高了蛋白质结构预测和适应性预测的性能。ESM-AA在靶点-配体结合任务中表现优于其他模型，并在分子表示学习任务中超越了最先进模型。ESM-AA的多尺度预训练框架包括掩码语言建模和成对距离恢复。ESM-AA在酶-底物亲和力回归任务和药物-靶点亲和力回归任务中表现优于其他模型。蛋白质语言模型的应用前景广阔，不仅限于医疗和生物制药领域，还可扩展到其他领域。

入选顶会ICML，清华AIR等联合发布蛋白质语言模型ESM-AA，超越传统SOTA

HyperAI超神经 ·