一个 SARS-CoV-2 相互作用数据集和 VHH 序列语料库用于抗体语言模型
💡
原文中文,约1500字,阅读约需4分钟。
📝
内容提要
本文介绍了基于VHHs结构建立的大规模数据集AVIDa-hIL6,包含573,891个抗原-VHHs序列对,用于预测抗体-抗原相互作用。研究者提出了基于预训练模型的抗体设计方法,开发了AntiBERTy语言模型,并提出了IgBert和IgT5模型,推动抗体工程的发展。此外,研究还探讨了Vaxformer模型在疫苗设计中的应用及抗病毒药物资源库的建立。
🎯
关键要点
- 利用 VHHs 结构建立了大规模数据集 AVIDa-hIL6,包含 573,891 个抗原-VHHs 序列对,用于预测抗体-抗原相互作用。
- 提出了一种基于预训练模型的抗体设计方法,结合序列-结构生成方法,成功生成高性能的抗原特异性抗体。
- 开发了 AntiBERTy 语言模型,基于 558M 个天然抗体序列进行训练,用于理解免疫应答的亲和力成熟过程。
- 提出 IgBert 和 IgT5 模型,能够处理成对和不成对的变量区域序列,推动抗体工程的多样化设计。
- 提出 Vaxformer 模型,用于生成 SARS-CoV-2 刺突蛋白,实验结果显示其优于现有模型,具有疫苗设计的潜力。
- 建立了抗病毒药物资源库,支持药物活性预测和虚拟筛选,促进抗病毒药物的研究。
- 提出层次训练范式 (HTP) 用于抗体序列结构的联合设计,结合几何图神经网络和蛋白质语言模型,取得优异性能。
- 基于生成模型的方法成功设计出能够中和 SARS-CoV-2 病毒的抗体,提升了设计效率和灵活性。
❓
延伸问答
AVIDa-hIL6 数据集的主要用途是什么?
AVIDa-hIL6 数据集用于预测抗体-抗原相互作用。
AntiBERTy 语言模型是如何训练的?
AntiBERTy 语言模型基于 558M 个天然抗体序列进行训练。
Vaxformer 模型在疫苗设计中有什么优势?
Vaxformer 模型在生成 SARS-CoV-2 刺突蛋白方面表现优于现有模型,具有疫苗设计的潜力。
IgBert 和 IgT5 模型的特点是什么?
IgBert 和 IgT5 模型能够处理成对和不成对的变量区域序列,推动抗体工程的多样化设计。
层次训练范式 (HTP) 的目的是什么?
层次训练范式 (HTP) 用于抗体序列结构的联合设计,结合几何图神经网络和蛋白质语言模型。
这项研究如何促进抗病毒药物的开发?
研究建立了抗病毒药物资源库,支持药物活性预测和虚拟筛选,促进抗病毒药物的研究。
➡️