MolBind:语言、分子和蛋白质的多模态对齐
原文中文,约400字,阅读约需1分钟。发表于: 。生物学和化学领域的最新进展已经利用多模态学习,将分子及其自然语言描述整合到药物发现中。然而,当前的预训练框架局限于两种模态,并且设计一个能够处理不同模态(如自然语言、2D 分子图、3D 分子构象和 3D 蛋白质)的统一网络仍具有挑战性。在这项工作中,我们提出了 MolBind,这是一个通过对比学习训练多模态编码器的框架,将所有模态映射到共享特征空间以实现多模态语义对齐。为了促进...
研究提出了MolBind框架,利用多模态学习将分子及其自然语言描述整合到药物发现中。通过对比学习训练多模态编码器,实现多模态语义对齐。构建了高质量数据集MolBind-M4,包含图-语言、构象-语言、图-构象和构象-蛋白质配对数据。MolBind展示了优越的零样本学习性能,能够捕捉多种模态的潜在语义。