生物基础模型之间的多模态迁移学习
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了一个多模态模型,通过利用来自不同预训练模态特定编码器的信息将 DNA、RNA 和蛋白质连接起来,展示了该模型在预测多个 RNA 转录本的表达差异方面的能力,同时在多个模态之间实现了高效的知识传递,为新的多模态基因表达方法铺平了道路。
研究人员提出了MolBind框架,利用多模态学习将分子和自然语言描述整合到药物发现中。他们通过对比学习训练多模态编码器,实现了多模态语义对齐。MolBind-M4是一个高质量的数据集,包含图-语言、构象-语言、图-构象和构象-蛋白质配对数据,用于MolBind的有效预训练。MolBind展示了优越的零样本学习性能,能够捕捉多种模态的潜在语义。