基于METiS去新脂质库的脂质语言模型LipidBERT
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
ProtLLM是一个通用的跨模态大语言模型,用于处理自然语言文本与蛋白质交织在一起的复杂输入。通过训练ProtLLM的蛋白质作为单词的语言建模方法,模型能够预测自然语言和蛋白质。此外,通过构建大规模的交织蛋白质-文本数据集InterPT,ProtLLM能够理解蛋白质的重要知识。实验证明,ProtLLM在蛋白质中心任务和蛋白质语言任务上表现出卓越性能。
🎯
关键要点
- ProtLLM是一个通用的跨模态大语言模型,专注于蛋白质中心和蛋白质语言任务。
- 该模型具有动态蛋白质装配机制,能够处理复杂的自然语言和蛋白质交织输入。
- 通过基于蛋白质作为单词的语言建模方法,ProtLLM能够预测自然语言和蛋白质。
- 构建了大规模的交织蛋白质-文本数据集InterPT,用于预训练,包含结构化和非结构化数据源。
- ProtLLM在经典的监督蛋白质中心任务上表现卓越,并在蛋白质语言任务上展现零-shot和上下文学习能力。
➡️