小红花·文摘

浙江大学的研究团队提出了一种名为InstructProtein的模型，通过知识指令对齐蛋白质语言和人类语言，实现了双向生成能力。该模型在蛋白质序列理解和设计方面优于现有的大语言模型。研究人员使用UniProtKB构建了蛋白质知识图谱，并通过指令数据集进行模型微调。InstructProtein能够准确预测蛋白质的功能和位置，对蛋白质工程和药物发现具有重要意义。该研究为蛋白质大模型的发展提供了新的思路和方法。

入选ACL2024主会 | InstructProtein：利用知识指令对齐蛋白质语言与人类语言

HyperAI超神经 ·

本研究提出了一种新颖的方法Prot2Text，使用图神经网络和大型语言模型在编码器-解码器框架中，以自由文本形式预测蛋白质的功能。该多模态方法综合蛋白质序列、结构和文本注释等多种数据类型，提供了详细准确的描述。通过从SwissProt中提取多模态蛋白质数据集对模型进行评估，结果表明了多模态模型的转变性影响，特别是图神经网络和大型语言模型的融合。

InstructProtein: 通过知识指导对齐人类和蛋白质语言

BriefGPT - AI 论文速递 ·