浙江大学的研究团队提出了一种名为InstructProtein的模型,通过知识指令对齐蛋白质语言和人类语言,实现了双向生成能力。该模型在蛋白质序列理解和设计方面优于现有的大语言模型。研究人员使用UniProtKB构建了蛋白质知识图谱,并通过指令数据集进行模型微调。InstructProtein能够准确预测蛋白质的功能和位置,对蛋白质工程和药物发现具有重要意义。该研究为蛋白质大模型的发展提供了新的思路和方法。
本研究提出了一种新颖的方法Prot2Text,使用图神经网络和大型语言模型在编码器-解码器框架中,以自由文本形式预测蛋白质的功能。该多模态方法综合蛋白质序列、结构和文本注释等多种数据类型,提供了详细准确的描述。通过从SwissProt中提取多模态蛋白质数据集对模型进行评估,结果表明了多模态模型的转变性影响,特别是图神经网络和大型语言模型的融合。
完成下面两步后,将自动完成登录并继续当前操作。