入选ACL2024主会 | InstructProtein:利用知识指令对齐蛋白质语言与人类语言
原文中文,约5400字,阅读约需13分钟。发表于: 。2023 年 4 月,发表于 Science 的一项研究显示,来自 meta AI 团队的研究者采用能够涌现出演化信息的大语言模型,开发了一个从序列到结构的预测器 ESMFold,对单序列蛋白的预测精度超过了 AlphaFold2,对有同源序列的蛋白的预测精度接近 AlphaFold2,且速度提升了一个数量级,该模型预测了 6...
浙江大学的研究团队提出了一种名为InstructProtein的模型,通过知识指令对齐蛋白质语言和人类语言,实现了双向生成能力。该模型在蛋白质序列理解和设计方面优于现有的大语言模型。研究人员使用UniProtKB构建了蛋白质知识图谱,并通过指令数据集进行模型微调。InstructProtein能够准确预测蛋白质的功能和位置,对蛋白质工程和药物发现具有重要意义。该研究为蛋白质大模型的发展提供了新的思路和方法。