HyperAI超神经 ·

PLM重大突破！上海交大与上海AI Lab最新成果入选NeurIPS 24，ProSST有效整合蛋白质结构信息

💡 原文中文，约4900字，阅读约需12分钟。

📝

内容提要

蛋白质的功能与其三维结构密切相关。科学家们开发了预训练的蛋白质语言模型ProSST，结合结构信息以提高预测准确性。ProSST在1,880万蛋白质结构数据上预训练，采用解耦注意力机制，显著提升了热稳定性和金属离子结合等任务的预测性能，成为蛋白质研究的重要工具。

🎯

关键要点

蛋白质的功能与其三维结构密切相关。
科学家们开发了预训练的蛋白质语言模型ProSST，结合结构信息以提高预测准确性。
ProSST在1,880万蛋白质结构数据上预训练，采用解耦注意力机制。
ProSST在热稳定性和金属离子结合等任务的预测性能显著提升。
ProSST模型架构包括结构量化模块和序列-结构解耦注意力机制。
ProSST的参数量为110M，远小于经典模型，但在下游任务中表现最佳。
ProSST在ProteinGym基准测试中排名第一，首次实现零样本突变性能预测Spearman相关性超过0.5。
研究团队使用AlphaFoldDB和CATH43-S40等数据集进行无监督预训练。
ProSST的结构量化模块将蛋白质结构转化为离散的结构元，提升了局部结构的表征能力。
ProSST的解耦注意力机制使模型能够学习氨基酸序列与结构之间的复杂关系。
ProSST在监督学习任务中表现优异，获得多个第一名和第二名。
PLM研究主要分为检索增强型和多模态PLM两大方向，ProSST属于后者。
PLM逐渐成为生命科学领域的重要工具，具有巨大的应用潜力。

❓

延伸问答

ProSST模型的主要创新点是什么？

ProSST模型结合了蛋白质结构信息和氨基酸序列，通过解耦注意力机制有效整合这两类信息，显著提升了预测性能。

ProSST在蛋白质研究中有哪些应用？

ProSST在热稳定性预测、金属离子结合预测、蛋白质定位预测和GO注释预测等任务中表现优异。

ProSST的参数量与其他模型相比如何？

ProSST的参数量为110M，远小于经典模型ESM系列的650M，但在下游任务中表现最佳。

ProSST如何处理蛋白质结构信息？

ProSST通过结构量化模块将蛋白质结构转化为离散的结构元，并与氨基酸序列一起输入模型。

ProSST在ProteinGym基准测试中的表现如何？

ProSST在ProteinGym基准测试中排名第一，首次实现零样本突变性能预测Spearman相关性超过0.5。

ProSST的解耦注意力机制有什么作用？

解耦注意力机制使模型能够学习氨基酸序列与结构之间的复杂关系，从而提高模型的性能和稳定性。

🏷️

继续阅读

阿里开源Open Code Review：一款AI代码评审命令行工具
阿里巴巴开源的Open Code Review（OCR）是一款AI代码审查工具，能够自动审查Git提交和代码变更。它通过分析代码库，识别潜在的空指针、线程...
智源&清华合作成果登上Science：脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
研究表明，睡眠中的记忆重激活影响睡眠动态，提供了“记忆-睡眠”双向作用的新证据。智源研究院与清华大学的研究发现，负向记忆再激活加剧睡眠碎片化，而正向记忆再...
国星宇航与腾讯云签署“星算”计划战略合作协议，携手领航AI云服务新生态
成都国星宇航与腾讯云签署战略合作协议，聚焦“星算”AI云服务，推动技术共创与生态建设，深化云服务与AI技术融合，助力数字经济发展。
Winxvideo AI 二十周年限免：视频压缩、本地AI提升画质、防抖
Winxvideo AI 正在进行二十周年限免活动，用户只需提供邮箱即可获取注册码。该软件集视频增强、图片修复、格式转换等功能于一体，支持超分辨率提升、帧...
WPS笔记正式发布：AI贯穿记录、整理与复用全过程
金山办公于6月5日发布了AI笔记产品WPS笔记，旨在提升个人知识管理。该产品支持语音、图片和文字等多种信息录入方式，强调信息的主动理解与复用。通过多级AI...
垃圾桶里捡零件，弹幕里接需求，B 站有群人在用 AI 野生造产品
胡彦斌利用AI编程开发了粉丝社区App「彦火」，呼吁粉丝参与共创。广西学生JXW从垃圾桶捡镜子制作智能眼镜，获得关注。听障者李朋程开发语训App，帮助听障...