AI从业者怎么做Science?清华大学AIR周浩:从文本生成到蛋白质设计的跨界探索
💡
原文中文,约5200字,阅读约需13分钟。
📝
内容提要
在北京智源大会「AI for Science」分论坛上,清华大学智能产业研究院副研究员周浩介绍了面向科学发现的生成式人工智能的研究内容和成果,包括分子生成和蛋白质设计方面的丰富经验和多个模型的开发。他们的研究在分子生成和蛋白质设计领域具有重要意义。
🎯
关键要点
- 周浩教授在北京智源大会上介绍了生成式人工智能在科学发现中的应用。
- 研究重点从文本生成转向分子生成和蛋白质设计,积累了丰富经验。
- 人工智能可以通过噪声生成完整图像,类似方法用于蛋白质设计。
- 分子数据具有特异性,处理难度大,涉及离散和连续元素。
- 文本和图像模型在蛋白质领域不能完全复用,分子数据对噪声敏感。
- 分子数据的顺序缺失使得生成分子结构面临困难。
- 周浩教授团队在数据结构、生成算法等方面进行了深入研究。
- 提出保留二面角自由度的分子三维结构表示方法。
- 通过谱空间表示蛋白质的几何和化学信息,提升信息捕捉效率。
- 开发MARS模型进行多目标分子优化采样,提升分子设计能力。
- 提出EquiFM模型在分子生成基准测试中表现优异。
- GeoBFN模型将分子数据转换到高斯空间,生成合法分子。
- 提出从靶点到分子的生成分解方法,解决小分子生成数据匮乏问题。
- MolBlend模型实现二维和三维分子的联合预训练。
- 开发ESM-AA模型进行蛋白质的通用预训练,表现优于其他模型。
- 周浩教授在人工智能领域有丰富的研究背景和多项荣誉。
❓
延伸问答
周浩教授在智源大会上介绍了哪些生成式人工智能的应用?
周浩教授介绍了生成式人工智能在分子生成和蛋白质设计方面的应用和研究成果。
分子数据处理面临哪些挑战?
分子数据处理面临特异性、模型复用困难和顺序缺失等挑战。
周浩教授团队提出了什么新方法来表示分子的三维结构?
他们提出了一种保留二面角自由度的分子三维结构表示方法,移除其他冗余自由度。
MARS模型的主要功能是什么?
MARS模型用于多目标分子优化采样,提升分子设计能力。
周浩教授团队在蛋白质研究中采用了什么方法来捕捉几何和化学信息?
他们将蛋白质从实空间转换到谱空间,使用本征函数表示蛋白质的几何和化学信息。
ESM-AA模型在蛋白质预训练中有什么优势?
ESM-AA模型在蛋白质和小分子联合任务中表现优于其他单独预训练基座。
➡️