覆盖2亿分子质谱图,捷克科学院发布DreaMS模型,构建全球最大规模质谱数据集GeMS
💡
原文中文,约5200字,阅读约需13分钟。
📝
内容提要
研究显示,当前天然小分子化学空间的探索不足10%,且90%的质谱图因缺乏注释而无法利用。捷克科学院团队开发的DreaMS模型通过自监督学习从7亿条质谱数据中提取分子特征,显著提高了质谱注释的准确性,为新药发现和疾病诊断提供了重要资源。
🎯
关键要点
- 人类目前探索的天然小分子化学空间不足10%。
- 90%的质谱图因缺乏注释而无法利用,成为数据废墟。
- 液相色谱—串联质谱(LC-MS/MS)系统用于分子的高效分离和分析。
- 现有分析工具在未知天然分子面前存在显著局限性。
- 全球代谢组学数据库中仅有2%的MS/MS谱图成功注释。
- 捷克科学院团队开发的DreaMS模型通过自监督学习提高质谱注释准确性。
- DreaMS模型从7亿条质谱数据中提取分子特征,构建了超大规模质谱数据集GeMS。
- DreaMS模型在多种质谱注释任务中表现卓越,超越传统算法。
- DreaMS图谱整合了2.01亿条谱图,构建了超级分子网络。
- DreaMS模型采用自监督学习,能够从未标注的MS/MS光谱中提取分子表征。
- DreaMS在光谱相似性分析、分子指纹预测和化学性质预测等任务中表现优异。
- DreaMS模型在含氟分子检测任务中展现出强泛化能力。
- 研究团队通过局部敏感哈希算法优化数据计算效率。
- DreaMS模型标志着质谱解析技术从单分子解码迈向全代谢组互联的新时代。
- 高校与企业共同推动小分子质谱解析与代谢组学研究的技术革新。
- 这些创新在癌症早期诊断、心血管疾病预后预测等领域展现巨大潜力。
❓
延伸问答
DreaMS模型的主要功能是什么?
DreaMS模型通过自监督学习从未标注的质谱图中提取分子特征,提高质谱注释的准确性。
GeMS数据集的规模和来源是什么?
GeMS数据集整合了2.01亿条质谱图,来源于全球天然产物社交分子网络(GNPS),是史上规模最大的质谱数据集。
为什么现有的质谱分析工具存在局限性?
现有工具过度依赖有限的光谱库和人工规则,面对80%以上的未知天然分子时常常无库可查。
DreaMS模型在质谱注释任务中表现如何?
DreaMS模型在光谱相似性分析、分子指纹预测和化学性质预测等任务中表现卓越,超越了传统算法。
DreaMS模型如何提高质谱注释的准确性?
DreaMS模型通过自监督学习从7亿条质谱数据中提取分子特征,能够从未标注的MS/MS光谱中发现隐藏的结构规律。
当前天然小分子化学空间的探索程度如何?
人类目前探索的天然小分子化学空间尚不足10%。
➡️