覆盖2亿分子质谱图,捷克科学院发布DreaMS模型,构建全球最大规模质谱数据集GeMS
💡
原文中文,约5200字,阅读约需13分钟。
📝
内容提要
研究显示,当前天然小分子化学空间的探索不足10%,且90%的质谱图因缺乏注释而无法利用。捷克科学院团队开发的DreaMS模型通过自监督学习从7亿条质谱数据中提取分子特征,显著提高了质谱注释的准确性,为新药发现和疾病诊断提供了重要资源。
🎯
关键要点
- 人类目前探索的天然小分子化学空间不足10%。
- 90%的质谱图因缺乏注释而无法利用,成为数据废墟。
- 液相色谱—串联质谱(LC-MS/MS)系统用于分子的高效分离和分析。
- 现有分析工具在未知天然分子面前存在显著局限性。
- 全球代谢组学数据库中仅有2%的MS/MS谱图成功注释。
- 捷克科学院团队开发的DreaMS模型通过自监督学习提高质谱注释准确性。
- DreaMS模型从7亿条质谱数据中提取分子特征,构建了超大规模质谱数据集GeMS。
- DreaMS模型在多种质谱注释任务中表现卓越,超越传统算法。
- DreaMS图谱整合了2.01亿条谱图,构建了超级分子网络。
- DreaMS模型采用自监督学习,能够从未标注的MS/MS光谱中提取分子表征。
- DreaMS在光谱相似性分析、分子指纹预测和化学性质预测等任务中表现优异。
- DreaMS模型在含氟分子检测任务中展现出强泛化能力。
- 研究团队通过局部敏感哈希算法优化数据计算效率。
- DreaMS模型标志着质谱解析技术从单分子解码迈向全代谢组互联的新时代。
- 高校与企业共同推动小分子质谱解析与代谢组学研究的技术革新。
- 这些创新在癌症早期诊断、心血管疾病预后预测等领域展现巨大潜力。
➡️