研究显示,当前天然小分子化学空间的探索不足10%,且90%的质谱图因缺乏注释而无法利用。捷克科学院团队开发的DreaMS模型通过自监督学习从7亿条质谱数据中提取分子特征,显著提高了质谱注释的准确性,为新药发现和疾病诊断提供了重要资源。
机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。
质谱分析是现代化学研究的重要技术,高分辨率质谱提高了分析精度。俄罗斯科学院的研究人员开发了机器学习驱动的MEDUSA Search引擎,能够在TB级质谱数据中发现未知化学反应,降低实验成本并扩展化学认知。该方法通过同位素分布搜索算法自动生成反应假设,推动有机化学的发展。
单细胞蛋白质组学(SCP)研究单个细胞内蛋白质表达的多样性。近期《Nature》发表的研究表明,科学家利用新型质谱技术成功量化了单个HeLa细胞中一半的蛋白质组,吞吐量达到50-120个细胞/天。这一进展为细胞异质性研究提供了新工具,推动个性化医学和疾病机制的理解。
本研究解决了从质谱数据中生成关于生命起源假设的挑战,特别是在存在环境污染物和光谱峰复杂性的问题时。提出的AstroAgents系统通过多个协作智能体的合作,有效地分析并生成可行的假设,实验结果显示36%的假设被认为是合理的,其中66%是全新的。此工作为未来的行星科学研究提供了新的思路和方法。
FIORA是一种开源图神经网络,旨在通过模拟分子键断裂来预测化合物的质谱。该模型通过局部分子邻域学习断裂模式,显著提高了预测质量,尤其在保留时间和碰撞截面方面。FIORA的模块化设计支持多种预测目标,并在多个数据集上优于现有算法,为非靶向代谢组学提供了新的工具,推动了化合物鉴定的进展。
DeepSearch是一种基于深度学习的端到端数据库搜索方法,旨在提高质谱蛋白质组学中肽段的鉴定率。与传统方法相比,DeepSearch采用数据驱动的评分机制,能够有效分析可变翻译后修饰。研究表明,DeepSearch在多种数据集上表现出色,具有高准确性和稳健性,为质谱数据库搜索提供了新思路。
本研究针对MS/MS光谱注释中缺乏结构标注的问题,提出了一种基于骨架的全新分子结构生成方法MADGEN。该方法通过两个阶段实现:首先通过对比学习进行骨架检索,然后基于骨架并结合光谱信息生成最终分子。研究结果表明,该方法能有效减少分子生成搜索空间,提高生成准确性,具有重要的应用潜力。
华盛顿大学研究人员开发了Casanovo机器学习模型,可将质谱中的峰序列转换为肽序列。使用Transformer神经网络架构,在3000万个标记光谱上进行了训练。Casanovo在跨物种基准数据集上表现优于其他方法,并改善了免疫肽组学和宏蛋白质组学实验的分析。研究发表在《Nature Communications》上。Casanovo还可用于抗体测序和其他应用。未来计划对Casanovo进行微调以适应不同的裂解酶。
本文介绍了一种基于机器学习的方法来预测分子红外光谱,能够获得非常精确的机器学习模型。该方法在甲醇分子、含有多达200个原子的正构烷和质子化的丙氨酸三肽的情况下,将其应用于模拟红外光谱,并发现与理论和实验光谱具有出色的一致性。
完成下面两步后,将自动完成登录并继续当前操作。