机器之心 ·

Nature子刊新登，如何检测小分子机器学习中的覆盖率偏差

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

机器学习在小分子领域的应用逐渐增多，但许多数据集缺乏生物分子结构的统一覆盖，限制了模型的预测能力。德国研究团队提出了一种基于最大公共边子图的距离度量，以评估数据集与已知分子分布的差异，旨在提升未来数据集的构建和模型性能。

🎯

🔎

研究表明，许多公共数据集在生物分子结构的覆盖上存在显著不足，这直接影响了机器学习模型的预测能力。未来在构建数据集时，需确保其能代表生物分子结构的多样性，以提高模型的泛化能力。

德国研究团队提出的基于最大公共边子图的距离度量，为评估数据集与已知分子分布的差异提供了新方法。这种方法不仅能更好地捕捉分子结构的相似性，还能为未来数据集的优化提供指导。

如果训练数据集缺乏特定化合物类别的样本，机器学习模型在预测这些类别时可能表现不佳。研究强调，分析训练数据的分布是避免模型性能问题的关键，尤其是在小分子领域。

❓

机器学习在小分子领域的应用包括毒性预测、配体结合和药代动力学等。

研究团队提出了一种基于最大公共边子图的距离度量，以评估数据集与已知分子分布的差异。

许多数据集缺乏生物分子结构的统一覆盖，导致模型的预测能力受到限制。

团队分析了10个常用的公共分子结构数据集。

建议在小分子上训练的大型模型中纳入训练数据分布分析，以避免潜在的性能问题。

MCES边界的C++实现可以与RDKit的RASCAL实现相当，适用于机器学习中的分子结构距离测量。

🏷️