机器之心 ·

TOMG-Bench：大语言模型开放域分子生成新基准

💡 原文中文，约6100字，阅读约需15分钟。

📝

内容提要

科学家提出了新的基准测试TOMG-Bench，用于评估大型语言模型（LLM）在分子领域的生成能力。该基准涵盖分子编辑、优化和定制生成三个主要任务，旨在克服传统分子发现方法的局限性，推动LLM在该领域的应用。实验结果表明，开源模型在分子生成任务中表现优异，TOMG-Bench为评估LLM提供了新的视角。

🎯

关键要点

科学家提出了新的基准测试TOMG-Bench，用于评估大型语言模型（LLM）在分子领域的生成能力。
TOMG-Bench涵盖分子编辑、优化和定制生成三个主要任务，旨在克服传统分子发现方法的局限性。
现有的分子-文本对齐面临数据集不足、翻译任务局限性和无法生成新分子结构等挑战。
TOMG-Bench的任务是开放域的，允许LLM生成满足特定要求的分子结构，体现其泛化能力和创造力。
每个主要任务下有三个子任务，涵盖分子发现的多个关键环节，每个子任务包含5000个测试样本。
OpenMolIns是为TOMG-Bench开发的指令微调数据集，帮助LLM更好地理解和执行开放域分子生成任务。
实验结果显示，开放域分子生成任务具有挑战性，开源模型在分子生成任务中表现优异。
数据规模对LLM在TOMG-Bench上的性能有显著影响，较大的数据集可以提升模型性能。
TOMG-Bench可以反映LLM的领域泛化能力，帮助发现现有模型的不足之处。
TOMG-Bench是第一个用于评估LLM开放域分子生成能力的基准，提供了改进的思路和方向。

🔎

延伸解读

TOMG-Bench的创新意义

TOMG-Bench作为第一个评估大型语言模型在开放域分子生成能力的基准，填补了现有分子-文本对齐方法的空白。它不仅关注分子生成的准确性，还强调模型的泛化能力和创造力，这对于推动分子发现领域的进步具有重要意义。

数据规模对模型性能的影响

实验结果表明，数据规模对LLM在TOMG-Bench上的表现有显著影响。较大的数据集能够提升模型的生成能力，这提示研究者在训练模型时应重视数据的多样性和规模，以提高模型在实际应用中的有效性。

开放域生成的挑战

尽管TOMG-Bench展示了LLM在分子生成中的潜力，但开放域生成任务仍然具有挑战性。即使是先进的模型，其成功率也低于25%，这表明在从零开始生成分子结构方面，仍需进一步的研究和改进。

❓

延伸问答

TOMG-Bench的主要任务是什么？

TOMG-Bench的主要任务包括分子编辑、分子优化和定制分子生成。

TOMG-Bench如何评估大型语言模型的性能？

TOMG-Bench通过多个子任务和测试样本来评估LLM的生成能力，包括成功率、相似性和有效性等指标。

TOMG-Bench解决了哪些传统分子发现方法的局限性？

TOMG-Bench克服了数据集不足、翻译任务局限性和无法生成新分子结构等挑战。

OpenMolIns数据集的作用是什么？

OpenMolIns数据集旨在帮助LLM更好地理解和执行开放域分子生成任务，提升其在TOMG-Bench上的性能。

实验结果显示开源模型在TOMG-Bench上的表现如何？

实验结果表明，开源模型在分子生成任务中表现优异，甚至超过了一些私有模型。

TOMG-Bench对LLM的领域泛化能力有什么启示？

TOMG-Bench可以反映LLM的领域泛化能力，帮助发现现有模型的不足之处，并提供改进思路。

🏷️