💡 原文中文,约6100字,阅读约需15分钟。
📝

内容提要

科学家提出了新的基准测试TOMG-Bench,用于评估大型语言模型(LLM)在分子领域的生成能力。该基准涵盖分子编辑、优化和定制生成三个主要任务,旨在克服传统分子发现方法的局限性,推动LLM在该领域的应用。实验结果表明,开源模型在分子生成任务中表现优异,TOMG-Bench为评估LLM提供了新的视角。

🎯

关键要点

  • 科学家提出了新的基准测试TOMG-Bench,用于评估大型语言模型(LLM)在分子领域的生成能力。
  • TOMG-Bench涵盖分子编辑、优化和定制生成三个主要任务,旨在克服传统分子发现方法的局限性。
  • 现有的分子-文本对齐面临数据集不足、翻译任务局限性和无法生成新分子结构等挑战。
  • TOMG-Bench的任务是开放域的,允许LLM生成满足特定要求的分子结构,体现其泛化能力和创造力。
  • 每个主要任务下有三个子任务,涵盖分子发现的多个关键环节,每个子任务包含5000个测试样本。
  • OpenMolIns是为TOMG-Bench开发的指令微调数据集,帮助LLM更好地理解和执行开放域分子生成任务。
  • 实验结果显示,开放域分子生成任务具有挑战性,开源模型在分子生成任务中表现优异。
  • 数据规模对LLM在TOMG-Bench上的性能有显著影响,较大的数据集可以提升模型性能。
  • TOMG-Bench可以反映LLM的领域泛化能力,帮助发现现有模型的不足之处。
  • TOMG-Bench是第一个用于评估LLM开放域分子生成能力的基准,提供了改进的思路和方向。
➡️

继续阅读