💡
原文中文,约6100字,阅读约需15分钟。
📝
内容提要
科学家提出了新的基准测试TOMG-Bench,用于评估大型语言模型(LLM)在分子领域的生成能力。该基准涵盖分子编辑、优化和定制生成三个主要任务,旨在克服传统分子发现方法的局限性,推动LLM在该领域的应用。实验结果表明,开源模型在分子生成任务中表现优异,TOMG-Bench为评估LLM提供了新的视角。
🎯
关键要点
- 科学家提出了新的基准测试TOMG-Bench,用于评估大型语言模型(LLM)在分子领域的生成能力。
- TOMG-Bench涵盖分子编辑、优化和定制生成三个主要任务,旨在克服传统分子发现方法的局限性。
- 现有的分子-文本对齐面临数据集不足、翻译任务局限性和无法生成新分子结构等挑战。
- TOMG-Bench的任务是开放域的,允许LLM生成满足特定要求的分子结构,体现其泛化能力和创造力。
- 每个主要任务下有三个子任务,涵盖分子发现的多个关键环节,每个子任务包含5000个测试样本。
- OpenMolIns是为TOMG-Bench开发的指令微调数据集,帮助LLM更好地理解和执行开放域分子生成任务。
- 实验结果显示,开放域分子生成任务具有挑战性,开源模型在分子生成任务中表现优异。
- 数据规模对LLM在TOMG-Bench上的性能有显著影响,较大的数据集可以提升模型性能。
- TOMG-Bench可以反映LLM的领域泛化能力,帮助发现现有模型的不足之处。
- TOMG-Bench是第一个用于评估LLM开放域分子生成能力的基准,提供了改进的思路和方向。
➡️