量子位 ·

8B模型做生物实验：实验步骤顺序不乱、剂量无幻觉｜ICLR 2026

💡 原文中文，约3900字，阅读约需10分钟。

📝

内容提要

上海人工智能实验室与复旦、上海交通大学团队提出了Thoth模型，旨在生成可执行的生物实验protocol。该模型通过结构化推理，确保实验步骤的合理性和准确性。团队构建的SciRecipe数据集涵盖27个生物学领域，提升了实验方案生成的可靠性。Thoth在多个评估中表现优异，标志着AI在生命科学研究中的新应用方向。

🎯

关键要点

上海人工智能实验室与复旦、上海交通大学团队提出了Thoth模型，旨在生成可执行的生物实验protocol。
Thoth模型通过结构化推理，确保实验步骤的合理性和准确性。
团队构建的SciRecipe数据集涵盖27个生物学领域，提升了实验方案生成的可靠性。
Thoth在多个评估中表现优异，标志着AI在生命科学研究中的新应用方向。
Thoth的设计包括Sketch-and-Fill推理范式和SCORE评估机制，确保生成的protocol在结构、顺序和语义上都符合实验要求。
Thoth的训练过程采用Knowledge-to-Action策略，模拟人类研究员的学习过程，逐步从知识积累到生成可执行实验方案。
实验结果显示，Thoth在主要指标上取得了SOTA表现，优于其他闭源和开源模型。
Thoth不仅在protocol生成上表现突出，还能泛化到其他生物医学推理任务，显示出其广泛的应用潜力。

🔎

延伸解读

Thoth模型的创新设计

Thoth模型通过Sketch-and-Fill推理范式，将实验protocol生成分为分析、抽象和生成三个阶段。这种结构化方法确保了每一步的逻辑性和可执行性，避免了传统模型中常见的步骤混乱和参数错误。这样的设计不仅提升了生成的protocol质量，也为生物实验的复现提供了更可靠的基础。

SciRecipe数据集的重要性

SciRecipe数据集的构建为Thoth模型提供了丰富的训练基础，涵盖27个生物学领域的高质量protocol。这一数据集不仅提升了模型的理解能力，还扩展了其在实际实验工作流中的应用潜力。通过真实实验场景的覆盖，SciRecipe使得模型能够更好地应对复杂的实验问题，增强了其实用性。

评估机制的突破

Thoth模型采用的SCORE评估机制，从实验可执行性的角度出发，评估生成protocol的步骤粒度、顺序和语义准确性。这一创新使得模型不仅关注文本的相似度，更加注重生成内容的实际应用效果，标志着AI在科学研究中的评估标准向更高层次迈进。

❓

延伸问答

Thoth模型的主要目的是什么？

Thoth模型旨在生成可执行的生物实验protocol，确保实验步骤的合理性和准确性。

SciRecipe数据集的特点是什么？

SciRecipe数据集涵盖27个生物学领域，包含约12K条高质量实验protocol，提升了实验方案生成的可靠性。

Thoth模型如何确保生成的protocol符合实验要求？

Thoth通过Sketch-and-Fill推理范式和SCORE评估机制，确保生成的protocol在结构、顺序和语义上都符合实验要求。

Thoth模型在评估中表现如何？

Thoth在多个评估中表现优异，取得了SOTA表现，优于其他闭源和开源模型。

Thoth模型的训练过程是怎样的？

Thoth采用Knowledge-to-Action策略，分为预训练、监督微调和强化学习三个阶段，模拟人类研究员的学习过程。

Thoth模型的应用潜力有哪些？

Thoth不仅在protocol生成上表现突出，还能泛化到其他生物医学推理任务，显示出广泛的应用潜力。

🏷️