DISCOVERYWORLD:开发和评估自动科学发现代理的虚拟环境
原文中文,约400字,阅读约需1分钟。发表于: 。开发和评估 AI 代理的端到端科学推理能力具有挑战性,本文介绍了 DISCOVERYWORLD,这是第一个用于开发和评估代理执行完整的新颖科学发现循环能力的虚拟环境,通过包含不同挑战任务,覆盖放射性同位素约会、火箭科学和蛋白质组学等多个主题,鼓励培养一般的发现技能而非特定任务的解决方案,提供了自动度量指标来评估性能,发现在 DISCOVERYWORLD...
本文介绍了DISCOVERYWORLD,一个用于开发和评估AI代理的虚拟环境,通过挑战任务培养发现技能。强基线代理在DISCOVERYWORLD任务中遇到困难,可能加速代理的科学发现能力的发展和评估。