小红花·文摘

本文探讨了假设生成的关键问题，提出了HypoBench基准以评估大语言模型的假设生成能力。研究发现，现有方法能够识别有效模式，但在合成数据集上的表现仍需改进，为人工智能在科学发现中的应用提供了资源。