小红花·文摘

该研究提出了LLM-SRBench新基准，旨在评估大型语言模型在科学方程发现中的能力，克服现有基准的局限性。基准包含239个挑战性问题，测试模型的推理和数据驱动发现能力。研究表明，现有方法的最佳符号准确率仅为31.5%，凸显了该领域的复杂性。