该研究提出了LLM-SRBench新基准,旨在评估大型语言模型在科学方程发现中的能力,克服现有基准的局限性。基准包含239个挑战性问题,测试模型的推理和数据驱动发现能力。研究表明,现有方法的最佳符号准确率仅为31.5%,凸显了该领域的复杂性。
完成下面两步后,将自动完成登录并继续当前操作。