陶哲轩等60多位数学家推出新数学基准FrontierMath,旨在提升AI在数学领域的挑战能力。大模型如o1、Claude 3.5 Sonnet和GPT-4o在该基准下的解题率不足2%。新基准包含数百道原创高难度数学题,需专业数学家数小时解决,旨在反思现有基准的有效性,推动AI在高级数学推理能力上的进步。
完成下面两步后,将自动完成登录并继续当前操作。