小红花·文摘

陶哲轩等60多位数学家推出新数学基准FrontierMath，旨在提升AI在数学领域的挑战能力。大模型如o1、Claude 3.5 Sonnet和GPT-4o在该基准下的解题率不足2%。新基准包含数百道原创高难度数学题，需专业数学家数小时解决，旨在反思现有基准的有效性，推动AI在高级数学推理能力上的进步。