本文提出了DeepMath-Creative基准,用于评估大型语言模型在数学创造力方面的表现,涵盖代数、几何和分析等领域。实验结果显示,最佳模型O3 Mini在本科级任务上的准确率仅为70%,在复杂问题上的表现更差,表明现有模型依赖于记忆重组,而非真正的创造性。
完成下面两步后,将自动完成登录并继续当前操作。