小红花·文摘

本文提出了DeepMath-Creative基准，用于评估大型语言模型在数学创造力方面的表现，涵盖代数、几何和分析等领域。实验结果显示，最佳模型O3 Mini在本科级任务上的准确率仅为70%，在复杂问题上的表现更差，表明现有模型依赖于记忆重组，而非真正的创造性。