2025美国最新奥数题，让大模型集体翻车，DeepSeek R1平均分也不到5%

AI生成摘要研究显示，大型语言模型在美国数学奥林匹克竞赛（USAMO）中的表现不佳，平均得分不足5%。尽管在数值答案方面表现良好，但在数学推理和证明上仍有显著不足，需要改进训练方法以增强推理能力。

USAMO deepseek r1 大型语言模型数学推理美国表现训练方法