2025美国最新奥数题,让大模型集体翻车,DeepSeek R1平均分也不到5% AI生成摘要 研究显示,大型语言模型在美国数学奥林匹克竞赛(USAMO)中的表现不佳,平均得分不足5%。尽管在数值答案方面表现良好,但在数学推理和证明上仍有显著不足,需要改进训练方法以增强推理能力。 USAMO deepseek r1 大型语言模型 数学推理 美国 表现 训练方法