研究显示,大型语言模型在美国数学奥林匹克竞赛(USAMO)中的表现不佳,平均得分不足5%。尽管在数值答案方面表现良好,但在数学推理和证明上仍有显著不足,需要改进训练方法以增强推理能力。
完成下面两步后,将自动完成登录并继续当前操作。