本研究创建了一个奥林匹克级数学基准,用于挑战大型语言模型。基准包含4428个经过严格注释的竞赛题,涵盖33个领域和10个难度等级。研究表明,即使是最先进的模型在高难度数学问题上仍有困难。
完成下面两步后,将自动完成登录并继续当前操作。