小红花·文摘

极道 ·

本研究创建了一个奥林匹克级数学基准，用于挑战大型语言模型。基准包含4428个经过严格注释的竞赛题，涵盖33个领域和10个难度等级。研究表明，即使是最先进的模型在高难度数学问题上仍有困难。

BriefGPT - AI 论文速递 ·