RoMath:罗马尼亚的数学推理基准

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

Mathador-LM是一个新的基准,用于评估大型语言模型在数学推理上的表现。该基准通过基本算术运算来达到目标数字,并解决了测试集泄露到训练数据中的问题。最新的评估结果显示,现代模型在Mathador-LM上面临困难,得分低于平均5年级学生。

原文中文,约400字,阅读约需1分钟。
阅读原文