RoMath:罗马尼亚的数学推理基准
Mathador-LM是一个新的基准,用于评估大型语言模型在数学推理上的表现。该基准通过基本算术运算来达到目标数字,并解决了测试集泄露到训练数据中的问题。最新的评估结果显示,现代模型在Mathador-LM上面临困难,得分低于平均5年级学生。
原文中文,约400字,阅读约需1分钟。
Mathador-LM是一个新的基准,用于评估大型语言模型在数学推理上的表现。该基准通过基本算术运算来达到目标数字,并解决了测试集泄露到训练数据中的问题。最新的评估结果显示,现代模型在Mathador-LM上面临困难,得分低于平均5年级学生。