RoMath:罗马尼亚的数学推理基准
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
Mathador-LM是一个新的基准,用于评估大型语言模型在数学推理上的表现。该基准通过基本算术运算来达到目标数字,并解决了测试集泄露到训练数据中的问题。最新的评估结果显示,现代模型在Mathador-LM上面临困难,得分低于平均5年级学生。
🎯
关键要点
- Mathador-LM是评估大型语言模型在数学推理表现的新基准。
- 该基准结合了规则解释、规划和问题求解,受Mathador游戏启发。
- 目标是通过基本算术运算达到目标数字,使用给定的基本数字和简单规则。
- 基准动态生成实例,以符合目标难度级别,缓解测试集泄露问题。
- 对开源和闭源大型语言模型进行了全面评估,发现现代模型在Mathador-LM上表现不佳。
- 现代模型得分显著低于平均5年级学生,与其在其他数学推理基准上的表现形成对比。
🏷️
标签
➡️