RoMath:罗马尼亚的数学推理基准
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了现有数学推理基准仅集中于英语,忽视其他语言的问题。论文提出了RoMath,一个包含三个数据集的罗马尼亚数学推理基准,旨在改善非英语语言模型并促进多语言人工智能的发展。研究结果显示,专注于低资源语言的模型在推动非英语数学文本理解方面具有重要潜力。
Mathador-LM是一个新的基准,用于评估大型语言模型在数学推理上的表现。该基准通过基本算术运算来达到目标数字,并解决了测试集泄露到训练数据中的问题。最新的评估结果显示,现代模型在Mathador-LM上面临困难,得分低于平均5年级学生。