MathHay: An Automated Benchmark for Mathematical Reasoning in Long Texts
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文介绍了MathHay自动化基准测试,用于评估模型在长文本中的数学推理能力。结果显示,表现最佳的模型Gemini-1.5-Pro-002准确率仅为51.26%,说明该领域仍需改进。
🎯
关键要点
- 本文提出了MathHay自动化基准测试,用于评估模型在长文本中的数学推理能力。
- MathHay基准测试不仅评估信息检索能力,还要求模型具备复杂的数学推理能力。
- 实验结果显示,表现最佳的模型Gemini-1.5-Pro-002在长文本数学推理方面的准确率仅为51.26%。
- 结果表明,长文本中的数学推理能力仍需改进。
➡️