MathHay: An Automated Benchmark for Mathematical Reasoning in Long Texts

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文介绍了MathHay自动化基准测试,用于评估模型在长文本中的数学推理能力。结果显示,表现最佳的模型Gemini-1.5-Pro-002准确率仅为51.26%,说明该领域仍需改进。

🎯

关键要点

  • 本文提出了MathHay自动化基准测试,用于评估模型在长文本中的数学推理能力。
  • MathHay基准测试不仅评估信息检索能力,还要求模型具备复杂的数学推理能力。
  • 实验结果显示,表现最佳的模型Gemini-1.5-Pro-002在长文本数学推理方面的准确率仅为51.26%。
  • 结果表明,长文本中的数学推理能力仍需改进。
➡️

继续阅读