小红花·文摘

本文介绍了MathHay自动化基准测试，用于评估模型在长文本中的数学推理能力。结果显示，表现最佳的模型Gemini-1.5-Pro-002准确率仅为51.26%，说明该领域仍需改进。