本文介绍了MathHay自动化基准测试,用于评估模型在长文本中的数学推理能力。结果显示,表现最佳的模型Gemini-1.5-Pro-002准确率仅为51.26%,说明该领域仍需改进。
完成下面两步后,将自动完成登录并继续当前操作。