美团 LongCat 发布 AMO-Bench:突破 AIME 评测饱和困境,重新定义 LLM 数学上限

美团 LongCat 发布 AMO-Bench:突破 AIME 评测饱和困境,重新定义 LLM 数学上限

💡 原文中文,约4300字,阅读约需11分钟。
📝

内容提要

美团LongCat团队推出AMO-Bench,包含50道高难度原创数学推理题,旨在提升大模型的推理能力。目前顶尖模型在该评测中的表现仍未及格,显示出其在复杂推理任务上的局限性。AMO-Bench为行业提供了新的评测标准,未来将持续更新。

🎯

关键要点

  • 美团LongCat团队推出AMO-Bench,包含50道高难度原创数学推理题。
  • AMO-Bench旨在提升大模型的推理能力,当前顶尖模型在该评测中的表现仍未及格。
  • 数学推理任务是衡量模型推理能力的“黄金标尺”,现有评测体系面临性能饱和问题。
  • AMO-Bench提供了新的评测标准,包含专家原创题目,难度对标或超越IMO竞赛。
  • AMO-Bench的评分方案准确率高达99.2%,为大规模自动化评测提供保障。
  • 当前大模型在AMO-Bench上的表现揭示了其在复杂推理任务上的局限性。
  • 顶尖模型如GPT-5-Thinking的正确率仅为52.4%,大多数模型低于40%。
  • AMO-Bench的题目覆盖五大核心领域,解题复杂度显著升级。
  • 高得分模型依赖更多token输出,推理效率与输出长度呈正相关。
  • 未来将持续更新AMO-Bench,扩大题目覆盖类型与优化评测方案。

延伸问答

AMO-Bench的主要目的是什么?

AMO-Bench旨在提升大模型的推理能力,提供新的数学推理评测标准。

AMO-Bench包含多少道题目,难度如何?

AMO-Bench包含50道高难度原创数学推理题,难度对标或超越IMO竞赛。

当前顶尖模型在AMO-Bench上的表现如何?

目前顶尖模型在AMO-Bench上的表现仍未及格,最高正确率仅为52.4%。

AMO-Bench的评分方案有什么特点?

AMO-Bench的评分方案准确率高达99.2%,为大规模自动化评测提供保障。

AMO-Bench如何解决现有评测体系的瓶颈?

AMO-Bench通过提供高难度原创题目,避免数据泄露风险,提升评测的区分度。

未来AMO-Bench会有什么更新计划?

未来将持续更新AMO-Bench,扩大题目覆盖类型与优化评测方案。

➡️

继续阅读