美团技术团队 ·

美团 LongCat 发布 AMO-Bench：突破 AIME 评测饱和困境，重新定义 LLM 数学上限

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

美团LongCat团队推出AMO-Bench，包含50道高难度原创数学推理题，旨在提升大模型的推理能力。目前顶尖模型在该评测中的表现仍未及格，显示出其在复杂推理任务上的局限性。AMO-Bench为行业提供了新的评测标准，未来将持续更新。

🎯

❓

AMO-Bench旨在提升大模型的推理能力，提供新的数学推理评测标准。

AMO-Bench包含50道高难度原创数学推理题，难度对标或超越IMO竞赛。

目前顶尖模型在AMO-Bench上的表现仍未及格，最高正确率仅为52.4%。

AMO-Bench的评分方案准确率高达99.2%，为大规模自动化评测提供保障。

AMO-Bench通过提供高难度原创题目，避免数据泄露风险，提升评测的区分度。

未来将持续更新AMO-Bench，扩大题目覆盖类型与优化评测方案。

🏷️

MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
模块化：为什么LLM推理需要一种新型路由器 - 第三部分
Modular Cloud的路由层通过准备、过滤、评分、选择和执行五个阶段实现高效请求处理。该框架支持可组合插件，快速实现新路由优化，适应不同工作负载需求...
Gone in 60 minutes
It should have been the final straw. The new power couple of editorial failur...
20260605的胡言乱语
本文介绍了多种技术工具和方法，包括YAMLResume简历管理工具、终端中的cal命令、Shlink短链接服务、systemd timers替代cron、...
随想 - 20260605
本文介绍了多个技术主题，包括YAML简历管理工具、快速日历命令、MacBook加热技巧、自托管URL缩短器Shlink、将智能手机转为功能手机的体验、sy...
The Sonos Era 100 speaker is down to its lowest price in months
Whether you’re considering starting a Sonos speaker setup, or adding to an ex...