美团技术团队 ·

美团 LongCat 开源 General 365：树立推理评测新标尺

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

大模型在逻辑推理方面存在短板，尽管在专业知识测试中表现良好，但在日常场景的通用推理中准确率较低。美团LongCat团队发布的General 365基准测试揭示了当前模型的真实能力，强调推理能力与专业知识的解耦。测试结果显示，主流模型普遍未能达到及格线，反映出其在复杂逻辑任务中的不足。

🎯

关键要点

大模型在逻辑推理方面存在短板，尽管在专业知识测试中表现良好，但在日常场景的通用推理中准确率较低。
美团LongCat团队发布的General 365基准测试揭示了当前模型的真实能力，强调推理能力与专业知识的解耦。
测试结果显示，主流模型普遍未能达到及格线，Gemini 3 Pro的准确率仅为62.8%。
General 365的设计目标是评估模型在日常场景下的通用推理水平，包含八个维度的核心挑战。
题目质量是评测基准可靠性的根基，General 365的种子题目经过严格的人工审核和多样性扩充，最终形成1460道高质量题目。
模型在“语义干扰”和“最优策略”上的得分普遍低于整体准确率，暴露出其在多步全局规划能力上的不足。
General 365将推理评测从专业知识依赖中剥离，直观展示了大模型在真实世界通用推理任务上的短板。

❓

延伸问答

General 365基准测试的主要目的是什么？

General 365的主要目的是评估模型在日常场景下的通用推理水平，强调推理能力与专业知识的解耦。

当前主流大模型在General 365测试中的表现如何？

主流大模型在General 365测试中的表现普遍较差，Gemini 3 Pro的准确率仅为62.8%，大多数模型未能达到及格线。

General 365包含哪些核心挑战？

General 365将推理任务拆解为八个维度的核心挑战，包括复杂约束、概率与不确定性等。

为什么大模型在逻辑推理方面存在短板？

大模型虽然在专业知识测试中表现良好，但在日常场景的通用推理中准确率较低，常常无法处理简单的逻辑题。

General 365的题目质量如何保证？

General 365的题目经过严格的人工审核和多样性扩充，最终形成1460道高质量题目，确保评测基准的可靠性。

General 365如何影响大模型的推理能力发展？

General 365通过剥离专业知识依赖，直观展示大模型在真实世界通用推理任务上的短板，推动模型向更高的智能水平发展。

🏷️

继续阅读

曝华为"白嫖"开源团队技术方案事件——网友评论总结 - 张善友
独立开发者布布宣布停止OpenHarmony-Avalonia项目，该项目旨在将Avalonia适配鸿蒙系统。华为未对此事件做出回应，社区对此存在明显分歧...
国产GPU组了个开源局，把SGLang等核心开发者都摇来了！
摩尔线程通过SGLang等开源框架，推动国产GPU在大模型推理中的应用。此次Meetup展示了SGLang与MUSA的结合，解决了算子优化和生产部署问题，...
腾讯开源 Agent 记忆技术方案，Token 消耗最高降低 61%
腾讯云开源的TencentDB Agent Memory提供记忆压缩能力，支持长短任务场景，最高可降低61% Token消耗，成功率提升51%。该方案通过...
顶配超 50 万，鸿蒙智行旗舰 MPV 智界 V9 发布，鸿蒙全家桶之外还有「3 大杀手锏」
鸿蒙智行的首款 MPV，献给预算充足的老板们。#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
行业财报 | 思科、爱立信、诺基亚、中兴通讯、康宁、亨通光电等全球8大通讯基础设施企业2026年第一季度业绩汇总
2026年第一季度，思科营收158.41亿美元，同比增长12%；爱立信净销售额下降10%；诺基亚销售额增长2%；中兴通讯收入增长6.13%；康宁销售额增长...
从政策到实践：支持人工智能在教育中的未来
教育领导者在实施人工智能时缺乏明确的政策指导。谷歌举办了AI政策与指导实验室，帮助教育者制定可行计划。参与者强调共享语言、同行学习和教师主导的重要性，未来...