美团技术团队 ·

美团开源OIBench与CoreCodeBench：揭示大模型编程能力的真实水平

💡 原文中文，约11600字，阅读约需28分钟。

📝

内容提要

当前大语言模型（LLMs）在编程能力上存在宣传与现实的差距。尽管在传统基准测试中表现良好，但在复杂场景下通过率显著下降。Meituan-M17团队推出OIBench和CoreCodeBench数据集，以更真实地评估模型的算法推理和工程代码能力，揭示顶尖模型与人类选手之间的真实差距。

🎯

关键要点

当前大语言模型在编程能力上存在宣传与现实的差距。
在复杂场景下，顶尖模型的通过率显著下降，远低于人类选手。
Meituan-M17团队推出OIBench和CoreCodeBench数据集，以更真实地评估模型的算法推理和工程代码能力。
OIBench专注于高区分度算法题评测，确保题目原创性和高难度。
CoreCodeBench旨在评估大语言模型在真实工程项目中的综合代码能力，覆盖多个核心阶段。
现有评测集存在饱和、数据泄漏风险和人机对比局限性等问题。
OIBench和CoreCodeBench的评测结果揭示了模型在复杂算法和工程任务中的真实能力边界。
推理模型在OIBench上表现突出，但闭源模型在算力和数据质量上具有优势。
大模型在代码修复和多函数协作方面存在明显短板，缺乏灵活规划与分层推理能力。
未来大语言模型的发展应聚焦于提升复杂任务的解决能力，推动人机协作的进步。

❓

延伸问答

OIBench和CoreCodeBench的主要目的是什么？

OIBench和CoreCodeBench旨在更真实地评估大语言模型的算法推理和工程代码能力，揭示模型与人类选手之间的真实差距。

当前大语言模型在编程能力上存在哪些主要问题？

大语言模型在复杂场景下的通过率显著下降，且在代码修复和多函数协作方面存在明显短板，缺乏灵活规划与分层推理能力。

OIBench与传统评测集相比有哪些创新之处？

OIBench专注于高区分度的原创性算法题，确保题目难度高且防止数据泄漏，提供更真实的评估基准。

CoreCodeBench如何评估大语言模型的工程能力？

CoreCodeBench评估模型在真实工程项目中的综合代码能力，覆盖从代码开发到代码修正的多个核心阶段。

Meituan-M17团队在评测中发现了哪些关键结论？

评测发现大模型在代码修复和多函数协作方面表现不佳，且基础模型的预训练质量决定了代码能力的上限。

未来大语言模型的发展方向是什么？

未来应聚焦于提升复杂任务的解决能力，推动人机协作的进步，使模型成为真正的智能开发伙伴。

🏷️

继续阅读

Browser Harness是一种浏览器操控工具：让大模型自主完成任务！
Browser Harness是一种自愈式浏览器操控工具，允许大语言模型自主完成任务。它通过CDP协议与Chrome直接连接，去除了传统框架的限制。该工具...
能力升级！绿盟虚拟汽车靶场：清晰易懂，适配高校教学场景
绿盟科技推出的虚拟汽车靶场解决了智能网联汽车教学与竞赛中的高成本和并发问题。该平台支持高仿真度的汽车模拟，满足教学、竞赛和产品测试需求，支持多人在线，提升...
掌握信号节奏：重塑抗老重编程与恢复代谢与运动功能解读
衰老源于氧化还原节律的丧失，重建节奏比补充抗氧化剂更有效。研究表明，年轻时细胞的节奏协调使其功能更佳，而老化导致节奏失调，影响代谢和基因表达。通过调整时间...
测试数据显示华擎与英特尔的单子通道内存就是开倒车算是应对内存太贵的应急方式
#硬件设备华擎与英特尔推出的单子通道内存纯属开倒车行为，通道数量减半后内存读取 / 写入 / 复制速率都出现超过 40% 的下滑。但如果这类内存条价格足...
爱奇艺宣布转向哔哩哔哩模式鼓励个人创作者发布视频并通过广告获得收益
#行业资讯爱奇艺宣布转向去中心化视频发行模式，也就是转向哔哩哔哩模式，鼓励个人创作者发布视频并通过广告获得收益。爱奇艺首席执行官龚宇称，爱奇艺应对 AI...
蒂姆·库克仍将是苹果的特朗普顾问
蒂姆·库克将继续担任苹果的执行主席，负责与全球政策制定者互动，特别是与特朗普的关系。他成功应对复杂的政治环境，帮助苹果避免关税和反垄断诉讼的影响。未来，他...