美团开源OIBench与CoreCodeBench：揭示大模型编程能力的真实水平

Meituan-M17 团队联合上海交大等机构，分别推出了 OIBench（聚焦高区分度算法题评测）与 CoreCodeBench（聚焦多场景工程级代码基准）两大数据集，旨在揭示大模型编程能力真实水平，这两大数据集已分别在GitHub和Huggingface上进行开源。

当前大语言模型（LLMs）在编程能力上存在宣传与现实的差距。尽管在传统基准测试中表现良好，但在复杂场景下通过率显著下降。Meituan-M17团队推出OIBench和CoreCodeBench数据集，以更真实地评估模型的算法推理和工程代码能力，揭示顶尖模型与人类选手之间的真实差距。

CoreCodeBench OIBench 大模型大语言模型算法推理编程能力美团