美团开源OIBench与CoreCodeBench:揭示大模型编程能力的真实水平
Meituan-M17 团队联合上海交大等机构,分别推出了 OIBench(聚焦高区分度算法题评测)与 CoreCodeBench(聚焦多场景工程级代码基准)两大数据集,旨在揭示大模型编程能力真实水平,这两大数据集已分别在GitHub和Huggingface上进行开源。
当前大语言模型(LLMs)在编程能力上存在宣传与现实的差距。尽管在传统基准测试中表现良好,但在复杂场景下通过率显著下降。Meituan-M17团队推出OIBench和CoreCodeBench数据集,以更真实地评估模型的算法推理和工程代码能力,揭示顶尖模型与人类选手之间的真实差距。
