当前大语言模型(LLMs)在编程能力上存在宣传与现实的差距。尽管在传统基准测试中表现良好,但在复杂场景下通过率显著下降。Meituan-M17团队推出OIBench和CoreCodeBench数据集,以更真实地评估模型的算法推理和工程代码能力,揭示顶尖模型与人类选手之间的真实差距。
机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。
完成下面两步后,将自动完成登录并继续当前操作。