当前大语言模型(LLMs)在编程能力上存在宣传与现实的差距。尽管在传统基准测试中表现良好,但在复杂场景下通过率显著下降。Meituan-M17团队推出OIBench和CoreCodeBench数据集,以更真实地评估模型的算法推理和工程代码能力,揭示顶尖模型与人类选手之间的真实差距。
CLRS 算法推理基准是结合神经网络与经典算法的新兴研究领域,从《算法导论》中提取排序、搜索、动态规划等算法。实验展示了算法推理基线的表现,并指出了一些挑战。
机器学习方法在模式识别方面表现出色,但在可伸缩的算法推理任务方面仍有困难。近期的深度思考方法在学习算法的外推方面表现出希望,但局限于对称任务。为了弥补这一差距,提出了一种名为NeuralThink的新循环架构,能够一致地对称和不对称任务进行外推。通过引入一种新颖的不对称任务基准,展示了NeuralThink在对称和不对称任务的稳定外推方面始终优于先前的深度思考架构。
完成下面两步后,将自动完成登录并继续当前操作。