CodeMind 框架评估了九个大型语言模型的代码推理能力,发现它们在简单程序上表现良好,但在复杂逻辑和算术运算方面性能下降。研究提出了 L2CEval 系统,分析了模型在语言到代码生成中的表现及影响因素,并发布了评估框架和模型输出。此外,研究还揭示了改进程序测试能力的方法,并提出了 NPHardEval 基准,以客观评估 LLMs 的推理能力。
完成下面两步后,将自动完成登录并继续当前操作。