小红花·文摘

CodeMind 框架评估了九个大型语言模型的代码推理能力，发现它们在简单程序上表现良好，但在复杂逻辑和算术运算方面性能下降。研究提出了 L2CEval 系统，分析了模型在语言到代码生成中的表现及影响因素，并发布了评估框架和模型输出。此外，研究还揭示了改进程序测试能力的方法，并提出了 NPHardEval 基准，以客观评估 LLMs 的推理能力。