小红花·文摘

本研究针对大型语言模型在自调用代码生成任务中的推理和问题解决能力的评估，提出了一种新任务。研究开发了三种新的基准测试，包括HumanEval Pro和MBPP Pro，表明大多数模型在传统代码生成任务中表现良好，但在自调用任务上性能下降，揭示了模型的失败模式，这为未来优化模型的代码推理能力提供了新的研究方向。

HumanEval Pro 和 MBPP Pro：评估大型语言模型在自调用代码生成中的表现

BriefGPT - AI 论文速递 ·

本研究评估了Python代码生成的基准测试HumanEval和MBPP，发现现有测试对某些编程概念存在明显偏向，且易完成问题比例高，可能导致模型性能被高估。为此，提出了新的基准测试MBXP和Multilingual HumanEval，以评估多语言环境下的代码生成能力，并发现当前大型语言模型在真实编程挑战中的表现不足。

NaturalCodeBench: 检视 HumanEval 和自然用户提示对编码性能不匹配的问题

BriefGPT - AI 论文速递 ·