本研究针对大型语言模型在自调用代码生成任务中的推理和问题解决能力的评估,提出了一种新任务。研究开发了三种新的基准测试,包括HumanEval Pro和MBPP Pro,表明大多数模型在传统代码生成任务中表现良好,但在自调用任务上性能下降,揭示了模型的失败模式,这为未来优化模型的代码推理能力提供了新的研究方向。
本研究评估了Python代码生成的基准测试HumanEval和MBPP,发现现有测试对某些编程概念存在明显偏向,且易完成问题比例高,可能导致模型性能被高估。为此,提出了新的基准测试MBXP和Multilingual HumanEval,以评估多语言环境下的代码生成能力,并发现当前大型语言模型在真实编程挑战中的表现不足。
完成下面两步后,将自动完成登录并继续当前操作。