HumanEval Pro 和 MBPP Pro:评估大型语言模型在自调用代码生成中的表现
📝
内容提要
本研究针对大型语言模型在自调用代码生成任务中的推理和问题解决能力的评估,提出了一种新任务。研究开发了三种新的基准测试,包括HumanEval Pro和MBPP Pro,表明大多数模型在传统代码生成任务中表现良好,但在自调用任务上性能下降,揭示了模型的失败模式,这为未来优化模型的代码推理能力提供了新的研究方向。
➡️