挑战前人未达之地:暴露代码生成评估中的偏见和不足
原文中文,约300字,阅读约需1分钟。发表于: 。本研究对 Python 代码生成的两个广泛应用的基准测试 ——HumanEval 和 MBPP 进行了大规模人工评估,重点关注它们的多样性与难度。研究结果发现,现有基准测试对少数编程概念存在显著偏向,而对大多数概念几乎没有或没有代表性的呈现。此外,研究还发现易于完成的编程问题所占比例极高,可能导致对模型在代码生成任务上性能的过高评价。
本研究使用大型语言模型评估了九种代码生成模型,发现其中代码函数存在偏差的比例在31.45%到79.93%之间,受到偏差影响的代码函数比例在9.68%到37.37%之间。为减轻偏差,提出了三种缓解策略,成功将偏差代码比例降低到0.4%到4.57%。