挑战前人未达之地:暴露代码生成评估中的偏见和不足

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究使用大型语言模型评估了九种代码生成模型,发现其中代码函数存在偏差的比例在31.45%到79.93%之间,受到偏差影响的代码函数比例在9.68%到37.37%之间。为减轻偏差,提出了三种缓解策略,成功将偏差代码比例降低到0.4%到4.57%。

🎯

关键要点

  • 本研究提出了一个面向代码生成任务的新型偏差评估框架。
  • 评估了九种最先进的 LLM-based 代码生成模型。
  • 发现31.45%到79.93%的代码函数存在偏差。
  • 9.68%到37.37%的代码函数受到偏差影响,可能导致有害的软件行为风险。
  • 提出了三种缓解策略,成功将偏差代码比例降低到0.4%到4.57%。
➡️

继续阅读