挑战前人未达之地:暴露代码生成评估中的偏见和不足
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究使用大型语言模型评估了九种代码生成模型,发现其中代码函数存在偏差的比例在31.45%到79.93%之间,受到偏差影响的代码函数比例在9.68%到37.37%之间。为减轻偏差,提出了三种缓解策略,成功将偏差代码比例降低到0.4%到4.57%。
🎯
关键要点
- 本研究提出了一个面向代码生成任务的新型偏差评估框架。
- 评估了九种最先进的 LLM-based 代码生成模型。
- 发现31.45%到79.93%的代码函数存在偏差。
- 9.68%到37.37%的代码函数受到偏差影响,可能导致有害的软件行为风险。
- 提出了三种缓解策略,成功将偏差代码比例降低到0.4%到4.57%。
➡️