大型语言模型产生代码异味的倾向?基准研究

📝

内容提要

本研究针对现有评估基准仅关注准确性而忽略生成代码质量的问题,提出了CodeSmellEval基准,旨在评估大型语言模型生成代码异味的倾向。通过引入新的评价指标和精选数据集,研究表明当前顶尖的语言模型在代码生成中存在产生代码异味的明显趋势,这为未来的软件工程任务中的可靠性评估提供了重要见解。

🏷️

标签

➡️

继续阅读