本研究提出了一种新基准测试工具,通过动态生成变体,解决了静态数据集导致的可靠性不足问题,有效评估了代码大语言模型的推理能力,结果显示在数据污染风险下仍能提供一致可靠的评估。
本研究分析了代码大语言模型在软件开发中识别和生成设计模式的不足,指出其偏差对生成代码合规性的影响,进而影响后续开发任务的可靠性。
完成下面两步后,将自动完成登录并继续当前操作。