本研究提出了一种新基准测试工具,通过动态生成变体,解决了静态数据集导致的可靠性不足问题,有效评估了代码大语言模型的推理能力,结果显示在数据污染风险下仍能提供一致可靠的评估。
本研究探讨了代码大语言模型在软件开发中对设计模式理解不足的问题,影响了生成代码的符合性。实验评估显示,模型在识别、理解和生成设计模式方面存在缺陷,显著影响后续开发任务的可靠性。
完成下面两步后,将自动完成登录并继续当前操作。