小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种新基准测试工具，通过动态生成变体，解决了静态数据集导致的可靠性不足问题，有效评估了代码大语言模型的推理能力，结果显示在数据污染风险下仍能提供一致可靠的评估。

Dynamic Benchmarking of Reasoning Capabilities in Large Code Language Models: Challenges Under Data Contamination

BriefGPT - AI 论文速递 ·

本研究探讨了代码大语言模型在软件开发中对设计模式理解不足的问题，影响了生成代码的符合性。实验评估显示，模型在识别、理解和生成设计模式方面存在缺陷，显著影响后续开发任务的可靠性。

Do Code Large Language Models Understand Design Patterns?

BriefGPT - AI 论文速递 ·