Dynamic Benchmarking of Reasoning Capabilities in Large Code Language Models: Challenges Under Data Contamination

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种新基准测试工具,通过动态生成变体,解决了静态数据集导致的可靠性不足问题,有效评估了代码大语言模型的推理能力,结果显示在数据污染风险下仍能提供一致可靠的评估。

🎯

关键要点

  • 本研究提出了一种新基准测试工具,旨在解决静态数据集导致的可靠性不足问题。
  • 新工具通过动态生成变体,能够有效评估代码大语言模型的推理能力。
  • 研究结果表明,该工具在数据污染风险下仍能提供一致且可靠的评估结果。
➡️

继续阅读