Dynamic Benchmarking of Reasoning Capabilities in Large Code Language Models: Challenges Under Data Contamination
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新基准测试工具,通过动态生成变体,解决了静态数据集导致的可靠性不足问题,有效评估了代码大语言模型的推理能力,结果显示在数据污染风险下仍能提供一致可靠的评估。
🎯
关键要点
- 本研究提出了一种新基准测试工具,旨在解决静态数据集导致的可靠性不足问题。
- 新工具通过动态生成变体,能够有效评估代码大语言模型的推理能力。
- 研究结果表明,该工具在数据污染风险下仍能提供一致且可靠的评估结果。
➡️