The Heap: A Pollution-Free Multilingual Code Dataset for Evaluating Large Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究推出了“The Heap”数据集,涵盖57种编程语言并去重,解决了大型语言模型评估中的数据污染问题,为研究人员提供了公平评估的新工具。
🎯
关键要点
- 本研究推出了“The Heap”数据集,涵盖57种编程语言并去重。
- 该数据集解决了大型语言模型评估中的数据污染问题。
- 确保与其他公开数据集无重合,为研究人员提供公平评估的新工具。
- 显著降低了数据清理的负担。
➡️