MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了MMLU-CF,一个无污染的多选题基准,旨在解决现有多选题数据集在评估大型语言模型时的污染问题。通过引入多样化的数据来源和去污染规则,MMLU-CF提高了评估结果的可信性,确保了模型评估的难度和真实性。
🎯
关键要点
- MMLU-CF是一个无污染的多选题基准,旨在解决现有数据集在评估大型语言模型时的污染问题。
- 该基准通过引入多样化的数据来源和去污染规则,提高了评估结果的可信性。
- MMLU-CF确保了模型评估的难度和真实性,使得主流模型的成绩更具挑战性。
➡️