MMLU-CF:无污染的多任务语言理解基准
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了无污染且更具挑战性的多选题基准MMLU-CF,旨在解决大型语言模型评估中的基准污染问题,通过引入多样数据和去污染规则,确保评估结果的可信性。
🎯
关键要点
- 本研究提出了无污染且更具挑战性的多选题基准MMLU-CF。
- MMLU-CF旨在解决大型语言模型评估中的基准污染问题。
- 通过引入多样数据和去污染规则,确保评估结果的可信性。
- 该基准在验证并确保结果可信性方面展现了有效性。
- 最终使主流模型的成绩显示出难度和真实性。
➡️