BriefGPT - AI 论文速递 ·

MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark

💡 原文英文，约100词，阅读约需1分钟。

📝

内容提要

本研究提出了MMLU-CF，一个无污染的多选题基准，旨在解决现有多选题数据集在评估大型语言模型时的污染问题。通过引入多样化的数据来源和去污染规则，MMLU-CF提高了评估结果的可信性，确保了模型评估的难度和真实性。

🎯

关键要点

MMLU-CF是一个无污染的多选题基准，旨在解决现有数据集在评估大型语言模型时的污染问题。
该基准通过引入多样化的数据来源和去污染规则，提高了评估结果的可信性。
MMLU-CF确保了模型评估的难度和真实性，使得主流模型的成绩更具挑战性。

🏷️

标签

MMLU-CF 去污染多选题数据集语言模型

➡️

继续阅读