ONEBench:全方位测试的样本级基准评估

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

传统固定测试集无法全面评估基础模型的开放性能力。为此,我们提出了ONEBench,整合多个评估数据集,支持自定义基准,以提高模型评估的准确性。

🎯

关键要点

  • 传统固定测试集无法全面评估基础模型的开放性能力。

  • 提出了ONEBench,整合多个评估数据集。

  • ONEBench支持自定义基准,以提高模型评估的准确性。

  • ONEBench有效应对异质性和不完整性挑战。

➡️

继续阅读