传统固定测试集无法全面评估基础模型的开放性能力。为此,我们提出了ONEBench,整合多个评估数据集,支持自定义基准,以提高模型评估的准确性。
传统固定测试集无法全面评估基础模型的开放性能力。
提出了ONEBench,整合多个评估数据集。
ONEBench支持自定义基准,以提高模型评估的准确性。
ONEBench有效应对异质性和不完整性挑战。
完成下面两步后,将自动完成登录并继续当前操作。