本研究提出了NorEval,一个针对挪威生成语言模型的评估工具,填补了挪威语言基准评估的空白。该工具包含24个高质量数据集,涵盖多种任务,并提供灵活可复现的评估框架,对19个开源模型进行了基准测试。
完成下面两步后,将自动完成登录并继续当前操作。