IberBench是一个新基准,旨在评估西班牙、葡萄牙及其地区语言的大型语言模型(LLMs)。它整合了101个数据集,涵盖22个任务,关注语言多样性和行业相关性。评估结果显示,LLMs在行业相关任务上表现不佳,尤其是加利西亚和巴斯克语言的模型面临更大挑战。
完成下面两步后,将自动完成登录并继续当前操作。