IberBench是一个新基准,旨在评估西班牙、葡萄牙及其地区语言的大型语言模型(LLMs)。它整合了101个数据集,涵盖22个任务,关注语言多样性和行业相关性。评估结果显示,LLMs在行业相关任务上表现不佳,尤其是加利西亚和巴斯克语言的模型面临更大挑战。
本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力。实验结果表明,使用GPT-4生成的合成数据进行训练的性能优秀,但在某些情况下效益会下降。
该研究提出了两种新的资源,以增强加利西亚语的自然语言处理,为低资源语言提供多语言模型的研究,并探索了如何利用相关语言生成连贯的文本。
完成下面两步后,将自动完成登录并继续当前操作。