IberBench是一个新基准,旨在评估西班牙、葡萄牙及其地区语言的大型语言模型(LLMs)。它整合了101个数据集,涵盖22个任务,关注语言多样性和行业相关性。评估结果显示,LLMs在行业相关任务上表现不佳,尤其是加利西亚和巴斯克语言的模型面临更大挑战。
该研究探讨了如何利用大型语言模型(LLMs)增强加利西亚语等低资源语言的自然语言处理。通过适应Alpaca数据集和LLaMA-7B模型,提出了“GenTranslate”翻译范式,显著提高了翻译质量。同时,开发了紧凑的巴西葡萄牙文本生成模型,并评估了不同策略对低资源语言的影响,结果表明持续训练和任务特定微调能有效提升性能。
该研究提出了两种新的资源,以增强加利西亚语的自然语言处理,为低资源语言提供多语言模型的研究,并探索了如何利用相关语言生成连贯的文本。
完成下面两步后,将自动完成登录并继续当前操作。