IberBench是一个新基准,旨在评估西班牙、葡萄牙及其地区语言的大型语言模型(LLMs)。它整合了101个数据集,涵盖22个任务,关注语言多样性和行业相关性。评估结果显示,LLMs在行业相关任务上表现不佳,尤其是加利西亚和巴斯克语言的模型面临更大挑战。
本研究解决了自动文本摘要评估指标和大型语言模型(LLM)作为评判者模型在西班牙语和巴斯克语中的有效性不足的问题。通过新的BASSE数据集,我们收集了2040个摘要的人类评估数据,结果显示专有评判的LLM与人类判断的相关性最高,这为多语言摘要评估提供了重要的见解和影响。发表的BASSE数据集和代码为后续研究提供了基础。
本研究建立了EuskañolDS语料库,解决了巴斯克语与西班牙语之间代码切换的数据不足问题,为理解和生成代码切换语言奠定基础。
本研究分析了大型语言模型(LLMs)在资源丰富与不足语言之间的差距,以巴斯克语为例。研究表明,高质量的巴斯克语语料库通过预训练和指令调优显著提升了模型的自然语言理解和指令执行能力。
该文章介绍了IndoNLI数据集,是第一个适用于印度尼西亚语的NLI数据集。作者使用MNLI的数据收集协议,收集了近18K个句子对。实验结果显示,XLM-R在该数据集上的性能优于其他预训练模型,但仍远低于人类性能。作者发现专家标注数据比众包标注数据更多样化,注释工件更少。希望该数据集能推动印尼自然语言处理研究的进展。
我们介绍了 Latxa,这是一系列从 7 到 700 亿参数的巴斯克语言模型。Latxa 基于 Llama 2,并在新的巴斯克语语料库上进行持续预训练。我们还引入了 4 个多项选择评估数据集,并在广泛的评估中,Latxa 在各个方面的性能都超过了以往的开放模型,尽管在阅读理解和知识密集型任务上落后于 GPT-4 Turbo。Latxa...
完成下面两步后,将自动完成登录并继续当前操作。