Knesset-DictaBERT:一种用于议会记录的希伯来语言模型
原文中文,约500字,阅读约需1分钟。发表于: 。利用以色列议会记录构建的 Knesset-DictaBERT,是一种基于 DictaBERT 架构的大型希伯来语言模型,在 MLM 任务中对议会语言的理解方面显示出显著改进。我们对模型的性能进行了详细评估,显示出在困惑度和准确性方面较基准 DictaBERT 模型的改进。
本论文介绍了两个大型语言模型DictaLM2.0和DictaLM2.0-Instruct,它们是基于Mistral模型训练的,使用了约2000亿个标记的希伯来语和英文语料库。作者提出了一种针对新语言的预训练模型的技术,并对DictaLM2.0-Instruct进行了微调,以提高其在特定任务上的性能。作者还引入了一个新的希伯来语LLM评估基准套件,用于对模型进行评估。这项工作不仅解决了在资源匮乏的语言中训练LLMs的问题,还为多语言自然语言处理领域做出了贡献。