Knesset-DictaBERT:一种用于议会记录的希伯来语言模型

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

本论文介绍了两个大型语言模型DictaLM2.0和DictaLM2.0-Instruct,它们是基于Mistral模型训练的,使用了约2000亿个标记的希伯来语和英文语料库。作者提出了一种针对新语言的预训练模型的技术,并对DictaLM2.0-Instruct进行了微调,以提高其在特定任务上的性能。作者还引入了一个新的希伯来语LLM评估基准套件,用于对模型进行评估。这项工作不仅解决了在资源匮乏的语言中训练LLMs的问题,还为多语言自然语言处理领域做出了贡献。

🎯

关键要点

  • 介绍了两个大型语言模型DictaLM2.0和DictaLM2.0-Instruct,基于Mistral模型训练。
  • 模型使用了约2000亿个标记的希伯来语和英文语料库进行训练。
  • 提出了一种针对新语言的预训练模型的专门技术,与传统方法显著不同。
  • 对DictaLM2.0-Instruct进行了微调,以提高其在特定任务上的性能。
  • 引入了一个新的希伯来语LLM评估基准套件,涵盖问答、情感分析、翻译等任务。
  • 解决了在资源匮乏语言中训练LLMs的复杂性,为多语言自然语言处理领域做出贡献。
➡️

继续阅读