OpenLLM-Ro -- 关于从 Llama 2 开始训练的开源罗马尼亚语 LLM 的技术报告
原文中文,约400字,阅读约需1分钟。发表于: 。近年来,大型语言模型(LLMs)在各种任务上已经实现了几乎人类水平的表现。尽管一些 LLMs 在多语言数据上进行了训练,但大多数训练数据仍是英文,所以它们在英文上的表现远远超过其他语言。本文介绍了我们对第一个专门用于罗马尼亚语的基础和聊天型 LLMs 进行训练和评估的方法。
本研究使用16,000个泰米尔语令牌增强了开源的LLaMA模型,解决了现有切尖模型中泰米尔语等语种的代表性不足所导致的性能不佳问题。通过LoRA方法进行高效的模型训练,并引入了泰米尔语翻译版本的Alpaca数据集和用于微调的OpenOrca数据集的子集。实验结果显示在泰米尔语文本生成方面有显著的性能改进,对印度语言切尖模型的应用具有重要意义。通过公开模型、数据集和代码,促进语言建模领域的创新。