在紧张的学术计算预算下进行语言适应:标记器交换有效且纯bfloat16足够
原文中文,约400字,阅读约需1分钟。发表于: 。本研究针对有限的计算资源下大规模语言模型的语言适应问题进行探讨,尤其是对Mistral-7B模型在德语和阿拉伯语上的适应。研究发现,虽然在德语适应中表现不佳,但阿拉伯语模型超越了多项基线,强调了训练精度和标记器交换的重要性,表明纯bfloat16训练是一种高效、快速的替代方案。
通过参数高效微调可以提高大语言模型的性能,对多语言评估表明英语和其他语言性能差距大。微调是弥合差距的有效方法。本研究通过对合成多语言数据进行微调,评估其对模型在涵盖23种语言的五个下游任务上的性能影响。发现微调较小的开源模型可以弥合模型性能差距,但对英语性能有所降低。微调有时可以提高低资源语言性能,但在高资源语言上性能可能下降。