大规模语言模型的稀疏微调扩展
原文中文,约400字,阅读约需1分钟。发表于: 。大型语言模型 (Large Language Models) 在指令或人类反馈方面很难进行全面的微调,但参数高效稀疏微调 (sparse fine-tuning) 的方法已经在性能上取得了一定的成果,本文将稀疏微调方法扩展到像 LLaMA 2 7B 和 13B 这样的最先进的 LLMs,实验证明对指令调整进行稀疏微调通常比流行的参数高效微调方法如 LoRA 表现更好,并且在运行时间上可比较。
通过参数高效微调可以提高大语言模型的性能,对多语言评估表明英语和其他语言性能差距大。微调是弥合差距的有效方法。本研究通过对合成多语言数据进行微调,评估了模型在涵盖23种语言的五个下游任务上的性能影响。发现微调较小的开源模型可以弥合模型性能差距,但对英语性能有所降低。微调有时可以提高低资源语言性能,但在高资源语言上性能可能下降。