该论文探讨了多语言预训练语言模型的研究进展,包括零样本迁移学习、结构化剪枝和翻译能力提升。研究提出动态稀疏化方法,以增强非英语语言模型的能力,并分析了多语言模型的偏见与挑战。实验结果表明,微调大型语言模型显著提高了翻译质量,尤其在多语言翻译任务中。
本研究探讨了多语言预训练语言模型的结构化剪枝,提出了一种动态稀疏化方法以适应不同模型大小。研究表明,温度缩放和标签平滑等技术能有效提高模型在零样本场景下的校准性,并提出了LLM-Pruner方法以压缩模型,同时保持其性能。此外,通过实证研究评估了校准数据对LLM性能的影响,并提出了改进校准性的策略。
该研究评估了基于结构化剪枝在多语言预训练语言模型上的设置、算法和效率,并提出了一种动态稀疏化的方法。实验结果填补了关于多语言预训练模型上的结构化剪枝研究的空白,为未来的研究提供启示。
完成下面两步后,将自动完成登录并继续当前操作。