大型语言模型的后训练修剪和量化受校准数据的影响
原文中文,约200字,阅读约需1分钟。发表于: 。通过大型语言模型的模型压缩,剪枝和量化构成了神经网络模型压缩的基础,而本文首次对校准数据对 LLM 性能的影响进行了广泛的实证研究,并发现下游任务性能存在显著的变化,为 LLM 量化和剪枝的有效使用提供了一系列的建议。
本论文研究了多语言预训练语言模型在问答任务中的校准性质,包括分布内、分布外和跨语言迁移设置下的校准情况,以及改进校准性的策略和技术。实验证明了自动翻译数据增强是提高模型校准性的高效技术,并进行了模型大小和多语言模型与单语模型的比较实验。