大型语言模型的后训练修剪和量化受校准数据的影响

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本论文研究了多语言预训练语言模型在问答任务中的校准性质,包括分布内、分布外和跨语言迁移设置下的校准情况,以及改进校准性的策略和技术。实验证明了自动翻译数据增强是提高模型校准性的高效技术,并进行了模型大小和多语言模型与单语模型的比较实验。

🎯

关键要点

  • 研究多语言预训练语言模型在问答任务中的校准性质。
  • 分析分布内、分布外和跨语言迁移设置下的校准情况。
  • 提出改进校准性的策略和技术。
  • 实验证明自动翻译数据增强能有效提高模型校准性。
  • 比较多语言模型与单语模型在不同任务和语言下的表现。
➡️

继续阅读