边缘设备上的量化 Transformer 语言模型实现
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该论文提出了一种量化感知张量压缩训练方法,可用于自然语言理解任务,通过压缩Transformer模型的嵌入层和线性层,获得低精度的模型表示进行训练,并应用层与层的蒸馏方法将预训练的Transformer模型转换为量化和张量压缩的学生模型,以提高收敛速度。该方法在两个自然语言理解任务中表现出高达63倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。
🎯
关键要点
- 提出了一种量化感知张量压缩训练方法。
- 通过压缩Transformer模型的嵌入层和线性层获得低精度模型表示。
- 采用端到端和基于蒸馏的训练方法。
- 应用层与层的蒸馏方法将预训练的Transformer模型转换为学生模型。
- 该方法提高了模型的收敛速度。
- 在两个自然语言理解任务中表现出高达63倍的压缩比。
- 几乎无损的精度损失。
- 显著的推断和训练加速。
➡️