边缘设备上的量化 Transformer 语言模型实现

大规模基于 transformer 的模型如 BERT，可以转换为针对资源受限边缘设备优化的 FlatBuffer 格式，用于声誉分析等任务，其性能较好且具有隐私保护特性。

该论文提出了一种量化感知张量压缩训练方法，可用于自然语言理解任务，通过压缩Transformer模型的嵌入层和线性层，获得低精度的模型表示进行训练，并应用层与层的蒸馏方法将预训练的Transformer模型转换为量化和张量压缩的学生模型，以提高收敛速度。该方法在两个自然语言理解任务中表现出高达63倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。