Ditto: 基于 MPC 的量化感知 Transformer 安全推理
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文提出了一种联合蒸馏和量化的方法,用于在资源受限情况下压缩预训练的序列到序列模型。该方法在生成任务的多个数据集上实现了16.5倍的模型足迹压缩比,并在压缩比达到27.7倍时提供了性能和效率的权衡分析。这是语言生成任务中首次成功利用蒸馏和量化进行模型压缩。
🎯
关键要点
- 提出了一种联合蒸馏和量化的方法,用于压缩预训练的序列到序列模型。
- 该方法在生成任务的多个数据集上实现了16.5倍的模型足迹压缩比。
- 在压缩比达到27.7倍时,提供了性能和效率的权衡分析。
- 这是语言生成任务中首次成功利用蒸馏和量化进行模型压缩。
🏷️
标签
➡️