蒸馏缩放法则

We propose a distillation scaling law that estimates distilled model performance based on a compute budget and its allocation between the student and teacher. Our findings mitigate the risks...

我们提出了一种蒸馏缩放法则,通过计算预算和学生与教师之间的资源分配来估计蒸馏模型的性能。研究表明,合理的计算资源分配可以最大化学生的性能。我们提供了两种关键场景的最佳蒸馏方案:已有教师和需训练教师的情况。在多个学生或已有教师的情况下,蒸馏优于监督学习;而在仅有一个学生且教师需训练时,监督学习更为有效。本研究加深了对蒸馏过程的理解。

蒸馏缩放法则
原文英文,约200词,阅读约需1分钟。发表于:
阅读原文