我们提出了一种蒸馏缩放法则,通过计算预算和教师与学生之间的分配来估计蒸馏模型的性能。研究降低了大规模蒸馏的风险,优化了计算分配,以最大化学生的性能,并提供了两种关键场景的最佳蒸馏方案。
完成下面两步后,将自动完成登录并继续当前操作。