本研究提出了一种蒸馏规模法则,以解决大规模蒸馏模型的性能估计问题。合理的资源分配显著提升了学生模型的性能,并提供了优化蒸馏的方案,促进了实验设计与蒸馏过程的理解。
完成下面两步后,将自动完成登录并继续当前操作。