机器之心 ·

苹果也在蒸馏大模型，给出了蒸馏Scaling Laws

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

苹果研究人员提出蒸馏扩展定律，量化蒸馏模型性能，优化教师与学生模型的计算分配。研究表明，在特定条件下，蒸馏比监督学习更有效，降低推理成本并提升模型性能，为AI模型构建提供新思路。

🎯

🔎

苹果提出的蒸馏扩展定律为大模型的蒸馏过程提供了量化依据，帮助研究人员更好地理解教师与学生模型之间的关系。这一理论不仅优化了计算资源的分配，还为模型性能的提升提供了新的思路，尤其是在资源有限的情况下，蒸馏技术的有效性显得尤为重要。

研究表明，在特定条件下，蒸馏技术比传统的监督学习更具优势，尤其是在已有教师模型的情况下。读者应关注蒸馏的适用场景，特别是当计算资源有限时，蒸馏可能是更优的选择。然而，若需训练教师模型，则监督学习仍然是必要的。

文章提到的能力差距现象表明，较强的教师模型可能会导致较差的学生模型，这一发现对模型设计具有重要启示。研究人员在选择教师模型时，应考虑其与学生模型的相对学习能力，以避免产生不理想的蒸馏效果。

❓

蒸馏扩展定律量化了蒸馏模型的性能，并优化了教师与学生模型的计算分配。

蒸馏技术通过压缩模型体量、降低时延和提升精度来提高模型性能。

当学生的总计算不超过特定阈值且教师模型已存在时，蒸馏比监督学习更有效。

能力差距现象指较强的教师模型可能产生较差的学生模型，反映了学习能力的差异。

苹果的研究为AI模型构建提供了新思路，降低了推理成本和总计算成本。

实验设置旨在理解教师模型在蒸馏过程中的作用，使用纯蒸馏情况进行实验。

🏷️