量子位 ·

苹果发现模型蒸馏Scaling Law！教师模型并非越强越好

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

苹果研究发现模型蒸馏中的Scaling Law，教师模型的强度并非越高越好。学生模型的性能受教师模型能力影响，存在一个转折点。研究还提供了资源分配建议，以优化蒸馏效果。

🎯

关键要点

苹果研究发现模型蒸馏中的Scaling Law，教师模型并非越强越好。
学生模型的损失随教师模型损失降低整体呈下降趋势，但教师模型能力过强时，学生模型性能可能恶化。
存在一个转折点，学生模型相对教师模型学习能力的转折点，影响蒸馏效果。
学生模型的模仿能力由教师模型损失、能力比值和数据规模等因素决定。
在资源分配方面，预算较小时应多分配给教师模型训练，预算较大时应平均分配。
对于小规模学生模型，大部分资源应分配给教师模型；对于大规模学生模型，更多资源应分给学生模型训练。
如果教师模型从头训练且只用于蒸馏单个学生模型，直接监督训练学生模型效果更好。

❓

延伸问答

苹果的研究发现了什么关于模型蒸馏的Scaling Law？

苹果研究发现，教师模型的强度并非越强越好，过强的教师模型可能导致学生模型性能恶化。

学生模型的性能受哪些因素影响？

学生模型的性能受教师模型损失、能力比值和数据规模等因素影响。

在资源分配方面，苹果的研究给出了什么建议？

研究建议在预算较小时多分配给教师模型训练，预算较大时应平均分配资源。

什么情况下知识蒸馏的效果更好？

当教师模型从头训练且只用于蒸馏单个学生模型时，直接监督训练学生模型效果更好。

教师模型和学生模型之间的转折点是什么？

转折点是学生模型相对教师模型学习能力的关键点，影响蒸馏效果。

对于不同规模的学生模型，资源分配有什么不同？

对于小规模学生模型，大部分资源应分配给教师模型；而对于大规模学生模型，更多资源应分给学生模型训练。

🏷️

继续阅读

美团外卖前负责人入局餐饮具身模型，元节智能获千万级种子轮融资
元节智能（AtomBite.AI）是一家专注于餐饮后厨的智能初创公司，近期完成千万级种子轮融资。创始人王栋博士曾任美团外卖技术负责人，团队成员来自清华、中...
全新生图模型 Anima V1 发布：专注动漫风格的图像生成；MemLens 多模态长程记忆评估数据集：涵盖跨会话图文推理与知识更新机制
Anima V1 是 CircleStone Labs 于 2026 年推出的动漫风格图像生成模型，支持通过文本描述快速生成角色立绘和插画，用户可在 Gr...
小米17Max评测:苹果都放弃的大屏手机，小米为什么还要做?
小米17 Max是一款大屏手机，配备6.9英寸屏幕和8000mAh电池，续航表现优秀。其影像配置包括2亿像素主摄和潜望长焦，适合日常拍摄。尽管价格较高，但...
专注动漫风格，全新生图模型Anima V1已开源；哈佛大学发布机器学习系统教学平台MLSysBook，含33个可交互实验
Anima V1 是 CircleStone Labs 于 2026 年发布的动漫风格图像生成模型，用户可以通过文本描述生成精美图像，适用于角色立绘和插画...
10 万元级双电机四驱！吉利银河星耀 7 MAX 要给友商上一课
吉利银河星耀7 MAX是一款售价10.68万元的中型插混轿车，搭载双电机四驱系统，最大功率418马力，零百加速5.4秒。其28.3度电池提供220公里纯电...
码道助阵：Hermes本地部署轻松搞定
本案例介绍如何在Windows环境中快速部署Hermes开源AI智能体，利用华为云码道和WSL技术，解决AI Agent本地部署的挑战。开发者可通过简单步...