小红花·文摘

Goldilocks强化学习：调节任务难度以应对稀疏奖励的推理

Apple Machine Learning Research ·

重新思考JEPA：基于冻结教师的计算高效视频自监督学习

Apple Machine Learning Research ·

Sanaka AI提出了一种新方法，使教师模型能够像人类教师一样进行启发式教学，训练出7B小模型在推理能力上超越671B的DeepSeek-R1。该方法通过逐步解释提高了教学效率，并显著降低了训练成本。

7B小模型超越DeepSeek-R1：模仿人类教师，弱模型也能教出强推理LLM | Transformer作者团队

量子位 ·

Amazon Nova Premier 正式可用！

亚马逊AWS官方博客 ·

本研究提出了群体相对知识蒸馏（GRKD）框架，解决了现有知识蒸馏方法忽视教师模型关系性归纳偏置的问题。GRKD通过关注类别之间的相对排名提炼教师知识，实验表明其在细粒度分类任务中具有更优的泛化能力。

Group Relative Knowledge Distillation: Learning from Teacher's Relational Inductive Bias

BriefGPT - AI 论文速递 ·

本研究探讨教师模型选择对学生模型性能的影响，提出了一种组合启发式提炼多层感知器（EHDM），在十个数据集上平均提升了7.93%的性能，训练时间减少了1.95至3.32倍。

启发式方法是提炼多层感知器以进行图链接预测的良好教师

BriefGPT - AI 论文速递 ·

本研究通过教师模型输出的概率分布和新颖的子句转移算法，解决了Tsetlin机在准确性与执行时间之间的权衡问题，显著提升了学生模型的性能，适用于图像识别和文本分类等领域。

A New Method for Implementing Knowledge Distillation in Tsetlin Machines

BriefGPT - AI 论文速递 ·

本研究提出了一种热身蒸馏的方法，解决了教师模型与学生模型之间的分布不匹配问题。该方法通过对齐学生与教师的知识，显著提升了蒸馏性能，实验结果显示在多个基准测试中平均得分提高了至少0.4，数学任务的准确率提高了1.9%。

Warmup Distillation: Bridging the Distribution Mismatch between Teacher and Student before Knowledge Distillation

BriefGPT - AI 论文速递 ·

新研究揭示了AI模型蒸馏的最佳资源分配

DEV Community ·

苹果研究发现模型蒸馏中的Scaling Law，教师模型的强度并非越高越好。学生模型的性能受教师模型能力影响，存在一个转折点。研究还提供了资源分配建议，以优化蒸馏效果。

苹果发现模型蒸馏Scaling Law！教师模型并非越强越好

量子位 ·

知识蒸馏是一种模型压缩技术，通过将大型教师模型的知识迁移到小型学生模型中。其效果受教师模型选择、蒸馏方法、学生模型结构和训练过程等因素影响。改善方法包括选择稳定的教师模型、优化损失函数和调整温度参数。知识蒸馏与分馏相似，但因历史原因未改名。

为什么知识蒸馏后的模型表现有时会很差？

dotNET跨平台 ·

本研究提出了一种通过教师模型逐行变异和重构代码的方法，以解决现有强化学习在代码生成中的低效问题。实验结果表明，该方法在复杂任务中优于传统的结果监督方法。

基于过程监督的强化学习用于代码生成

BriefGPT - AI 论文速递 ·

本研究提出了“动态适应性插值蒸馏(TAID)”方法，旨在解决教师模型与学生模型之间的容量差异及模式崩溃问题。TAID通过动态插值教师和学生分布，有效防止模式崩溃，提升知识蒸馏效果。实验结果显示，该方法在不同模型规模和架构下均表现优越，推动了人工智能技术的可及性发展。

TAID：用于语言模型知识转移的动态适应性插值蒸馏方法

BriefGPT - AI 论文速递 ·

该研究提出了一种新颖的多层最优传输方法，克服了现有知识蒸馏在教师和学生模型对齐标记器方面的局限性。该方法在抽取式问答、生成式问答和摘要任务中表现优异，超越了现有技术，展现出强鲁棒性。

Multi-Level Optimal Transport Method for Universal Cross-Tokenizer Knowledge Distillation

BriefGPT - AI 论文速递 ·

研究提出了一种基于Sinkhorn距离的知识蒸馏方法SinKD，克服了传统方法的局限性，能够有效将复杂教师模型的知识转移至简单学生模型，提升其性能。实验结果表明，SinKD在多种自然语言处理任务中优于现有方法，具有广泛的应用潜力。

模型知识蒸馏新SOTA！告别传统散度蒸馏｜腾讯优图&中科大出品

量子位 ·

本文探讨了动态知识蒸馏的方法，分析了教师模型选择、数据选择和蒸馏目标调整的影响。实验结果表明，动态知识蒸馏具有良好前景，并提出了更有效的知识蒸馏方法，如GKD、MiniLLM和DistiLLM等，这些方法在复杂任务中表现优于传统方法，为未来研究指明了方向。

大型语言模型的预训练蒸馏：设计空间探索

BriefGPT - AI 论文速递 ·

本文探讨了知识蒸馏技术，提出了多种新方法，如无教师知识蒸馏（Tf-KD）和鲁棒知识蒸馏（RobustKD），旨在提升学生模型性能。研究表明，均方误差作为损失函数优于KL散度损失，并通过实验验证了不同容量教师模型的有效性。这些方法在多个数据集上表现出色，推动了知识蒸馏技术的发展。

基于相关匹配的高效鲁棒知识蒸馏方法

BriefGPT - AI 论文速递 ·

本文提出了多种知识蒸馏方法，包括教师模型信息流蒸馏、平衡知识蒸馏框架、参数高效的PESF-KD、动态学习的KCD、逆概率加权蒸馏IPWD及不同分布知识蒸馏KD$^{3}$。这些方法在多个数据集上验证了其有效性，显著提升了学生模型的性能和蒸馏效率。

从平衡中学习：修正规模不均知识转移以应对长尾场景

BriefGPT - AI 论文速递 ·

本研究探讨了知识蒸馏的不同层次及其在模型压缩中的应用，提出了改进方法以提升学生模型的性能。实验证明，教师模型的质量和训练方式对知识蒸馏效果至关重要。此外，研究提出了一种基于比例分离的蒸馏方法，显著提高了细粒度分类任务的识别能力，并解决了错误监督问题。

精细化对数值蒸馏

BriefGPT - AI 论文速递 ·

本文探讨了知识蒸馏技术的改进，提出通过交互式通信和强化学习动态调整教师模型权重，以提升学生模型在自然语言处理任务中的性能。研究表明，该方法在多个基准数据集上优于传统蒸馏技术，具有更高的准确性和效率。

InFiConD：基于概念的知识蒸馏的交互式无代码微调

BriefGPT - AI 论文速递 ·