小红花·文摘

重新思考JEPA：基于冻结教师的计算高效视频自监督学习

Apple Machine Learning Research ·

本研究探讨教师模型选择对学生模型性能的影响，提出了一种组合启发式提炼多层感知器（EHDM），在十个数据集上平均提升了7.93%的性能，训练时间减少了1.95至3.32倍。

启发式方法是提炼多层感知器以进行图链接预测的良好教师

BriefGPT - AI 论文速递 ·

本研究通过教师模型输出的概率分布和新颖的子句转移算法，解决了Tsetlin机在准确性与执行时间之间的权衡问题，显著提升了学生模型的性能，适用于图像识别和文本分类等领域。

A New Method for Implementing Knowledge Distillation in Tsetlin Machines

BriefGPT - AI 论文速递 ·

本研究提出DistiLLM-2对比方法，解决大语言模型蒸馏中数据类型与损失函数协同不足的问题，显著提升学生模型的表现，支持多种任务与应用。

Contrastive Method Enhances Distillation Effect of Large Language Models: DistiLLM-2

BriefGPT - AI 论文速递 ·

本研究提出了一种热身蒸馏的方法，解决了教师模型与学生模型之间的分布不匹配问题。该方法通过对齐学生与教师的知识，显著提升了蒸馏性能，实验结果显示在多个基准测试中平均得分提高了至少0.4，数学任务的准确率提高了1.9%。

Warmup Distillation: Bridging the Distribution Mismatch between Teacher and Student before Knowledge Distillation

BriefGPT - AI 论文速递 ·

新研究揭示了AI模型蒸馏的最佳资源分配

DEV Community ·

苹果研究发现模型蒸馏中的Scaling Law，教师模型的强度并非越高越好。学生模型的性能受教师模型能力影响，存在一个转折点。研究还提供了资源分配建议，以优化蒸馏效果。

苹果发现模型蒸馏Scaling Law！教师模型并非越强越好

量子位 ·

本研究提出了一种蒸馏规模法则，以解决大规模蒸馏模型的性能估计问题。合理的资源分配显著提升了学生模型的性能，并提供了优化蒸馏的方案，促进了实验设计与蒸馏过程的理解。

Distillation Scale Law

BriefGPT - AI 论文速递 ·

知识蒸馏是一种模型压缩技术，通过将大型教师模型的知识迁移到小型学生模型中。其效果受教师模型选择、蒸馏方法、学生模型结构和训练过程等因素影响。改善方法包括选择稳定的教师模型、优化损失函数和调整温度参数。知识蒸馏与分馏相似，但因历史原因未改名。

为什么知识蒸馏后的模型表现有时会很差？

dotNET跨平台 ·

本研究提出了“动态适应性插值蒸馏(TAID)”方法，旨在解决教师模型与学生模型之间的容量差异及模式崩溃问题。TAID通过动态插值教师和学生分布，有效防止模式崩溃，提升知识蒸馏效果。实验结果显示，该方法在不同模型规模和架构下均表现优越，推动了人工智能技术的可及性发展。

TAID：用于语言模型知识转移的动态适应性插值蒸馏方法

BriefGPT - AI 论文速递 ·

该研究提出了一种新颖的多层最优传输方法，克服了现有知识蒸馏在教师和学生模型对齐标记器方面的局限性。该方法在抽取式问答、生成式问答和摘要任务中表现优异，超越了现有技术，展现出强鲁棒性。

Multi-Level Optimal Transport Method for Universal Cross-Tokenizer Knowledge Distillation

BriefGPT - AI 论文速递 ·

研究提出了一种基于Sinkhorn距离的知识蒸馏方法SinKD，克服了传统方法的局限性，能够有效将复杂教师模型的知识转移至简单学生模型，提升其性能。实验结果表明，SinKD在多种自然语言处理任务中优于现有方法，具有广泛的应用潜力。

模型知识蒸馏新SOTA！告别传统散度蒸馏｜腾讯优图&中科大出品

量子位 ·

本研究提出了ReDDiT框架，通过轨迹解码器和反射感知模块，解决低光图像增强的计算和性能问题。学生模型在更少步骤中超越教师模型。实验表明，该方法在2步时性能与传统方法相当，8步或4步时最佳。

面向灵活高效的扩散低光图像增强

BriefGPT - AI 论文速递 ·

大规模预训练模型中，知识蒸馏通过将教师模型的知识转移到学生模型，降低计算负担。传统方法依赖教师模型推理，成本高。本文提出少教师推理知识蒸馏（FTI KD），通过比较式知识蒸馏（CKD）减少对教师模型的依赖，使学生模型无需频繁调用教师模型即可理解其差异。实验显示，CKD在有限教师调用下效果优于现有方法。

推测性知识蒸馏：通过交叉采样缩小教师与学生之间的差距

BriefGPT - AI 论文速递 ·

研究者引入了关系表示蒸馏（RRD）方法，通过配对相似性来加强教师模型和学生模型之间的关系。该方法在 CIFAR-100 数据集上表现优于传统的知识蒸馏技术和其他 13 种先进方法，并成功地进行了知识转移。

跨分辨率关系对比蒸馏的低分辨率物体识别

BriefGPT - AI 论文速递 ·

本文介绍了一种名为LumiNet的新型知识传递算法，通过重新校准对数，重建了更细粒度的类间关系，使得学生模型能够学习到更丰富的知识。测试结果表明LumiNet在基准数据集上有效，并在迁移学习领域展示了适应能力。希望通过LumiNet引导研究关注基于对数的知识蒸馏的潜在能力。

重新思考使用特权信息的知识转移

BriefGPT - AI 论文速递 ·

本研究提出了一种方法，通过训练较小的学生模型来提取大型语言模型（LLMs）的知识，以在资源受限设备上部署这些模型。学生模型在准确率上优于原始神经网络模型，参数大小减小了100倍和10倍。该研究对于自动评分在教育环境中的应用具有潜力。

利用先进语言模型提升小型语言模型的可解释知识蒸馏方法

BriefGPT - AI 论文速递 ·

知识蒸馏是一种模型压缩方法，通过训练紧凑的学生模型来模拟复杂的教师模型。本研究提出了通用教师网络（GTN），一种一次性的基于KD的训练方法，可以有效地向任何学生模型传递知识。实验评估表明，该方法提高了整体KD的有效性，并降低了训练成本。

有效的知识蒸馏：跨学生架构的教师网络泛化

BriefGPT - AI 论文速递 ·

通过N-best重排序实现精确的知识蒸馏

Apple Machine Learning Research ·

AdaDistill是一种自适应知识蒸馏方法，提高深度人脸识别学生模型性能。通过控制学生的学习能力进展，增强学生的判别学习能力，并在多个基准测试中展示优越性。

AdaDistill：用于深度人脸识别的自适应知识蒸馏

BriefGPT - AI 论文速递 ·