量子位 ·

模型知识蒸馏新SOTA！告别传统散度蒸馏｜腾讯优图&中科大出品

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

研究提出了一种基于Sinkhorn距离的知识蒸馏方法SinKD，克服了传统方法的局限性，能够有效将复杂教师模型的知识转移至简单学生模型，提升其性能。实验结果表明，SinKD在多种自然语言处理任务中优于现有方法，具有广泛的应用潜力。

🎯

关键要点

提出了一种基于Sinkhorn距离的知识蒸馏方法SinKD，克服了传统方法的局限性。
SinKD能够有效将复杂教师模型的知识转移至简单学生模型，提升其性能。
现有知识蒸馏方法存在输出差异大时效果不佳的问题。
KL散度、RKL散度和JS散度各自存在缺陷，影响学生模型的学习效果。
Sinkhorn距离能更准确地衡量教师模型和学生模型之间的差异。
研究提出了一种基于批量的重构方法，捕捉高维空间中的几何复杂性。
SinKD在GLUE和SuperGLUE等自然语言处理测试集上表现优于现有方法。
SinKD方法通过批量化处理提高了蒸馏效率，适用于多种任务和模型架构。
实验结果表明，SinKD在大部分任务上取得了更好的性能。
SinKD方法还可以扩展到独热标签微调和计算机视觉领域的深度网络。

❓

延伸问答

SinKD方法的主要优势是什么？

SinKD方法基于Sinkhorn距离，能够更准确地衡量教师模型和学生模型之间的差异，从而有效提升学生模型的性能。

传统知识蒸馏方法存在哪些局限性？

传统方法如KL散度、RKL散度和JS散度在输出差异大时效果不佳，导致学生模型无法有效学习教师模型的知识。

SinKD在自然语言处理任务中的表现如何？

SinKD在GLUE和SuperGLUE等自然语言处理测试集上表现优于现有方法，显示出其广泛的应用潜力。

SinKD方法如何提高蒸馏效率？

SinKD通过批量化处理来提高蒸馏效率，能够在多个样本上同时进行知识转移。

Sinkhorn距离相比传统散度度量有什么优势？

Sinkhorn距离不仅解决了传统散度度量的局限性，还避免了计算Wasserstein距离的高成本，适合在线蒸馏。

SinKD方法是否可以应用于计算机视觉领域？

是的，SinKD方法可以扩展到计算机视觉领域的深度网络，并在多种配置中超越基线方法。

🏷️

继续阅读

全新生图模型 Anima V1 发布：专注动漫风格的图像生成；MemLens 多模态长程记忆评估数据集：涵盖跨会话图文推理与知识更新机制
Anima V1 是 CircleStone Labs 于 2026 年推出的动漫风格图像生成模型，支持通过文本描述快速生成角色立绘和插画，用户可在 Gr...
谷歌的新型全能AI模型令人惊叹
谷歌的新AI模型Omni可以将照片、视频和文本转化为其他形式，已在视频生成平台Flow中推出。Omni在生成视频时表现出色，但仍存在不一致和奇怪的结果，用...
美团外卖前负责人入局餐饮具身模型，元节智能获千万级种子轮融资
元节智能（AtomBite.AI）是一家专注于餐饮后厨的智能初创公司，近期完成千万级种子轮融资。创始人王栋博士曾任美团外卖技术负责人，团队成员来自清华、中...
世界银行集团如何利用Databricks通过共享知识消除贫困
世界银行集团通过Databricks构建统一的数据和AI平台，整合结构化与非结构化数据，提升决策效率。该平台支持自然语言查询，简化数据检索，推动数据民主化...
专注动漫风格，全新生图模型Anima V1已开源；哈佛大学发布机器学习系统教学平台MLSysBook，含33个可交互实验
Anima V1 是 CircleStone Labs 于 2026 年发布的动漫风格图像生成模型，用户可以通过文本描述生成精美图像，适用于角色立绘和插画...
后知后觉：腾讯TIM PC客户端竟然已经被弃用显示版本过低无法登录
腾讯TIM PC客户端已被弃用，用户登录时显示版本过低，无法使用。虽然iOS版正常，但PC版自2025年5月后未更新，官网未说明弃用情况。TIM最初为办公...