小红花·文摘

清华大学和上交大学的研究团队在NuerIPS上发表了一篇论文，质疑强化学习（RLVR）在提升大语言模型推理能力中的作用，认为蒸馏方法更为有效。研究指出，RLVR主要优化已有能力，而非探索新路径，强调底模的潜力被低估。

理解大语言模型 - 读《图解 DeepSeek 技术》

唐巧的博客 ·

Qwen3家族技术报告介绍了其双模式架构，支持推理和非推理任务，采用分段训练策略。通过“大带小”蒸馏方法提升小模型能力，并动态分配思考预算以应对不同复杂度的问题。训练分为三个阶段，强化语言理解、推理能力和长文本处理，最终实现思考与非思考模式的无缝融合，增强多场景下的能力与稳定性。

Qwen3家族训练秘籍公开：思考/非思考融进一个模型，大模型蒸馏带动小模型

量子位 ·

本研究提出音频评分蒸馏采样（Audio-SDS），旨在解决音频生成领域缺乏通用模型的问题。Audio-SDS 能够实现多种音频处理任务，如物理音效模拟和源分离，展示了蒸馏方法的广泛适用性。

音频的评分蒸馏采样：源分离、合成及其他

BriefGPT - AI 论文速递 ·

本研究提出DLCoT框架，解决长链思维蒸馏方法的有效性不足，通过数据分段和优化中间错误状态，显著提升模型性能和令牌效率。

Deconstructing Long-Chain Thinking: A Structured Reasoning Optimization Framework for Long-Chain Thinking Distillation

BriefGPT - AI 论文速递 ·

本研究提出了一种汉明注意力蒸馏方法，通过对键和值进行二值化，利用汉明距离替代点积计算，从而显著提高长上下文变换器的效率。该方法在多个任务中展现出优越的准确性，并降低了计算成本。

Hamming Attention Distillation: Binarizing Keys and Queries to Improve the Efficiency of Long-Context Transformers

BriefGPT - AI 论文速递 ·

本研究提出FOCUS框架，解决前景分割方法缺乏统一性的问题。通过多尺度语义网络和新颖的蒸馏方法，提升图像特征和分割效果。实验结果表明，FOCUS在多个任务上优于现有模型。

FOCUS: A Universal Foreground Segmentation Method

BriefGPT - AI 论文速递 ·

该研究提出了一种新颖的生成数据集蒸馏方法，通过自我知识蒸馏提升预测准确性，并在logits标准化后进行分布匹配，实验结果优于现有方法。

Generative Dataset Distillation Based on Self-Knowledge Distillation

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的离散扩散模型蒸馏方法，克服了自回归大型语言模型在生成速度和延迟方面的局限性，显著提升了文本质量和生成效率，具有广泛的应用前景。

超越自回归：通过时间自蒸馏实现快速的语言模型

BriefGPT - AI 论文速递 ·

我们提出了一种无数据的创新方法——Score identity Distillation（SiD），将预训练扩散模型的生成能力提炼到单步生成器中。通过重构前向扩散过程并利用与分数相关的身份，SiD实现了高效生成，显著缩短了生成时间，并在多个基准数据集上超越了其他蒸馏方法。我们的PyTorch实现将公开在GitHub上。

通过得分隐式匹配实现一步扩散蒸馏

BriefGPT - AI 论文速递 ·

本文介绍了一种零样本评估蒸馏方法，通过使用截断的大模型进行初始化并继续预训练，减少对任务特定数据的依赖。该方法在模型无法同时放入GPU时，将尺寸减少50%，在13个任务上性能与基准方法相当或更优，计算效率提高1.5倍。

联合微调和预训练语音与语言模型的转换以实现线性复杂度

BriefGPT - AI 论文速递 ·

本文提出了一个因果框架，解释了类增量学习中的灾难性遗忘的原因，并提出了一种新的蒸馏方法，该方法能够显著提高目前各类增量学习方法的性能。

本文介绍了一种名为Score identity Distillation（SiD）的无数据方法，通过将预训练扩散模型的生成能力提炼到一个单步生成器中，实现了快速的Fréchet inception distance (FID)减小。SiD算法在蒸馏过程中显示出高迭代效率，并超越了其他蒸馏方法，在生成质量方面具有竞争力。这一成就不仅重新定义了扩散蒸馏中效率和效果的基准，还在更广泛的扩散生成领域中也有着重要的意义。

得分遗忘蒸馏：一种快速无数据的扩散模型机器遗忘方法

BriefGPT - AI 论文速递 ·

本文介绍了一种名为Score identity Distillation（SiD）的无数据方法，通过将预训练扩散模型的生成能力提炼到一个单步生成器中，实现了快速的Fréchet inception distance (FID) 减小。SiD算法在蒸馏过程中显示出高迭代效率，并超越了其他蒸馏方法，无论是一步还是几步，无数据还是依赖于训练数据。这一成就不仅重新定义了扩散蒸馏中效率和效果的基准，还在更广泛的扩散生成领域中也有着重要的意义。

分布反向追踪构建更快收敛轨迹的单步扩散蒸馏

BriefGPT - AI 论文速递 ·

研究人员通过将AI的“慢思考”结果蒸馏进“快思考”，使Llama2的表现提升了257%，超过了GPT4，同时降低了推理成本。他们使用了四种不同的系统2方法进行微调，发现这种模式使系统1模型的表现大幅提升，甚至超过了真正的系统2模型。这种蒸馏方法在实时交互和移动设备部署等场景下具有优势。

AI慢思考蒸馏进快思考，Llama2升至GPT4水平，不写过程也能做对题

量子位 ·

本文提出了一个因果框架，解释了类增量学习中的灾难性遗忘的原因，并提出了一种新的蒸馏方法，该方法与现有的抗遗忘技术正交。实验结果表明该方法能够显著提高目前各类增量学习方法的性能。

在类增量学习中平衡因果效应

BriefGPT - AI 论文速递 ·

本研究使用不同的持续学习算法对语言模型进行增量预训练，保留早期知识并提高下游任务性能。采用基于蒸馏的方法最有效，同时提高知识转移和时态泛化能力。

使用预训练模型的不断学习：调查

BriefGPT - AI 论文速递 ·

该论文提出了一种量化感知张量压缩训练方法，通过压缩Transformer模型的嵌入层和线性层，获得低精度的模型表示进行训练。通过层与层的蒸馏方法将预训练的Transformer模型转换为量化和张量压缩的学生模型，提高收敛速度。在自然语言理解任务中，表现出高压缩比、几乎无损的精度损失和显著的推断和训练加速。

知识转化：模型压缩的新途径

BriefGPT - AI 论文速递 ·

该论文提出了一种量化感知张量压缩训练方法，可用于自然语言理解任务，通过压缩Transformer模型的嵌入层和线性层，获得低精度的模型表示进行训练，并应用层与层的蒸馏方法将预训练的Transformer模型转换为量化和张量压缩的学生模型，以提高收敛速度。该方法在两个自然语言理解任务中表现出高达63倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。

边缘设备上的量化 Transformer 语言模型实现

BriefGPT - AI 论文速递 ·

NeurIPS唯一满分论文曝光，来自清华上交

理解大语言模型 - 读《图解 DeepSeek 技术》

Qwen3家族训练秘籍公开：思考/非思考融进一个模型，大模型蒸馏带动小模型

音频的评分蒸馏采样：源分离、合成及其他

Deconstructing Long-Chain Thinking: A Structured Reasoning Optimization Framework for Long-Chain Thinking Distillation

Hamming Attention Distillation: Binarizing Keys and Queries to Improve the Efficiency of Long-Context Transformers

FOCUS: A Universal Foreground Segmentation Method

Generative Dataset Distillation Based on Self-Knowledge Distillation

超越自回归：通过时间自蒸馏实现快速的语言模型

通过得分隐式匹配实现一步扩散蒸馏

联合微调和预训练语音与语言模型的转换以实现线性复杂度

通过自蒸馏减少在线类别增量学习中的灾难性遗忘

得分遗忘蒸馏：一种快速无数据的扩散模型机器遗忘方法

分布反向追踪构建更快收敛轨迹的单步扩散蒸馏

AI慢思考蒸馏进快思考，Llama2升至GPT4水平，不写过程也能做对题

在类增量学习中平衡因果效应

使用预训练模型的不断学习：调查

知识转化：模型压缩的新途径

边缘设备上的量化 Transformer 语言模型实现