清华大学和上交大学的研究团队在NuerIPS上发表了一篇论文,质疑强化学习(RLVR)在提升大语言模型推理能力中的作用,认为蒸馏方法更为有效。研究指出,RLVR主要优化已有能力,而非探索新路径,强调底模的潜力被低估。
《图解 DeepSeek 技术》介绍了大语言模型的基础知识,适合零基础读者。书中讨论了“涌现”现象和缩放定律,强调模型规模、数据量和计算量的重要性。深度思考模式提升了模型输出质量,DeepSeek-R1通过蒸馏方法将推理能力传递给小模型,显著增强了小模型的能力。
Qwen3家族技术报告介绍了其双模式架构,支持推理和非推理任务,采用分段训练策略。通过“大带小”蒸馏方法提升小模型能力,并动态分配思考预算以应对不同复杂度的问题。训练分为三个阶段,强化语言理解、推理能力和长文本处理,最终实现思考与非思考模式的无缝融合,增强多场景下的能力与稳定性。
本研究提出音频评分蒸馏采样(Audio-SDS),旨在解决音频生成领域缺乏通用模型的问题。Audio-SDS 能够实现多种音频处理任务,如物理音效模拟和源分离,展示了蒸馏方法的广泛适用性。
本研究提出DLCoT框架,解决长链思维蒸馏方法的有效性不足,通过数据分段和优化中间错误状态,显著提升模型性能和令牌效率。
本研究提出了一种汉明注意力蒸馏方法,通过对键和值进行二值化,利用汉明距离替代点积计算,从而显著提高长上下文变换器的效率。该方法在多个任务中展现出优越的准确性,并降低了计算成本。
本研究提出FOCUS框架,解决前景分割方法缺乏统一性的问题。通过多尺度语义网络和新颖的蒸馏方法,提升图像特征和分割效果。实验结果表明,FOCUS在多个任务上优于现有模型。
该研究提出了一种新颖的生成数据集蒸馏方法,通过自我知识蒸馏提升预测准确性,并在logits标准化后进行分布匹配,实验结果优于现有方法。
本研究提出了一种新颖的离散扩散模型蒸馏方法,克服了自回归大型语言模型在生成速度和延迟方面的局限性,显著提升了文本质量和生成效率,具有广泛的应用前景。
我们提出了一种无数据的创新方法——Score identity Distillation(SiD),将预训练扩散模型的生成能力提炼到单步生成器中。通过重构前向扩散过程并利用与分数相关的身份,SiD实现了高效生成,显著缩短了生成时间,并在多个基准数据集上超越了其他蒸馏方法。我们的PyTorch实现将公开在GitHub上。
本文介绍了一种零样本评估蒸馏方法,通过使用截断的大模型进行初始化并继续预训练,减少对任务特定数据的依赖。该方法在模型无法同时放入GPU时,将尺寸减少50%,在13个任务上性能与基准方法相当或更优,计算效率提高1.5倍。
本文提出了一个因果框架,解释了类增量学习中的灾难性遗忘的原因,并提出了一种新的蒸馏方法,该方法能够显著提高目前各类增量学习方法的性能。
本文介绍了一种名为Score identity Distillation(SiD)的无数据方法,通过将预训练扩散模型的生成能力提炼到一个单步生成器中,实现了快速的Fréchet inception distance (FID)减小。SiD算法在蒸馏过程中显示出高迭代效率,并超越了其他蒸馏方法,在生成质量方面具有竞争力。这一成就不仅重新定义了扩散蒸馏中效率和效果的基准,还在更广泛的扩散生成领域中也有着重要的意义。
本文介绍了一种名为Score identity Distillation(SiD)的无数据方法,通过将预训练扩散模型的生成能力提炼到一个单步生成器中,实现了快速的Fréchet inception distance (FID) 减小。SiD算法在蒸馏过程中显示出高迭代效率,并超越了其他蒸馏方法,无论是一步还是几步,无数据还是依赖于训练数据。这一成就不仅重新定义了扩散蒸馏中效率和效果的基准,还在更广泛的扩散生成领域中也有着重要的意义。
研究人员通过将AI的“慢思考”结果蒸馏进“快思考”,使Llama2的表现提升了257%,超过了GPT4,同时降低了推理成本。他们使用了四种不同的系统2方法进行微调,发现这种模式使系统1模型的表现大幅提升,甚至超过了真正的系统2模型。这种蒸馏方法在实时交互和移动设备部署等场景下具有优势。
本文提出了一个因果框架,解释了类增量学习中的灾难性遗忘的原因,并提出了一种新的蒸馏方法,该方法与现有的抗遗忘技术正交。实验结果表明该方法能够显著提高目前各类增量学习方法的性能。
本研究使用不同的持续学习算法对语言模型进行增量预训练,保留早期知识并提高下游任务性能。采用基于蒸馏的方法最有效,同时提高知识转移和时态泛化能力。
该论文提出了一种量化感知张量压缩训练方法,通过压缩Transformer模型的嵌入层和线性层,获得低精度的模型表示进行训练。通过层与层的蒸馏方法将预训练的Transformer模型转换为量化和张量压缩的学生模型,提高收敛速度。在自然语言理解任务中,表现出高压缩比、几乎无损的精度损失和显著的推断和训练加速。
该论文提出了一种量化感知张量压缩训练方法,可用于自然语言理解任务,通过压缩Transformer模型的嵌入层和线性层,获得低精度的模型表示进行训练,并应用层与层的蒸馏方法将预训练的Transformer模型转换为量化和张量压缩的学生模型,以提高收敛速度。该方法在两个自然语言理解任务中表现出高达63倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。
完成下面两步后,将自动完成登录并继续当前操作。