清华大学和上交大学的研究团队在NuerIPS上发表了一篇论文,质疑强化学习(RLVR)在提升大语言模型推理能力中的作用,认为蒸馏方法更为有效。研究指出,RLVR主要优化已有能力,而非探索新路径,强调底模的潜力被低估。
《图解 DeepSeek 技术》介绍了大语言模型的基础知识,适合零基础读者。书中讨论了“涌现”现象和缩放定律,强调模型规模、数据量和计算量的重要性。深度思考模式提升了模型输出质量,DeepSeek-R1通过蒸馏方法将推理能力传递给小模型,显著增强了小模型的能力。
Qwen3家族技术报告介绍了其双模式架构,支持推理和非推理任务,采用分段训练策略。通过“大带小”蒸馏方法提升小模型能力,并动态分配思考预算以应对不同复杂度的问题。训练分为三个阶段,强化语言理解、推理能力和长文本处理,最终实现思考与非思考模式的无缝融合,增强多场景下的能力与稳定性。
本研究提出音频评分蒸馏采样(Audio-SDS),旨在解决音频生成领域缺乏通用模型的问题。Audio-SDS 能够实现多种音频处理任务,如物理音效模拟和源分离,展示了蒸馏方法的广泛适用性。
本研究提出DLCoT框架,解决长链思维蒸馏方法的有效性不足,通过数据分段和优化中间错误状态,显著提升模型性能和令牌效率。
本研究提出了一种汉明注意力蒸馏方法,通过对键和值进行二值化,利用汉明距离替代点积计算,从而显著提高长上下文变换器的效率。该方法在多个任务中展现出优越的准确性,并降低了计算成本。
本研究提出FOCUS框架,解决前景分割方法缺乏统一性的问题。通过多尺度语义网络和新颖的蒸馏方法,提升图像特征和分割效果。实验结果表明,FOCUS在多个任务上优于现有模型。
该研究提出了一种新颖的生成数据集蒸馏方法,通过自我知识蒸馏提升预测准确性,并在logits标准化后进行分布匹配,实验结果优于现有方法。
本研究提出了一种新颖的离散扩散模型蒸馏方法,解决了自回归大型语言模型在生成速率和延迟上的局限性。该方法能够同时生成至少32个令牌,显著提高文本质量和生成速度,超越传统自回归模型,具有广泛的应用潜力。
本文提出了多种方法提升小型语言模型的推理能力,包括知识增强推理提炼、基于表格推理的蒸馏方法、定制化学习和混合蒸馏框架。这些方法在多个推理任务中显著提高了小型模型的性能,尤其在数学推理和科学表格文本生成方面表现优越。
本文综述了扩散模型在生成模型中的应用与改进,探讨了多种蒸馏方法以提高图像生成的速度和质量。研究提出结合低秩适应性和蒸馏的新方法,显著减少内存消耗和推理时间,同时保持图像质量。通过创新的损失机制和无数据方法,提升了生成效率,推动了扩散生成领域的发展。
该研究提出了一种基于伪标签的目标检测蒸馏方法,通过利用未标注数据来提升模型性能,减少对标注数据的需求。实验结果表明,该方法在多个数据集上显著提高了目标检测的精度,尤其在资源有限的环境中表现突出。
这篇研究论文提出了一种新方法,通过逐步数据集提取和深度学习技术,显著改善数据集精炼性能,生成更大的合成数据集。研究探讨了精炼数据的行为和有效利用,提出了基于固定模型的蒸馏方法,并结合聚类和风险度量实现有效泛化。通过扩散模型和文本反演技术,优化了数据存储和推理,验证了方法的有效性。
该研究提出了一种目标检测蒸馏方法,通过伪标签学生模型训练和微调,利用未标注数据提升模型性能,减少标注需求,并支持领域自适应。实验结果表明该方法有效提高了目标检测性能。
研究人员通过将AI的“慢思考”结果蒸馏进“快思考”,使Llama2的表现提升了257%,超过了GPT4,同时降低了推理成本。他们使用了四种不同的系统2方法进行微调,发现这种模式使系统1模型的表现大幅提升,甚至超过了真正的系统2模型。这种蒸馏方法在实时交互和移动设备部署等场景下具有优势。
本文介绍了Score identity Distillation(SiD),一种无数据的生成模型蒸馏方法,能够有效提炼预训练扩散模型的生成能力。SiD通过重构前向扩散过程,采用创新的损失机制,显著提高生成效率并减少生成时间。实验结果表明,SiD在多个基准数据集上超越了现有蒸馏方法,重新定义了扩散蒸馏的效率和效果标准。
本文提出了多种模型剪枝和蒸馏方法,如CoFi、剪枝再蒸馏和早期修剪与自我蒸馏,旨在提高模型速度和精度。实验结果表明,这些方法在多个数据集上表现优异,能够有效压缩模型并保持性能,适用于实时推断和资源高效的深度学习应用。
本文研究了大型语言模型的稀疏微调问题,提出了一种基于 L2 范数的蒸馏方法 SquareHead,能够在高稀疏率下实现准确恢复。通过混合稀疏剪枝和量化框架,显著提升了模型性能和压缩比,展示了在训练和推断中的高效性。
本文提出了一个因果框架,解释了类增量学习中的灾难性遗忘的原因,并提出了一种新的蒸馏方法,该方法与现有的抗遗忘技术正交。实验结果表明该方法能够显著提高目前各类增量学习方法的性能。
本研究使用不同的持续学习算法对语言模型进行增量预训练,保留早期知识并提高下游任务性能。采用基于蒸馏的方法最有效,同时提高知识转移和时态泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。