小红花·文摘

本研究比较了大型语言模型在自然语言任务中监督微调与上下文学习的效果，发现上下文学习能够生成更高维度的表示，为提升语言模型性能提供了新思路。

通过内在维度对大型语言模型学习范式的比较研究

BriefGPT - AI 论文速递 ·

本文研究了混合专家（MoE）语言模型的效率，发现其在相同预算下优于密集模型。提出了新架构DeepSeekMoE和无梯度剪枝策略EEP，提升了模型性能和部署效率。通过修剪冗余专家，优化了模型参数，验证了在自然语言任务中的有效性。

HMoE：用于语言建模的异构专家混合模型

BriefGPT - AI 论文速递 ·

本研究提出了一种高效的Sharpness Aware Minimizer（SAM）改进方法，称为Efficient SAM，结合随机权重扰动和数据选择策略，显著提高训练效率，节省计算资源达60%。同时，分析了SAM在深度神经网络中的泛化性能，并提出基于梯度强度的自适应算法（GA-SAM），实验证明其在自然语言任务中的有效性。

友好的锐度感知最小化

BriefGPT - AI 论文速递 ·

展翅高飞：Falcon 180B来了

Hugging Face - Blog ·

本文介绍了KD-NAS模型，使用神经架构搜索（NAS）寻找最佳学生模型进行知识蒸馏。该模型能够检索与自然语言任务相关的候选架构，并在下游任务培训集上提取架构，性能提升了15％（GPU）和20％（CPU）。

从非流式 ASR 编码器到流式 ASR 编码器的知识蒸馏，使用辅助非流式层

BriefGPT - AI 论文速递 ·