本研究比较了大型语言模型在自然语言任务中监督微调与上下文学习的效果,发现上下文学习能够生成更高维度的表示,为提升语言模型性能提供了新思路。
本文研究了混合专家(MoE)语言模型的效率,发现其在相同预算下优于密集模型。提出了新架构DeepSeekMoE和无梯度剪枝策略EEP,提升了模型性能和部署效率。通过修剪冗余专家,优化了模型参数,验证了在自然语言任务中的有效性。
本研究提出了一种高效的Sharpness Aware Minimizer(SAM)改进方法,称为Efficient SAM,结合随机权重扰动和数据选择策略,显著提高训练效率,节省计算资源达60%。同时,分析了SAM在深度神经网络中的泛化性能,并提出基于梯度强度的自适应算法(GA-SAM),实验证明其在自然语言任务中的有效性。
TII发布了Falcon 180B,这是目前最大的开放语言模型,具有1800亿个参数。它使用TII的RefinedWeb数据集训练,包含了3500亿个标记。Falcon 180B在自然语言任务中取得了最先进的结果,并被认为与专有模型PaLM-2不相上下。它在各种基准测试中优于Llama 2 70B和OpenAI的GPT-3.5。Falcon 180B可在Hugging Face Hub上获得,并可用于商业用途,但有一定限制。该模型可通过Transformers版本4.33访问,并提供各种工具和功能。
本文介绍了KD-NAS模型,使用神经架构搜索(NAS)寻找最佳学生模型进行知识蒸馏。该模型能够检索与自然语言任务相关的候选架构,并在下游任务培训集上提取架构,性能提升了15%(GPU)和20%(CPU)。
完成下面两步后,将自动完成登录并继续当前操作。