本研究提出了一种新方法,通过引入中间层改善梯度传播,提升动态稀疏训练在大输出空间分类任务中的效率,恢复密集模型的泛化性能,实现高效训练。
研究探讨了动态稀疏训练(DST)在连续学习中的影响。结果显示,低稀疏度下Erdos-Renyi Kernel(ERK)初始化更有效,高稀疏度下均匀初始化更稳健。增长策略的效果取决于初始化和稀疏度。DST的适应性可能提升连续学习效果。
完成下面两步后,将自动完成登录并继续当前操作。