本文回顾了人工神经网络历史并将现代理论神经科学应用于深度学习领域中的实验,发现仅仅靠权重稀疏并不能提高图像的噪声鲁棒性。最近,开发出利用权重稀疏性、活性稀疏性和主动树突建模来方便持续学习的模型,并将该方法扩展到更具挑战的连续学习任务上,并公开了代码。
本文研究了参数稀疏性对Transformer模型在大规模数据集上训练的影响,并确定了描述权重稀疏性、非零参数数量和训练数据量之间关系的扩展定律。研究发现,在非零参数数量固定时,最佳稀疏度随着用于训练的数据量增加而增加。同时,研究还将扩展到了不同的稀疏结构和策略,揭示了权重稀疏性的能力和局限性,为提高计算效率提供了理论理解和实际意义。
完成下面两步后,将自动完成登录并继续当前操作。