MAST:模型无关稀疏化训练
原文中文,约400字,阅读约需1分钟。发表于: 。引入了一种新的优化问题形式,与传统的最小化机器学习模型损失的黑盒函数的方式不同。通过明确地纳入最初预训练模型和随机草图运算符,允许在训练过程中对模型和梯度进行稀疏化。本研究提出的目标函数具有深刻的性质,并强调其与标准算法的联系。同时,还介绍了几种适应新问题形式的随机梯度下降(SGD)方法的变种,包括具有一般抽样的 SGD、分布式版本和具有方差减小技术的...
本研究提出了一种新的优化问题形式,通过稀疏化感知的优化方法增强了模型训练的理论理解。通过引入预训练模型和随机草图运算符,实现了更紧凑的收敛速度和放松了假设。涵盖了Dropout和稀疏训练等重要技术。