MAST：模型无关稀疏化训练

引入了一种新的优化问题形式，与传统的最小化机器学习模型损失的黑盒函数的方式不同。通过明确地纳入最初预训练模型和随机草图运算符，允许在训练过程中对模型和梯度进行稀疏化。本研究提出的目标函数具有深刻的性质，并强调其与标准算法的联系。同时，还介绍了几种适应新问题形式的随机梯度下降（SGD）方法的变种，包括具有一般抽样的 SGD、分布式版本和具有方差减小技术的...

本研究提出了一种新的优化问题形式，通过稀疏化感知的优化方法增强了模型训练的理论理解。通过引入预训练模型和随机草图运算符，实现了更紧凑的收敛速度和放松了假设。涵盖了Dropout和稀疏训练等重要技术。