深度学习模型参数不断增加,需要有效的压缩技术以适应资源有限的设备。本文探讨信息几何在模型压缩中的应用,重点分析操作因子分解。我们认为,许多成功的压缩方法隐含近似信息散度。在压缩预训练模型时,信息散度对提高零-shot准确率至关重要,而在微调时,模型的可训练性更为重要。我们证明了在软秩约束下,迭代奇异值阈值化的收敛性,并展示了通过软秩降低对现有方法的简单修改可以在固定压缩率下提高性能。
本文通过黎曼几何和信息几何为Adam优化器建立了数学基础,阐明了其与自然梯度下降的联系,并提出了修正方法。改进后的算法Fisher Adam(FAdam)在不同领域展示了卓越的性能,并在ASR中取得了最先进的结果。
完成下面两步后,将自动完成登录并继续当前操作。