本研究探讨如何利用PyTorch自动微分计算大型语言模型的海森矩阵。研究表明,通过多个向量-海森积样本,可以有效计算海森矩阵的对角线,为理解大型语言模型的行为和结构提供重要资源。
本研究提出了一种新型的二阶优化方法SASSHA,旨在提高泛化能力。SASSHA通过降低解决方案的尖锐性和稳定海森矩阵的近似计算,展现出优于其他方法的泛化性能。
完成下面两步后,将自动完成登录并继续当前操作。