小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨如何利用PyTorch自动微分计算大型语言模型的海森矩阵。研究表明，通过多个向量-海森积样本，可以有效计算海森矩阵的对角线，为理解大型语言模型的行为和结构提供重要资源。

利用PyTorch自动微分计算大型语言模型的困惑度海森矩阵

BriefGPT - AI 论文速递 ·

本研究提出了一种新型的二阶优化方法SASSHA，旨在提高泛化能力。SASSHA通过降低解决方案的尖锐性和稳定海森矩阵的近似计算，展现出优于其他方法的泛化性能。

Sharpness-aware Adaptive Second-order Optimization Method SASSHA with Stable Hessian Approximation

BriefGPT - AI 论文速递 ·