Hessian矩阵的计算在优化算法中至关重要。自动微分框架如PyTorch和TensorFlow可用于计算Hessian矩阵,它是函数梯度的Jacobian矩阵。尽管计算Hessian矩阵成本高,但在简单函数和小参数时仍然可行。
Hessian反序列化漏洞是Java生态中的安全威胁,影响多个核心组件。攻击者可利用恶意数据进行反序列化,执行恶意代码,导致数据泄露或系统崩溃。Hessian协议在微服务架构中广泛应用,需加强安全防护。
本研究提出了一种新型的二阶优化方法SASSHA,旨在提高泛化能力。SASSHA通过降低解决方案的尖锐性和稳定海森矩阵的近似计算,展现出优于其他方法的泛化性能。
本研究提出了一种新的二阶联邦学习框架GP-FL,旨在降低通信成本。通过高斯过程建模黑塞矩阵,实验结果显示其在多个数据集上优于传统方法,具备线性-二次收敛速率。
本研究探讨了传统第二阶优化方法在现代机器学习中的局限性,提出通过引入负步长来提升优化效果。实验结果表明,负步长优于常见的Hessian修改方法,展现了第二阶方法的潜力。
在在线学习中,优化随机零阶反馈下的凸函数一直是一个主要而具有挑战性的问题。本文考虑了仅能对目标函数进行噪声评估的情况下,对二阶平滑和强凸函数进行优化的问题;通过提出匹配的上下界,第一次对最小化最大简单后悔的速率进行了紧密的刻画。我们提出了一种算法,结合了启动阶段和镜像下降阶段。我们的主要技术创新包括对高阶平滑性条件下球形采样梯度估计器的尖锐刻画,从而使算法能够在偏差 -...
该研究提出了一种基于Moreau包络的双层优化算法MY-HPO,旨在解决超参数选择问题,并验证了其有效性。通过设计平滑的Lagrangian值函数,将问题转化为等价优化形式,显著改善了损失值。此外,研究还探讨了多目标双层优化问题,提出了一种高效的一阶多梯度方法FORUM,展示了其在多任务学习中的优越性能。
本文探讨了机器遗忘在用户数据隐私保护中的重要性,提出了基于噪声随机梯度下降的遗忘框架和选择性突触阻尼(SSD)方法。这些方法在优化计算效率和模型性能的同时,有效删除训练数据的影响,满足数据隐私法规要求。实验结果表明,这些新方法在隐私保护与模型效用之间取得了良好平衡。
SGD在Transformers上表现不如Adam,因为参数块之间的Hessian频谱差异巨大,称为“块异质性”。SGD对具有块异质性的问题表现不佳,因为它对所有块应用相同的学习率,无法处理块之间的异质性。如果能为不同的块分配不同的学习率,就能挽救SGD的失败。
本研究评估了贝叶斯方法在深度学习中用于不确定性估计的方法,重点关注 Laplace 近似及其变体。研究发现,拟合 Hessian 矩阵的方法对超出分布的检测效率产生负面影响。提出了仅关注优化先验精度的观点,可在超出分布检测中产生更准确的不确定性估计,并保持适度的校准度。实验评估证实了简化方法在超出分布领域中的优越性。
本研究提出了一种新的方法和算法,用于处理具有上下级变量耦合的约束双层优化问题。通过设计平滑的近端 Lagrangian 值函数来处理约束的下层问题,并将原始问题转化为具有平滑约束的等价优化问题。该算法适用于机器学习应用,是一种基于近端 Lagrangian 值函数的非 Hessian 梯度算法。实证结果验证了该算法在实际性能上的优越性。
最近的研究表明,诸如 SAM 之类的方法能够明确或隐含地对二阶信息进行惩罚,从而提高深度学习的泛化能力。然而,权重噪声和梯度惩罚等看似类似的方法通常无法提供这样的好处。本文通过损失函数的海塞矩阵结构展示了这些差异可以得到解释。首先,我们展示了海塞矩阵的一个常见分解可以定量解释特征的利用和探索。探索特征可以由非线性建模误差矩阵 (NME)...
加速自然策略梯度算法(ANPG)用于解决无限时间折扣奖励马尔可夫决策过程问题。ANPG在一般参数化情况下具有较低的样本复杂度和迭代复杂度,通过改进样本复杂度提高了效率。
本研究提出了一种基于Hessian矩阵感知的低秩扰动算法,用于连续学习。该算法通过在神经网络的每一层上应用任务自适应参数的低秩近似,将参数转换建模为序列任务的权重矩阵转换。实验证明了该方法的有效性和可扩展性,并与其他方法进行了比较。
本文介绍了一种Cubically regularized Newton方法的一阶和零阶实现,用于解决非凸优化问题。该方法使用自适应搜索过程,并增加了惰性Hessian更新。作者证明了该方法的全局复杂度界,并提高了先前已知界。
该研究探讨了深度神经网络的训练和网络参数之间的复杂动力学关系,发现训练网络往往沿着单一方向进行训练,被称为漂移模式。通过损失函数的二次势模型,解释了这种漂移模式,并提出其向潜在值的指数级缓慢衰减。通过奇异值分解,对权重矩阵进行了分解,以实用的方式识别 Hessian 内的关键方向,同时考虑其大小和曲率。最后,提出了一种有效的策略来缓解神经网络在学习新任务时遗忘之前任务知识的挑战。
该研究提出了一种适用于高维度优化问题的算法,结合了随机梯度下降和拟牛顿法,通过维护和操作每个贡献函数的独立 Hessian 近似值实现不同的方法的统一。该算法在七个不同的优化问题上进行了实验性的改进收敛表现,已发布为开源 Python 和 MATLAB 软件包。
该研究使用随机TR和ARC方法实现近似二阶最优性,减少每次迭代的传播开销。数值实验表明,该算法每次迭代所需的计算开销较当前的二阶方法更少。
本文介绍了一种名为SHOT的算法,可用于最小化目标模型和参考模型参数之间的距离。该算法适用于任何GBML基线,并已证明其优于对应基线的结果。
该研究使用随机梯度下降和经验Hessian和梯度矩阵的谱的联合演化,研究了训练动态的联合演化。研究证明,在多类高维混合和单层或两层神经网络的两个典型分类任务中,SGD轨迹迅速与Hessian和梯度矩阵的新出现的低秩异常特征空间对齐。这些结果证实了过去十年中关于过参数化网络在训练过程中Hessian和信息矩阵的谱的广泛数值研究中出现的一些丰富预测。
完成下面两步后,将自动完成登录并继续当前操作。