本研究解决了变压器各个组件间的差异与相互作用理解不足的问题。论文提出了一种新的块级学习率策略,根据每个组件的锐度调整学习率,从而加快大型语言模型的预训练。研究结果表明,此方法能够使模型训练速度提升近2倍,并显著降低终期损失。
本研究解决了锐度感知最小化(SAM)在分布外(OOD)泛化中的应用问题,针对现有SAM变体的效果进行深入比较。研究发现,原始SAM在零-shot OOD泛化中实现了比Adam基线高4.76%的提升,并且在逐渐领域适应中同样表现良好,这些发现对于进一步分析SAM的理论和实践具有重要意义。
本研究提出了一种基于$f$-散度最小化的锐度感知优化方法(DiM),旨在解决半监督医学图像分割中模型对数据集分布差异的忽视问题,从而增强模型的稳定性与适应性,提升源数据集与目标数据集的性能平衡。
本研究提出结合锐度感知最小化(SAM)和快速图形锐度感知最小化(FGSAM)算法,以提升图神经网络在少样本节点分类(FSNC)中的性能,显著增强模型的泛化能力和分类效果。
本研究提出了一种新黑箱优化算法SABO,通过重新参数化目标函数和更新参数化分布,提升模型泛化性能。理论分析证明了其收敛速率和泛化界限,实验结果验证了其有效性。
本研究提出了一种基于物理的去卷积方法,通过模型化点扩散函数提高超声成像分辨率,直接处理B模式图像,显著提升清晰度。该方法在多项指标上优于传统技术,并通过虚拟模型和体内实验验证了其应用潜力。
本研究解决了深度神经网络模型在训练中寻找平坦局部最小值的能力不足的问题。通过理论分析,论文提出了锐度感知最小化算法(GSAM),在使用逐步增大的批量大小或衰减学习率的情况下,GSAM能够更有效地收敛。数值比较表明,使用GSAM方法能够找到更平坦的局部最小值,相比于使用恒定批量大小和学习率的方法。
本文提出了一种高效的Sparse SAM训练方案,以减少计算量并实现平滑损失函数的目标。通过Fisher信息和动态稀疏训练,提供了两种不同的稀疏干扰解决方案。实验证明,与SAM相比,该方案在CIFAR和ImageNet-1K上具有更好的效率和表现。
Sharpness-Aware Minimization (SAM)是一种有前景的训练方法,用于改善大型神经网络的泛化性能。本文填补了对非线性神经网络和分类任务中SAM工作原理的理解空白。研究表明,在某种数据模型和两层卷积ReLU网络中,SAM优于随机梯度下降(SGD)。结果解释了SAM的好处,特别是其能够防止早期阶段的噪声学习,并促进更有效的特征学习。通过对合成和真实数据的实验验证了该理论。
最近的研究发现,个体学习者的局部最小值的锐度和集成成员的差异是改善测试性能的关键因素。本研究探究了锐度和差异在深度集成中的相互作用,并展示了它们在对于分布内和分布外数据的稳健泛化中的关键作用。通过理论分析和实验证明了提出的训练方法SharpBalance可以平衡集成中的锐度和差异,显著提高集成的性能。
深度学习算法在医学影像分析中取得进展,但模型性能受数据变化影响。本文综述了连续学习技术在医学影像分析中的应用,包括灾难性遗忘、数据漂移、稳定性和可塑性要求等方面的研究。同时讨论了连续学习方案、技术、评价方案和指标等关键组成部分。
研究人员探索了锐度感知极小化(SAM)和模型不可知元学习(MAML)之间的联系,并引入了一种新方法Agnostic-SAM,它结合了SAM和MAML的原则。实验结果表明,Agnostic-SAM在各种数据集和具有挑战性的条件下显著改善了泛化能力。
该论文提出了一种受领域启发的锐度感知极小化(Domain-Inspired Sharpness-Aware Minimization,DISAM)算法用于在领域变化下的优化问题。通过考虑锐度估计中的领域级收敛一致性,DISAM 引入了最小化领域损失方差的约束,实现了弹性梯度校准,在不同领域之间自动调整梯度扰动,从而实现更快的整体收敛和改进的泛化能力。在各种领域泛化基准测试中,大量实验证明了...
Sharpness-Aware Minimization (SAM)是一种有前景的训练方法,用于改善大型神经网络的泛化性能,即使在存在标签噪声的情况下也能有效。本文填补了对非线性神经网络和分类任务中SAM工作原理的理解空白。研究表明,在特定数据模型和两层卷积ReLU网络中,SAM优于随机梯度下降(SGD)。结果解释了SAM的好处,特别是其能够防止早期阶段的噪声学习,并促进更有效的特征学习。通过对合成和真实数据的实验证实了该理论。
在优化中使用模型EMA,提供了缩放规则,证明了其在不同架构、优化器和数据模态下的有效性。展示了模型EMA对目标模型优化的贡献,使得在小批量和大批量训练下使用EMA的方法能够以更高效的方式训练BYOL。
最近提出的深度神经网络优化算法SAM通过扰动参数引导优化到损失平坦的参数空间区域。动量-SAM(MSAM)通过在累积动量向量的方向上扰动参数实现低锐度。通过评估MSAM揭示了NAG、SAM和MSAM在训练优化和泛化方面的分离机制的洞察。
最近的研究表明,诸如 SAM 之类的方法能够明确或隐含地对二阶信息进行惩罚,从而提高深度学习的泛化能力。然而,权重噪声和梯度惩罚等看似类似的方法通常无法提供这样的好处。本文通过损失函数的海塞矩阵结构展示了这些差异可以得到解释。首先,我们展示了海塞矩阵的一个常见分解可以定量解释特征的利用和探索。探索特征可以由非线性建模误差矩阵 (NME)...
Sharpness-Aware Minimization (SAM)是一种有希望的训练方法,用于改善大型神经网络在存在标签噪声的情况下的泛化性能。该研究证明了在某些数据模型和两层卷积ReLU网络中,SAM优于随机梯度下降(SGD)。实验结果在合成和真实数据上支持了理论发现,SAM可以防止早期噪声学习并促进更有效的特征学习。
该文介绍了一种新颖的零射频锐化感知量化(ZSAQ)框架,用于各种预训练语言模型的零射频量化,并通过实验证明了该方法在鉴别性和生成性预训练语言模型上都带来了一致且显著的性能提升,最高可达 +6.98的平均得分,并且能够有效改善模型的泛化能力。同时,该文还理论证明了SAM-SGA优化算法的收敛速度以及该结果适用于其他非凸型极小-极大优化框架。
该研究提出了一种名为GCSCoOp的新方法,旨在提高视觉语言模型的可推广性能,同时保持对已知类别的性能。该方法通过动态约束优化梯度,同时实现了两个优化目标。实验证实了该方法在权衡问题上的有效性。
完成下面两步后,将自动完成登录并继续当前操作。