本研究解决了变压器各个组件间的差异与相互作用理解不足的问题。论文提出了一种新的块级学习率策略,根据每个组件的锐度调整学习率,从而加快大型语言模型的预训练。研究结果表明,此方法能够使模型训练速度提升近2倍,并显著降低终期损失。
本研究解决了锐度感知最小化(SAM)在分布外(OOD)泛化中的应用问题,针对现有SAM变体的效果进行深入比较。研究发现,原始SAM在零-shot OOD泛化中实现了比Adam基线高4.76%的提升,并且在逐渐领域适应中同样表现良好,这些发现对于进一步分析SAM的理论和实践具有重要意义。
本文介绍了多种半监督医学图像分割方法,包括双任务一致性框架、SS-Net、ARCO框架、DPMS方法和基于平均教师模型的DCPA方法。这些方法在有限标注数据下显著提升了医学图像分割的性能,并探讨了基于锐度的优化器对模型泛化能力的影响,强调了进一步优化的必要性。
本研究提出结合锐度感知最小化(SAM)和快速图形锐度感知最小化(FGSAM)算法,以提升图神经网络在少样本节点分类(FSNC)中的性能,显著增强模型的泛化能力和分类效果。
本研究提出了一种新黑箱优化算法SABO,通过重新参数化目标函数和更新参数化分布,提升模型泛化性能。理论分析证明了其收敛速率和泛化界限,实验结果验证了其有效性。
本文介绍了Sharpness-Aware Minimization(SAM)及其变体在提升神经网络泛化能力方面的有效性。研究表明,SAM通过最小化损失值和损失锐度,显著提高模型性能,并在多个数据集上取得优异结果。此外,改进方法如ASAM和F-SAM进一步优化了训练效率和准确性,解决了过拟合问题。
最近的研究发现,个体学习者的局部最小值的锐度和集成成员的差异是改善测试性能的关键因素。本研究探究了锐度和差异在深度集成中的相互作用,并展示了它们在对于分布内和分布外数据的稳健泛化中的关键作用。通过理论分析和实验证明了提出的训练方法SharpBalance可以平衡集成中的锐度和差异,显著提高集成的性能。
本文综述了深度学习在医学图像配准中的发展,探讨了连续学习技术的应用及其面临的挑战,如灾难性遗忘和数据漂移。研究提出了新方法以提高医学图像分析的性能,并展望了未来的研究方向,强调了跨机构模型共享的可行性。
研究人员探索了锐度感知极小化(SAM)和模型不可知元学习(MAML)之间的联系,并引入了一种新方法Agnostic-SAM,它结合了SAM和MAML的原则。实验结果表明,Agnostic-SAM在各种数据集和具有挑战性的条件下显著改善了泛化能力。
该论文提出了一种受领域启发的锐度感知极小化(Domain-Inspired Sharpness-Aware Minimization,DISAM)算法用于在领域变化下的优化问题。通过考虑锐度估计中的领域级收敛一致性,DISAM 引入了最小化领域损失方差的约束,实现了弹性梯度校准,在不同领域之间自动调整梯度扰动,从而实现更快的整体收敛和改进的泛化能力。在各种领域泛化基准测试中,大量实验证明了...
本研究提出了一种高效的Sharpness Aware Minimizer(SAM)改进方法,称为Efficient SAM,结合随机权重扰动和数据选择策略,显著提高训练效率,节省计算资源达60%。同时,分析了SAM在深度神经网络中的泛化性能,并提出基于梯度强度的自适应算法(GA-SAM),实验证明其在自然语言任务中的有效性。
在优化中使用模型EMA,提供了缩放规则,证明了其在不同架构、优化器和数据模态下的有效性。展示了模型EMA对目标模型优化的贡献,使得在小批量和大批量训练下使用EMA的方法能够以更高效的方式训练BYOL。
最近提出的深度神经网络优化算法SAM通过扰动参数引导优化到损失平坦的参数空间区域。动量-SAM(MSAM)通过在累积动量向量的方向上扰动参数实现低锐度。通过评估MSAM揭示了NAG、SAM和MSAM在训练优化和泛化方面的分离机制的洞察。
最近的研究表明,诸如 SAM 之类的方法能够明确或隐含地对二阶信息进行惩罚,从而提高深度学习的泛化能力。然而,权重噪声和梯度惩罚等看似类似的方法通常无法提供这样的好处。本文通过损失函数的海塞矩阵结构展示了这些差异可以得到解释。首先,我们展示了海塞矩阵的一个常见分解可以定量解释特征的利用和探索。探索特征可以由非线性建模误差矩阵 (NME)...
Sharpness-Aware Minimization (SAM)是一种有希望的训练方法,用于改善大型神经网络在存在标签噪声的情况下的泛化性能。该研究证明了在某些数据模型和两层卷积ReLU网络中,SAM优于随机梯度下降(SGD)。实验结果在合成和真实数据上支持了理论发现,SAM可以防止早期噪声学习并促进更有效的特征学习。
该文介绍了一种新颖的零射频锐化感知量化(ZSAQ)框架,用于各种预训练语言模型的零射频量化,并通过实验证明了该方法在鉴别性和生成性预训练语言模型上都带来了一致且显著的性能提升,最高可达 +6.98的平均得分,并且能够有效改善模型的泛化能力。同时,该文还理论证明了SAM-SGA优化算法的收敛速度以及该结果适用于其他非凸型极小-极大优化框架。
该研究提出了一种名为GCSCoOp的新方法,旨在提高视觉语言模型的可推广性能,同时保持对已知类别的性能。该方法通过动态约束优化梯度,同时实现了两个优化目标。实验证实了该方法在权衡问题上的有效性。
本文研究了类别不平衡挑战对识别任务的影响,发现Sharpness-Aware Minimization (SAM)无法解决泛化问题。为此,提出了Imbalanced-SAM (ImbSAM)算法,通过限制类别无关的SAM的泛化范围来改善对尾类的泛化。实验证明ImbSAM在长尾分类和半监督异常检测等应用中显著提高了性能。
完成下面两步后,将自动完成登录并继续当前操作。