小红花·文摘

该论文提出了一种适应性方法，用于非凸连续学习的收敛性分析。该方法通过调整先前和当前任务的梯度步长，以达到与SGD方法相同的收敛速度，并在减轻灾难性遗忘项的情况下改进了连续学习在图像分类任务中的性能。

关于自适应方法在连续学习中的收敛性

BriefGPT - AI 论文速递 ·

通过对基于 Transformer 架构的大型语言模型进行研究，本文证明了在均场动力学中，无论高度非凸的参数分布的无限维损失曲面，均很温和，而 Wasserstein 梯度流几乎总是避免鞍点，这是对均场动力学的第一次鞍点分析，相关技术具有独立的研究价值。

变压器学习上下文中的非线性特征：基于注意力场景的非凸平均场动力学

BriefGPT - AI 论文速递 ·

该研究提出了一种名为Newton Sketch的随机化二阶优化方法，可用于近似牛顿步。该算法证明具有超线性收敛和指数高概率，与条件数和相关问题独立的收敛和复杂度保证。该方法可应用于多种问题，如线性程序、带凸约束的二次程序、逻辑回归和其他广义线性模型以及半定规划的扩展问题。

用于具有尖锐保证的凸和非凸正则化最小二乘的素描

BriefGPT - AI 论文速递 ·

本文重新审视了基于信号的方法，并在更现实的一阶和二阶平滑性的假设下分析了其收敛性。对最近开发的 LION 算法的计算优势有了深入了解。在分布式环境中，证明了这种非凸加速度随着节点数量的线性加速性仍然存在。

重新思考 SIGN 训练：可证明的非凸加速，无需一阶和二阶梯度 Lipschitz

BriefGPT - AI 论文速递 ·

该研究提出了两种新的拜占庭容错化方法，能够在非凸和 Polyak-Lojasiewicz 平滑优化问题中具有更好的收敛速率、更小的邻域大小以及更能容忍拜占庭节点。同时，还开发了带有压缩和误差反馈的第一种拜占庭容错化方法，并推导了这些方法在非凸和 Polyak-Lojasiewicz 平滑情况下的收敛速率，并通过数值实验证明了理论发现。

拜占庭强健学习的通信压缩：新的高效算法和改进的速率

BriefGPT - AI 论文速递 ·

非凸高性能日志库ftlog...

非凸开源：Rust高性能日志库ftlog

Rust.cc ·