小红花·文摘

本文讨论了优化算法在深度学习中的应用，重点介绍了梯度下降法及其变种，包括随机梯度下降（SGD）和动量法。通过小批量梯度下降提高训练效率，并介绍了RMSProp和Adam优化器的原理与优势，同时提到学习率调整策略和二阶优化方法的局限性。

CS231n 讲义 III：优化

Louis Aeilot's Blog ·

本研究探讨了差分隐私随机非凸优化中寻找二阶静态点的问题，提出了一种基于高斯噪声注入的随机梯度下降框架。该框架通过模型漂移距离判断是否逃离鞍点，确保收敛到近似局部最小值。算法在分布式学习中应用，为异构数据环境中的DP-SOSP提供了正式保证，并通过实际数据集验证了其有效性。

Second-Order Convergence in Private Stochastic Non-Convex Optimization

BriefGPT - AI 论文速递 ·

本研究提出了一种基于流形的随机梯度下降方法，解决了正则化的加权低秩逼近问题。实验结果显示，该算法在Netflix数据集上的表现优于传统方法，具有实际应用潜力。

基于流形的随机梯度下降的加权低秩逼近

BriefGPT - AI 论文速递 ·

本研究提出了一种双层闲聊去中心化并行随机梯度下降框架，旨在解决微控制器单元上部署去中心化联邦学习时的连接不稳定和网络动态问题。该方法在CIFAR-10数据集上验证了与中心化联邦学习相当的准确性，展示了在资源受限环境中的可扩展学习潜力。

Decentralized Resource Sharing in TinyML: Wireless Bilayer Gossip Parallel SGD for Collaborative Learning

BriefGPT - AI 论文速递 ·

简单的SGD方法在使用一半内存的情况下匹配Adam的性能

DEV Community ·

本研究探讨了前向梯度下降（FGD）在预测误差上相较于随机梯度下降（SGD）的表现。通过对每个训练样本进行多次FGD步骤，改善了亚最优性因子，并且当步骤数足够时，亚最优性速率消失。此外，FGD能够适应输入分布中的低维结构。

Improving the Convergence Speed of Forward Gradient Descent with Repeated Sampling

BriefGPT - AI 论文速递 ·

本文探讨了修正线性单元（ReLU）网络的表现力及其决策边界，证明了两层ReLU网络的决策边界可被阈值网络捕捉，并提出了减少隐藏单元数量的系数条件。实验验证了ReLU网络的学习能力，并提出了一种新的随机梯度下降算法，证明其在单隐藏层ReLU网络中能达到全局最优性。

单隐层ReLU网络的原理

BriefGPT - AI 论文速递 ·

本研究探讨了带标签噪声的预训练模型对随机梯度下降的影响，结果表明预训练在噪声环境中促进复杂特征学习，提升模型性能，并帮助梯度下降找到替代最小值，增强学习能力。

The Impact of Label Noise on Learning Complex Features

BriefGPT - AI 论文速递 ·

本文探讨了混合量子-经典优化中的随机梯度下降优化，证明了多种量子算法的收敛性。介绍了量子哈密顿模型和变分量子热化器的应用，提出了改进的学习算法以加速机器学习优化，并研究了量子测量对学习的影响。最终，提出了一种新算法以提高基态能量估计的效率，推动量子机器学习的发展。

量子玻尔兹曼机的自然梯度和参数估计

BriefGPT - AI 论文速递 ·

本文提出多种基于核的优化算法，包括随机梯度下降、贝叶斯优化和逆优化模型，旨在提高高维数据处理的效率和准确性。这些方法在处理噪声数据和多目标决策问题时表现优越，并有效降低计算复杂度。

可扩展的核逆优化

BriefGPT - AI 论文速递 ·

本文提出了一种多项式时间算法，解决对抗性污染下的线性和多项式回归问题，研究高维线性回归的稳健性，并提供有效的稀疏鲁棒线性回归算法。该算法通过新颖的硬阈值化方法和随机梯度下降，有效处理异常值和噪声，达到理论最优收敛速度。

具有非同质设计的稳健稀疏回归

BriefGPT - AI 论文速递 ·

本文探讨了深度残差网络（ResNet）的逼近能力，证明了其在动态同构和随机梯度下降中的有效性。研究表明，ResNet增强了窄深度网络的表征能力，并揭示了神经网络与控制系统之间的关系。通过数值实验验证了ResNet在分类任务中的训练效果，并提出了一种新的耗散式训练方法。

ODENet和ResNet的单一激活函数的通用逼近性质

BriefGPT - AI 论文速递 ·

本文研究了随机梯度下降（SGD）在超参数化两层神经网络训练中的应用，分析了不同激活函数对收敛性的影响，并提出了一种改进的学习率方法以提高训练效率。研究表明，SGD的收敛速度与模型架构、算法及数据集的相互作用密切相关，提出的隐性梯度下降法在稳定性和收敛性上表现优越。

关于Kolmogorov--Arnold网络的（随机）梯度下降收敛性

BriefGPT - AI 论文速递 ·

本文研究了差分隐私随机梯度下降（DP-SGD）在私有优化中的应用，首次分析了其二阶收敛性。结果显示，在标准平滑性假设下，DP-SGD能够实现二阶收敛，为现代私有优化提供理论支持，帮助找到二阶驻点。

Noise is What You Need: Private Second-Order Convergence of Noisy Stochastic Gradient Descent

BriefGPT - AI 论文速递 ·

研究解决了随机梯度下降在强凸光滑最小化问题中的偏差问题。新方法改进了均方误差的分解，明确了最优协方差矩阵的依赖性。发现均方误差的主要项为$ ^{-1/2}$，次主项为$ ^{-3/4}$，表明更精确的分析可推动SGD的应用。

带理查森-罗伯格外推的随机梯度下降的非渐近分析

BriefGPT - AI 论文速递 ·

本文研究了高维鲁棒回归中梯度下降、随机梯度下降及其近端变体的泛化性能。通过一致估计量提供了明确的泛化误差估计，并确定了最佳停止迭代以最小化误差。

Estimating the Generalization Performance of Robust Regression along the Proximal Stochastic Gradient Descent Path

BriefGPT - AI 论文速递 ·

本研究提出了一种新型的指数加权随机梯度下降算法，旨在解决时间序列预测中模型深度增加导致的时间复杂度上升问题。实验结果表明，该方法在K-U-Net上显著降低了复杂度并提高了预测准确性。

Learning K-U-Net with Constant Complexity: An Application to Time Series Forecasting

BriefGPT - AI 论文速递 ·

本文研究了差分隐私随机梯度下降（DP-SGD）算法在深度学习中的隐私保护效果，并提出了改进方法以平衡隐私与效用。研究发现，归一化层和噪声比例显著影响模型性能，提出了新算法DP-RandP和DP-FEST，以提高隐私保障和计算效率。

差分隐私正则化：通过损失函数正则化保护训练数据

BriefGPT - AI 论文速递 ·

本文探讨了随机梯度下降算法在未知线性时不变动态系统中收敛于全局极值的能力，尽管目标函数为非凸。研究提供了多项式运行时间和样本复杂度的界限，首次为线性系统识别问题提供了多项式保证，并分析了样本复杂性与控制目标之间的权衡。

基于有限样本的线性系统识别的样本复杂度界限

BriefGPT - AI 论文速递 ·

本文探讨了随机梯度下降（SGD）在机器学习中的收敛性，尤其是在深度神经网络训练中的应用。研究表明，在特定条件下，SGD能够有效收敛至全局最优解，并提出了新的框架以提高收敛性，适用于多种SGD变种。实验结果显示这些方法具有较高的效率和稳定性。

连续时间随机梯度下降的收敛性及其在线性深度神经网络中的应用

BriefGPT - AI 论文速递 ·