小红花·文摘

本研究提出了一种通用的策略梯度方法DRPMD，旨在解决强健马尔可夫决策过程中的模型不确定性问题，确保全局最优性，并在复杂场景中验证其强健性和全局收敛性。

Policy Gradient for Robust Markov Decision Processes

BriefGPT - AI 论文速递 ·

本文研究了ReLU神经网络的逼近能力，发现深层网络在逼近光滑函数方面优于浅层网络。通过分析超参数和随机初始化，证明了深层网络在优化中具有更强的全局收敛性。此外，过度参数化对优化景观有重要影响，浅层ReLU网络在高维空间中也能有效逼近Hölder函数。

随机浅层ReLU网络的函数梯度近似与控制应用

BriefGPT - AI 论文速递 ·

本研究提出了一种新拟牛顿方法，用于解决平滑和单调非线性方程，特别是无约束最小化和最小最大优化问题。通过在线学习更新雅可比矩阵，该方法在强单调性下比传统外梯度方法具有更好的全局收敛性和更快的收敛速度。

Quasi-Newton Method Guided by Online Learning and Its Global Non-Asymptotic Convergence

BriefGPT - AI 论文速递 ·

本文探讨了高维混合模型的参数估计及EM算法的改进，提出了一种基于矩估计法的无监督学习方法，改进了初始化技术以避免局部最优解问题，并提出了量子算法版本的EM算法，提升了收敛速度和精度。同时，研究了高斯混合模型的全局收敛性及其在过参数化设置中的表现。

利用热启动EM学习大型软最大混合模型

BriefGPT - AI 论文速递 ·

本文探讨了期望最大化（EM）算法在高维潜变量模型中的应用，提出了一种结合稀疏结构的新型高维EM算法。研究了高斯混合模型的梯度EM算法，证明其全局收敛性，并分析了学习过参数化GMM的挑战。此外，提出了基于边界优化的参数学习方法，强调数据预处理对算法性能的影响。

基于对数索勒维不等式的期望最大化算法快速收敛

BriefGPT - AI 论文速递 ·

本文提出了多种优化算法，解决非凸和非光滑的机器学习问题，包括近似正则化路径追踪、BFGS方法的扩展和随机拟牛顿方法。这些算法展示了全局收敛性和高效性，能够有效利用曲率信息，优化样本复杂度，适用于深度学习等领域。

一种适应性二阶方法用于非凸非光滑复合优化问题

BriefGPT - AI 论文速递 ·

本文提出了一种分布式黎曼共轭梯度下降（DRCGD）方法，旨在最小化斯蒂弗尔流形上的全局函数，具有全局收敛性和低计算复杂性。同时，研究探讨了在流形上应用黎曼梯度下降和信任区域法的优化问题，结果表明这些算法在满足精度要求时表现良好。

分布式无回退优化算法在 Stiefel 流形上的全局收敛性

BriefGPT - AI 论文速递 ·

本文探讨了改进的分析方法，研究随机梯度下降在深度神经网络中的全局收敛性。通过更紧密的梯度下限和算法轨迹描述，证明了卷积神经网络的收敛速度与参数数量、损失函数等因素相关，并在适当条件下可实现全局最优解。

梯度下降学习的超参数化卷积神经网络图像分类器收敛速率分析

BriefGPT - AI 论文速递 ·

本文研究了梯度算法在非凸问题中的应用，重点探讨了随机梯度下降在神经网络中的收敛性，分析了隐藏单元与数据规律的关系，并提出了新的训练方案。此外，研究还涉及马尔可夫决策过程中的全局收敛性及其与经验风险最小化的关联，表明在特定条件下，梯度流可达到全局最优解。

神经梯度下降上升的均场分析：应用于功能条件矩方程

BriefGPT - AI 论文速递 ·

该研究探讨了softmax策略梯度方法在无限时间马尔可夫决策过程中的全局收敛性，提出了动态策略梯度和熵正则化策略的有效性，证明了其收敛速度的优势，并分析了不同策略梯度方法的性能。

政策梯度方法的基本分析

BriefGPT - AI 论文速递 ·

本文研究了无限时间段平均回报的马尔可夫决策过程（MDP），提出了一种基于策略梯度的算法，证明了其全局收敛性及后悔度为$ ilde { ext{O}}({T}^{3/4})$。此外，首次探讨了具有一般策略参数化的平均回报CMDP的遗憾和约束分析，提出了原始对偶的策略梯度算法，确保低遗憾和约束违反。

无限时间平均回报马尔可夫决策过程的方差减少政策梯度方法

BriefGPT - AI 论文速递 ·

本研究探讨了强化学习中Actor-Critic算法的全局收敛性和最优性，证明了在使用神经网络时，算法以亚线性速率收敛于全局最优策略，并分析了共享神经结构和随机初始化对收敛性的影响，为神经策略梯度方法的优化提供了理论支持。

在线神经演员 - 评论家算法的弱收敛分析

BriefGPT - AI 论文速递 ·

本文提出了一种新的Mean Actor-Critic（MAC）算法，旨在优化离散动作连续状态的强化学习。该算法通过显式表示所有动作值来减少策略梯度估计的方差，并在多个控制领域和Atari游戏中表现出竞争力。此外，研究探讨了Actor-Critic算法的全局收敛性和最优性，提出了改进的性能界限，并在交通信号控制等应用中展示了其实用性。

通过多层级演员 - 评论家算法在平均奖励强化学习中实现全局最优性无需混合时间预言机

BriefGPT - AI 论文速递 ·