本文回顾了作者15年的博客写作历程,特别是过去三年因ChatGPT激发的技术热情。重点介绍了新发布的Act2Goal框架,该框架结合目标条件世界模型与多尺度时间哈希机制,旨在解决长时域目标操作中的挑战,实现机器人在复杂任务中的自主改进。通过Hindsight Experience Replay,Act2Goal能够在没有外部奖励的情况下快速适应新环境,提升机器人控制能力。
本研究提出KIPPO方法,利用库普曼近似辅助网络提升复杂非线性动态环境中的控制策略学习效果。实验结果表明,KIPPO在连续控制任务中性能提升6-60%,方差减少91%。
本研究提出了一种去中心化分布式近端策略优化(DD-PPO)算法,旨在解决高性能计算环境中的资源分配与作业调度问题。该算法在多用户系统中显著提高了调度效率和灵活性,优于传统调度方法和现有强化学习调度技术。
本研究提出HEPPO,一种基于FPGA的加速器,优化近端策略优化中的广义优势估计。实验结果表明,训练速度提高30%,内存使用减少4倍,具有广泛的应用潜力。
本文介绍了稀疏子空间聚类(SSC)算法,该算法通过稀疏优化处理高维数据中的噪音和非典型数据。研究提出了多种改进方法,如基于稀疏正则化的聚类和双重随机自适应邻居聚类算法,实验结果表明这些方法在聚类效果和计算效率上具有优势。
本文探讨了模型预测控制与强化学习的结合,提出了多种算法(如PPO和DMPO)在四旋翼飞行器控制中的应用。研究表明,基于模型的方法在样本复杂度上优于无模型方法,且DMPO在性能和内存使用上表现出色。此外,新型参数化控制器在解释性和性能上优于传统控制器,展示了实际应用的潜力。
本研究着重解决了展开近端神经网络(PNNs)训练中效率不足的问题。通过提出基于Bregman距离的提升训练公式,结合确定性的小批量块坐标前向-后向方法,开发了一种超越传统反向传播的计算策略。该方法在图像去噪任务中的数值模拟中表现出色,展示了PNNs在计算成像领域的潜在应用价值。
本文研究了多智能体强化学习中的信用分配问题,提出了新算法CoPPO和IA-MAPPO,以提高多智能体系统的效率和稳定性。实验结果表明,这些算法在合作任务中表现优异,显著降低了通信开销,改善了决策能力。
本文探讨了渐进流模型和得分基础生成模型的数学结构,提出了一种基于核函数的得分函数模型,以提升训练性能。通过最小化Wasserstein损失,解决无监督学习问题,并证明了常微分方程(ODE)与真实数据分布之间的关系。此外,研究还提出了Wasserstein梯度流方法,展示了其在高维数据集上的性能和可扩展性。
通过结合 Large Language Models 的推理能力和 Tree Search 的效果,我们提出了一种基于 Self-Rewarding Tree Search 的新型 LLM 检索方法,通过使用 SeRTS 收集的轨迹作为反馈来使用 Proximal Policy Optimization 优化 LLMs,从而显著提高了在医学知识查询背景下 RAG...
利用近似策略优化(PPO)引导大语言模型(LLM)来增强表格特征的概率分布,从而使 LLM 成为用于合成表格数据的生成器,在三个真实数据集上通过实验证明,该方法相对于最先进技术提高了约 4%的合成模型准确性。
本文提出了一种加速的拟牛顿近端外推算法(A-QPNE),用于解决无约束光滑凸优化问题,并证明其收敛速度优于NAG算法。此外,研究还探讨了随机近端梯度算法的收敛性质,避免了常见的有界性假设,并分析了多种优化方法的收敛性和效率。
提出了一个支持各种投影选项的通用近端框架,基于凸紧致支撑体上定义的强对数凹分布进行采样,并与多种采样方法无缝集成,主要研究集中在约束采样的 Langevin 型采样算法,提供了 W1 和 W2 误差的非渐进上界,详细比较了这些方法在约束采样中的性能。
本研究提出了多种基于强化学习的优化算法,包括乐观策略优化(OPPO)和近端策略优化(PPO)及其改进版本,旨在提升自主代理的学习效果和样本效率。这些方法在处理奖励稀少和复杂任务方面表现优异,尤其在自动驾驶和深度强化学习领域具有良好的应用前景。
本研究提出了一种新的方法和算法,用于处理具有上下级变量耦合的约束双层优化问题。通过设计平滑的近端 Lagrangian 值函数来处理约束的下层问题,并将原始问题转化为具有平滑约束的等价优化问题。该算法适用于机器学习应用,是一种基于近端 Lagrangian 值函数的非 Hessian 梯度算法。实证结果验证了该算法在实际性能上的优越性。
本文研究了基于正则化预期奖励优化问题的随机近端梯度方法。通过应用高效的随机方差缩减近端梯度方法和基于重要性采样的概率梯度估计器,样本复杂度从O(ε^{-4})提高到O(ε^{-3})。在强化学习文献中,该方法与竞争对手的随机近端梯度方法的样本复杂度相匹配。
通过将可微分环境的解析梯度与PPO算法相结合,提出了一种新的策略学习方法。通过自适应修改alpha值,有效管理学习过程中解析策略梯度的影响,并提出了评估解析梯度方差和偏差的度量标准,在检测到高方差或偏差时减少对这些梯度的依赖。该方法在函数优化、物理模拟和交通控制等场景中优于基准算法。
本文介绍了插拔式去噪的流行迭代框架,提供了关于正则化理论的概述,并调查了几种新近的数据驱动方法作为正则化方案。同时,提出了一种新颖的谱滤波技术来控制正则化强度,并严格证明了插拔式与线性去噪器的收敛正则化方案。数值实验验证了这个理论分析在层析成像的经典反问题中的有效性。
该研究提出了一种基于梯度流的无参数算法,用于学习复杂数据集的潜在分布和从中进行抽样。实验结果表明,该算法能够成功地捕捉不同类型的数据分布结构。
该文介绍了一种新的算法来解决复合联合学习问题,通过分离近端算子和通信来管理非光滑正则化,解决客户端漂移问题。该算法证明了线性收敛到最优解的邻域,并在数值实验中展示了相对于最先进的方法的优越性。
完成下面两步后,将自动完成登录并继续当前操作。