本文回顾了作者15年的博客写作历程,特别是过去三年因ChatGPT激发的技术热情。重点介绍了新发布的Act2Goal框架,该框架结合目标条件世界模型与多尺度时间哈希机制,旨在解决长时域目标操作中的挑战,实现机器人在复杂任务中的自主改进。通过Hindsight Experience Replay,Act2Goal能够在没有外部奖励的情况下快速适应新环境,提升机器人控制能力。
本研究提出KIPPO方法,利用库普曼近似辅助网络提升复杂非线性动态环境中的控制策略学习效果。实验结果表明,KIPPO在连续控制任务中性能提升6-60%,方差减少91%。
本研究提出了一种去中心化分布式近端策略优化(DD-PPO)算法,旨在解决高性能计算环境中的资源分配与作业调度问题。该算法在多用户系统中显著提高了调度效率和灵活性,优于传统调度方法和现有强化学习调度技术。
本研究探讨了专业技能学习中个性化指导不足的问题,提出通过共享自治框架改进教学策略,发现自主代理显著提升学习效率与效果。
本研究提出HEPPO,一种基于FPGA的加速器,优化近端策略优化中的广义优势估计。实验结果表明,训练速度提高30%,内存使用减少4倍,具有广泛的应用潜力。
本文针对强化学习中的延迟奖励问题,提出了对近端策略优化(PPO)算法的两项增强,结合离线与在线策略,并引入基于时间窗口的奖励塑造机制,以提高学习效率和性能。
本文介绍了稀疏子空间聚类算法,该算法通过在低维结构中聚类高维数据点,利用稀疏优化处理数据噪音和异常值。实验结果表明,该算法高效且效果良好。
本文提出了一种新的参数化控制器,通过学习问题参数而不是从模型中导出,解决了深度强化学习中学习控制器的局限性。学习到的控制器具有可验证特性,并在控制性能上与其他控制器相当。通过车辆漂移操纵任务的实际应用,展示了该控制器的潜力。
本研究着重解决了展开近端神经网络(PNNs)训练中效率不足的问题。通过提出基于Bregman距离的提升训练公式,结合确定性的小批量块坐标前向-后向方法,开发了一种超越传统反向传播的计算策略。该方法在图像去噪任务中的数值模拟中表现出色,展示了PNNs在计算成像领域的潜在应用价值。
该研究开发了一种多智能体强化学习算法,用于优化多个多基站多小区网络的能耗和服务质量。该算法通过协作基站控制策略,在低流量和高流量小时内分别减少了约8.7%的功耗和提高了约19%的能源效率。
通过Wasserstein-1和Wasserstein-2近似操作符,使用连续时间生成流的良构形式学习低维流形上支撑的分布。生成流可以通过最优性条件进行分析,解决方案刻画了最优生成流。MFG理论表明Wasserstein-1和Wasserstein-2近似是必要的。生成流通过对抗性训练学习,无需反向仿真。方法在生成高维图像方面有效。
通过结合 Large Language Models 的推理能力和 Tree Search 的效果,我们提出了一种基于 Self-Rewarding Tree Search 的新型 LLM 检索方法,通过使用 SeRTS 收集的轨迹作为反馈来使用 Proximal Policy Optimization 优化 LLMs,从而显著提高了在医学知识查询背景下 RAG...
利用近似策略优化(PPO)引导大语言模型(LLM)来增强表格特征的概率分布,从而使 LLM 成为用于合成表格数据的生成器,在三个真实数据集上通过实验证明,该方法相对于最先进技术提高了约 4%的合成模型准确性。
本文研究了解决两个函数之和的最小值问题的外推梯度方法,证明了该方法在特定假设下的收敛性和收敛率,并展示了数值结果。
提出了一个支持各种投影选项的通用近端框架,基于凸紧致支撑体上定义的强对数凹分布进行采样,并与多种采样方法无缝集成,主要研究集中在约束采样的 Langevin 型采样算法,提供了 W1 和 W2 误差的非渐进上界,详细比较了这些方法在约束采样中的性能。
本研究提出了一种新的增强学习方法,称为近端策略优化(PPO),通过与环境交互采样数据并使用随机梯度上升优化“替代”目标函数。实验结果表明,PPO在模拟机器人运动和Atari视频游戏等任务上表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率方面取得了平衡。
本研究提出了一种新的方法和算法,用于处理具有上下级变量耦合的约束双层优化问题。通过设计平滑的近端 Lagrangian 值函数来处理约束的下层问题,并将原始问题转化为具有平滑约束的等价优化问题。该算法适用于机器学习应用,是一种基于近端 Lagrangian 值函数的非 Hessian 梯度算法。实证结果验证了该算法在实际性能上的优越性。
本文研究了基于正则化预期奖励优化问题的随机近端梯度方法。通过应用高效的随机方差缩减近端梯度方法和基于重要性采样的概率梯度估计器,样本复杂度从O(ε^{-4})提高到O(ε^{-3})。在强化学习文献中,该方法与竞争对手的随机近端梯度方法的样本复杂度相匹配。
通过将可微分环境的解析梯度与PPO算法相结合,提出了一种新的策略学习方法。通过自适应修改alpha值,有效管理学习过程中解析策略梯度的影响,并提出了评估解析梯度方差和偏差的度量标准,在检测到高方差或偏差时减少对这些梯度的依赖。该方法在函数优化、物理模拟和交通控制等场景中优于基准算法。
本文介绍了插拔式去噪的流行迭代框架,提供了关于正则化理论的概述,并调查了几种新近的数据驱动方法作为正则化方案。同时,提出了一种新颖的谱滤波技术来控制正则化强度,并严格证明了插拔式与线性去噪器的收敛正则化方案。数值实验验证了这个理论分析在层析成像的经典反问题中的有效性。
完成下面两步后,将自动完成登录并继续当前操作。