小红花·文摘

$Act2Goal——基于世界模型生成未来视觉轨迹以指导低层运动控制：通过MSTH将轨迹分解为近端和远端帧，且基于HER实现无需外部奖励的在线自主改进$

Act2Goal——基于世界模型生成未来视觉轨迹以指导低层运动控制：通过MSTH将轨迹分解为近端和远端帧，且基于HER实现无需外部奖励的在线自主改进

结构之法算法之道 ·

本研究提出KIPPO方法，利用库普曼近似辅助网络提升复杂非线性动态环境中的控制策略学习效果。实验结果表明，KIPPO在连续控制任务中性能提升6-60%，方差减少91%。

KIPPO：受库普曼启发的近端策略优化

BriefGPT - AI 论文速递 ·

本研究提出了一种去中心化分布式近端策略优化（DD-PPO）算法，旨在解决高性能计算环境中的资源分配与作业调度问题。该算法在多用户系统中显著提高了调度效率和灵活性，优于传统调度方法和现有强化学习调度技术。

面向高性能计算调度的去中心化分布式近端策略优化（DD-PPO）

BriefGPT - AI 论文速递 ·

本研究提出HEPPO，一种基于FPGA的加速器，优化近端策略优化中的广义优势估计。实验结果表明，训练速度提高30%，内存使用减少4倍，具有广泛的应用潜力。

HEPPO：硬件高效的近端策略优化 — 一种通用的管道架构用于广义优势估计

BriefGPT - AI 论文速递 ·

本文介绍了稀疏子空间聚类（SSC）算法，该算法通过稀疏优化处理高维数据中的噪音和非典型数据。研究提出了多种改进方法，如基于稀疏正则化的聚类和双重随机自适应邻居聚类算法，实验结果表明这些方法在聚类效果和计算效率上具有优势。

局部正则化稀疏图的快速近端梯度下降算法

BriefGPT - AI 论文速递 ·

本文探讨了模型预测控制与强化学习的结合，提出了多种算法（如PPO和DMPO）在四旋翼飞行器控制中的应用。研究表明，基于模型的方法在样本复杂度上优于无模型方法，且DMPO在性能和内存使用上表现出色。此外，新型参数化控制器在解释性和性能上优于传统控制器，展示了实际应用的潜力。

模型预测控制与近端策略优化在单自由度直升机系统中的比较

BriefGPT - AI 论文速递 ·

本研究着重解决了展开近端神经网络（PNNs）训练中效率不足的问题。通过提出基于Bregman距离的提升训练公式，结合确定性的小批量块坐标前向-后向方法，开发了一种超越传统反向传播的计算策略。该方法在图像去噪任务中的数值模拟中表现出色，展示了PNNs在计算成像领域的潜在应用价值。

一种提升的Bregman策略用于训练展开的近端神经网络高斯去噪器

BriefGPT - AI 论文速递 ·

本文研究了多智能体强化学习中的信用分配问题，提出了新算法CoPPO和IA-MAPPO，以提高多智能体系统的效率和稳定性。实验结果表明，这些算法在合作任务中表现优异，显著降低了通信开销，改善了决策能力。

基于部分奖励解耦的多智能体近端策略优化中的信用分配

BriefGPT - AI 论文速递 ·

本文探讨了渐进流模型和得分基础生成模型的数学结构，提出了一种基于核函数的得分函数模型，以提升训练性能。通过最小化Wasserstein损失，解决无监督学习问题，并证明了常微分方程（ODE）与真实数据分布之间的关系。此外，研究还提出了Wasserstein梯度流方法，展示了其在高维数据集上的性能和可扩展性。

结合 Wasserstein-1 和 Wasserstein-2 近端算子：通过良设生成流进行稳健流形学习

BriefGPT - AI 论文速递 ·

通过结合 Large Language Models 的推理能力和 Tree Search 的效果，我们提出了一种基于 Self-Rewarding Tree Search 的新型 LLM 检索方法，通过使用 SeRTS 收集的轨迹作为反馈来使用 Proximal Policy Optimization 优化 LLMs，从而显著提高了在医学知识查询背景下 RAG...

增强医学知识检索辅助生成：自奖励树搜索和近端策略优化

BriefGPT - AI 论文速递 ·

利用近似策略优化（PPO）引导大语言模型（LLM）来增强表格特征的概率分布，从而使 LLM 成为用于合成表格数据的生成器，在三个真实数据集上通过实验证明，该方法相对于最先进技术提高了约 4％的合成模型准确性。

P-TA：使用近端策略优化增强大型语言模型下的表格数据增强技术

BriefGPT - AI 论文速递 ·

本文提出了一种加速的拟牛顿近端外推算法（A-QPNE），用于解决无约束光滑凸优化问题，并证明其收敛速度优于NAG算法。此外，研究还探讨了随机近端梯度算法的收敛性质，避免了常见的有界性假设，并分析了多种优化方法的收敛性和效率。

随机牛顿近端外推法

BriefGPT - AI 论文速递 ·

提出了一个支持各种投影选项的通用近端框架，基于凸紧致支撑体上定义的强对数凹分布进行采样，并与多种采样方法无缝集成，主要研究集中在约束采样的 Langevin 型采样算法，提供了 W1 和 W2 误差的非渐进上界，详细比较了这些方法在约束采样中的性能。

紧支持上的对数凹采样：一个通用的近端框架

BriefGPT - AI 论文速递 ·

本研究提出了多种基于强化学习的优化算法，包括乐观策略优化（OPPO）和近端策略优化（PPO）及其改进版本，旨在提升自主代理的学习效果和样本效率。这些方法在处理奖励稀少和复杂任务方面表现优异，尤其在自动驾驶和深度强化学习领域具有良好的应用前景。

使用课程学习和奖励工程的近端策略优化解决实际优化问题

BriefGPT - AI 论文速递 ·

本研究提出了一种新的方法和算法，用于处理具有上下级变量耦合的约束双层优化问题。通过设计平滑的近端 Lagrangian 值函数来处理约束的下层问题，并将原始问题转化为具有平滑约束的等价优化问题。该算法适用于机器学习应用，是一种基于近端 Lagrangian 值函数的非 Hessian 梯度算法。实证结果验证了该算法在实际性能上的优越性。

受约束的双层优化：近端拉格朗日值函数方法与无 Hessian 算法

BriefGPT - AI 论文速递 ·

本文研究了基于正则化预期奖励优化问题的随机近端梯度方法。通过应用高效的随机方差缩减近端梯度方法和基于重要性采样的概率梯度估计器，样本复杂度从O(ε^{-4})提高到O(ε^{-3})。在强化学习文献中，该方法与竞争对手的随机近端梯度方法的样本复杂度相匹配。

关于随机（方差减少）近端梯度法在正则化期望回报优化中的应用

BriefGPT - AI 论文速递 ·

通过将可微分环境的解析梯度与PPO算法相结合，提出了一种新的策略学习方法。通过自适应修改alpha值，有效管理学习过程中解析策略梯度的影响，并提出了评估解析梯度方差和偏差的度量标准，在检测到高方差或偏差时减少对这些梯度的依赖。该方法在函数优化、物理模拟和交通控制等场景中优于基准算法。

梯度信息启发式近端策略优化

BriefGPT - AI 论文速递 ·

本文介绍了插拔式去噪的流行迭代框架，提供了关于正则化理论的概述，并调查了几种新近的数据驱动方法作为正则化方案。同时，提出了一种新颖的谱滤波技术来控制正则化强度，并严格证明了插拔式与线性去噪器的收敛正则化方案。数值实验验证了这个理论分析在层析成像的经典反问题中的有效性。

收敛的即插即用方法：近端去噪器和无约束正则化参数

BriefGPT - AI 论文速递 ·

该研究提出了一种基于梯度流的无参数算法，用于学习复杂数据集的潜在分布和从中进行抽样。实验结果表明，该算法能够成功地捕捉不同类型的数据分布结构。

通过 Wasserstein 空间中的近端梯度下降实现基于流的生成模型的收敛

BriefGPT - AI 论文速递 ·

该文介绍了一种新的算法来解决复合联合学习问题，通过分离近端算子和通信来管理非光滑正则化，解决客户端漂移问题。该算法证明了线性收敛到最优解的邻域，并在数值实验中展示了相对于最先进的方法的优越性。

基于近端增广拉格朗日算法的具有全局和本地凸锥约束的联邦学习

BriefGPT - AI 论文速递 ·