小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Act2Goal——基于世界模型生成未来视觉轨迹以指导低层运动控制:通过MSTH将轨迹分解为近端和远端帧,且基于HER实现无需外部奖励的在线自主改进

本文回顾了作者15年的博客写作历程,特别是过去三年因ChatGPT激发的技术热情。重点介绍了新发布的Act2Goal框架,该框架结合目标条件世界模型与多尺度时间哈希机制,旨在解决长时域目标操作中的挑战,实现机器人在复杂任务中的自主改进。通过Hindsight Experience Replay,Act2Goal能够在没有外部奖励的情况下快速适应新环境,提升机器人控制能力。

Act2Goal——基于世界模型生成未来视觉轨迹以指导低层运动控制:通过MSTH将轨迹分解为近端和远端帧,且基于HER实现无需外部奖励的在线自主改进

结构之法 算法之道
结构之法 算法之道 · 2026-01-01T14:46:08Z

本研究提出KIPPO方法,利用库普曼近似辅助网络提升复杂非线性动态环境中的控制策略学习效果。实验结果表明,KIPPO在连续控制任务中性能提升6-60%,方差减少91%。

KIPPO:受库普曼启发的近端策略优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了一种去中心化分布式近端策略优化(DD-PPO)算法,旨在解决高性能计算环境中的资源分配与作业调度问题。该算法在多用户系统中显著提高了调度效率和灵活性,优于传统调度方法和现有强化学习调度技术。

面向高性能计算调度的去中心化分布式近端策略优化(DD-PPO)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z

本研究探讨了专业技能学习中个性化指导不足的问题,提出通过共享自治框架改进教学策略,发现自主代理显著提升学习效率与效果。

共享自治在近端教学中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z

本研究提出HEPPO,一种基于FPGA的加速器,优化近端策略优化中的广义优势估计。实验结果表明,训练速度提高30%,内存使用减少4倍,具有广泛的应用潜力。

HEPPO:硬件高效的近端策略优化 — 一种通用的管道架构用于广义优势估计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-22T00:00:00Z

本文针对强化学习中的延迟奖励问题,提出了对近端策略优化(PPO)算法的两项增强,结合离线与在线策略,并引入基于时间窗口的奖励塑造机制,以提高学习效率和性能。

利用任务预测加速近端策略优化学习以解决延迟奖励的游戏

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-26T00:00:00Z

本文介绍了稀疏子空间聚类算法,该算法通过在低维结构中聚类高维数据点,利用稀疏优化处理数据噪音和异常值。实验结果表明,该算法高效且效果良好。

局部正则化稀疏图的快速近端梯度下降算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-25T00:00:00Z

本文提出了一种新的参数化控制器,通过学习问题参数而不是从模型中导出,解决了深度强化学习中学习控制器的局限性。学习到的控制器具有可验证特性,并在控制性能上与其他控制器相当。通过车辆漂移操纵任务的实际应用,展示了该控制器的潜力。

模型预测控制与近端策略优化在单自由度直升机系统中的比较

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-28T00:00:00Z

本研究着重解决了展开近端神经网络(PNNs)训练中效率不足的问题。通过提出基于Bregman距离的提升训练公式,结合确定性的小批量块坐标前向-后向方法,开发了一种超越传统反向传播的计算策略。该方法在图像去噪任务中的数值模拟中表现出色,展示了PNNs在计算成像领域的潜在应用价值。

一种提升的Bregman策略用于训练展开的近端神经网络高斯去噪器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-16T00:00:00Z

该研究开发了一种多智能体强化学习算法,用于优化多个多基站多小区网络的能耗和服务质量。该算法通过协作基站控制策略,在低流量和高流量小时内分别减少了约8.7%的功耗和提高了约19%的能源效率。

基于部分奖励解耦的多智能体近端策略优化中的信用分配

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-08T00:00:00Z

通过Wasserstein-1和Wasserstein-2近似操作符,使用连续时间生成流的良构形式学习低维流形上支撑的分布。生成流可以通过最优性条件进行分析,解决方案刻画了最优生成流。MFG理论表明Wasserstein-1和Wasserstein-2近似是必要的。生成流通过对抗性训练学习,无需反向仿真。方法在生成高维图像方面有效。

结合 Wasserstein-1 和 Wasserstein-2 近端算子:通过良设生成流进行稳健流形学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-16T00:00:00Z

通过结合 Large Language Models 的推理能力和 Tree Search 的效果,我们提出了一种基于 Self-Rewarding Tree Search 的新型 LLM 检索方法,通过使用 SeRTS 收集的轨迹作为反馈来使用 Proximal Policy Optimization 优化 LLMs,从而显著提高了在医学知识查询背景下 RAG...

增强医学知识检索辅助生成:自奖励树搜索和近端策略优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z

利用近似策略优化(PPO)引导大语言模型(LLM)来增强表格特征的概率分布,从而使 LLM 成为用于合成表格数据的生成器,在三个真实数据集上通过实验证明,该方法相对于最先进技术提高了约 4%的合成模型准确性。

P-TA:使用近端策略优化增强大型语言模型下的表格数据增强技术

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z

本文研究了解决两个函数之和的最小值问题的外推梯度方法,证明了该方法在特定假设下的收敛性和收敛率,并展示了数值结果。

随机牛顿近端外推法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-03T00:00:00Z

提出了一个支持各种投影选项的通用近端框架,基于凸紧致支撑体上定义的强对数凹分布进行采样,并与多种采样方法无缝集成,主要研究集中在约束采样的 Langevin 型采样算法,提供了 W1 和 W2 误差的非渐进上界,详细比较了这些方法在约束采样中的性能。

紧支持上的对数凹采样:一个通用的近端框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-24T00:00:00Z

本研究提出了一种新的增强学习方法,称为近端策略优化(PPO),通过与环境交互采样数据并使用随机梯度上升优化“替代”目标函数。实验结果表明,PPO在模拟机器人运动和Atari视频游戏等任务上表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率方面取得了平衡。

使用课程学习和奖励工程的近端策略优化解决实际优化问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-03T00:00:00Z

本研究提出了一种新的方法和算法,用于处理具有上下级变量耦合的约束双层优化问题。通过设计平滑的近端 Lagrangian 值函数来处理约束的下层问题,并将原始问题转化为具有平滑约束的等价优化问题。该算法适用于机器学习应用,是一种基于近端 Lagrangian 值函数的非 Hessian 梯度算法。实证结果验证了该算法在实际性能上的优越性。

受约束的双层优化:近端拉格朗日值函数方法与无 Hessian 算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-29T00:00:00Z

本文研究了基于正则化预期奖励优化问题的随机近端梯度方法。通过应用高效的随机方差缩减近端梯度方法和基于重要性采样的概率梯度估计器,样本复杂度从O(ε^{-4})提高到O(ε^{-3})。在强化学习文献中,该方法与竞争对手的随机近端梯度方法的样本复杂度相匹配。

关于随机(方差减少)近端梯度法在正则化期望回报优化中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-23T00:00:00Z

通过将可微分环境的解析梯度与PPO算法相结合,提出了一种新的策略学习方法。通过自适应修改alpha值,有效管理学习过程中解析策略梯度的影响,并提出了评估解析梯度方差和偏差的度量标准,在检测到高方差或偏差时减少对这些梯度的依赖。该方法在函数优化、物理模拟和交通控制等场景中优于基准算法。

梯度信息启发式近端策略优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-14T00:00:00Z

本文介绍了插拔式去噪的流行迭代框架,提供了关于正则化理论的概述,并调查了几种新近的数据驱动方法作为正则化方案。同时,提出了一种新颖的谱滤波技术来控制正则化强度,并严格证明了插拔式与线性去噪器的收敛正则化方案。数值实验验证了这个理论分析在层析成像的经典反问题中的有效性。

收敛的即插即用方法:近端去噪器和无约束正则化参数

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-02T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码