小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
让离线强化学习从「局部描摹」变「全局布局」丨ICLR’26

厦门大学和香港科技大学提出的新算法MAGE改进了离线强化学习。MAGE采用自顶向下的生成策略,先进行宏观规划,再细化微观细节,有效解决了现有模型在长程规划中的不足。实验结果表明,MAGE在多个任务中表现优异,推理速度快,适合实时控制,展现出强大的全局规划能力。

让离线强化学习从「局部描摹」变「全局布局」丨ICLR’26

量子位
量子位 · 2026-04-06T05:35:27Z
Calibrated Q-learning(简称Cal-QL)——为高效在线微调而对“离线RL预训练”做校准:让学到的Q值有上界(保持CQL已做到的不盲目乐观),更有底线(不盲目悲观)

Cal-QL(校准Q学习)是一种提高离线强化学习后在线微调效率的方法。它通过校准Q值,避免了传统方法中的“遗忘”现象,确保学习到的Q值不低于参考策略的价值,从而防止智能体在微调时误认为新动作更优,导致性能下降。该方法在离线预训练后,通过在线交互进行有效的策略微调,提升了样本效率和策略性能。

Calibrated Q-learning(简称Cal-QL)——为高效在线微调而对“离线RL预训练”做校准:让学到的Q值有上界(保持CQL已做到的不盲目乐观),更有底线(不盲目悲观)

结构之法 算法之道
结构之法 算法之道 · 2025-12-16T11:06:50Z

本文提出了一种结合离线强化学习与在线强化学习的方法WSRL(Warm-start RL),旨在解决微调过程中的灾难性遗忘问题。WSRL通过在在线微调初期收集少量数据,有效利用预训练知识,提升微调效率和性能,避免依赖大量离线数据。

WSRL——热启动的RL如何20分钟内控制机器人:先离线RL预训练,之后离线策略热身(模拟离线数据保留),最后丢弃离线数据做在线RL微调

结构之法 算法之道
结构之法 算法之道 · 2025-07-06T15:23:58Z

本研究提出了一种新的离线强化学习框架——时间距离感知转换增强(TempDATA),旨在解决因超出分布样本导致的性能下降问题。TempDATA通过在时间结构化的潜空间中生成增强过渡,能够模拟长期行为,提升多个测试任务的表现。

Temporal Distance-aware Transition Augmentation for Offline Model-based Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本研究提出了一种基于离线强化学习的微电网电压调节新方法,利用现有数据集进行模型训练。实验结果表明,该方法在不同数据集上表现出色,尤其在低质量数据集上具有良好效果,展现出重要的应用潜力。

微电网电压调节的离线强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本文提出了一种新颖的密度感知安全感知(DASP)方法,旨在解决离线强化学习中的状态分布偏移问题。该方法通过鼓励代理选择数据密度更高的结果,提升决策过程的安全性和可靠性。

Out-of-Distribution State Correction in Offline Reinforcement Learning Based on Variational Methods

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本研究提出了一种新方法,解决离线强化学习中Q值过高估计的问题,特别是在动态推荐系统中。通过梯度反转学习构建平衡状态表示,支持反事实探索,并引入Q值分解策略,显著提升玩家收益和平台推荐效果。

FAST-Q: Fast Exploration Using Adversarially Balanced State Representations for Counterfactual Action Estimation in Offline Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-30T00:00:00Z

本研究针对离线强化学习中的分布偏移问题,提出了离线机器人世界模型(RWM-O),以改进策略学习,增强泛化能力和安全性,推动基于真实数据的政策学习。

离线机器人世界模型:无需物理模拟器的机器人策略学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-23T00:00:00Z

该研究提出VIPO算法,旨在解决离线强化学习中的模型误差导致的保守性问题。VIPO通过最小化离线数据学习的价值与模型估计价值之间的不一致性来增强模型训练。实验结果表明,VIPO在D4RL和NeoRL基准测试中表现优异,提升了模型的准确性。

VIPO: Offline Reinforcement Learning with Penalization of Value Function Inconsistency

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-16T00:00:00Z

本研究针对离线强化学习中的模糊问题和复杂算法设计,提出了统一算法Unifloral,并开发了两种新算法,显著提升了性能和效率。

A New Starting Point for Offline Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z

本研究提出了一种基于对抗数据增强的离线强化学习模型MORAL,旨在解决静态数据下策略开发的稳健性问题。实验结果表明,MORAL在政策学习和样本效率方面优于传统方法,具有广泛的适用性。

基于模型的离线强化学习与对抗数据增强

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-26T00:00:00Z

本研究提出了一种离线强化学习中的离散扩散技能(DDS)算法,旨在解决离散技能空间的开发问题。该算法结合变换器编码器和扩散解码器,显著提升了长时间任务的表现,在AntMaze-v2基准测试中性能提高至少12%,同时增强了可解释性和训练稳定性。

Discrete Diffusion Skills in Offline Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-26T00:00:00Z

本研究提出了NeoRL-2基准,旨在解决离线强化学习中的数据保守性和环境访问限制问题。该基准应对现实世界中的高延迟效应和安全约束,实验结果显示现有方法在这些基准上表现不佳,强调了对更有效算法的需求。

NeoRL-2: Near Real-World Benchmarks for Offline Reinforcement Learning with Extended Realistic Scenarios

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z

本研究提出了一种新框架,克服传统可解释方法的局限性,增强离线强化学习中的行为发现与动作归因,从而提供更精确的高层次代理行为解释。

Behavior Discovery and Attribution in Interpretable Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z

本研究探讨了离线强化学习中的超参数调优与模型选择问题,提出了一种新方法,通过选择不同的值函数或动态模型来优化目标策略。新型选择器LSTD-Tournament在实证性能上表现优异,具有广泛的应用潜力。

离线强化学习中的模型选择与评估:新算法与实验协议

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z

本研究提出了一种“可靠性保障的变换器”(RT)算法,旨在解决离线强化学习中的不可靠轨迹问题。RT算法通过计算轨迹的累计可靠性,生成高回报轨迹,并在多个基准任务中表现出优越性。

Model-Based Offline Reinforcement Learning and Reliability-Assured Sequence Modeling

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z

本研究提出了一种符号Q网络(Sym-Q)框架,利用离线强化学习解决符号回归中整合专家知识和交互困难的问题。实验结果表明,Sym-Q在标准测试中优于现有方法,并在真实案例中通过互动设计机制提升了性能。

Interactive Symbolic Regression through Offline Reinforcement Learning: A Co-Design Framework

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-05T00:00:00Z

本研究提出了一种高效的离线强化学习方法——流量Q学习(FQL),有效解决了传统方法中复杂动作分布的问题。通过训练一步政策,避免了不稳定的递归反向传播,表现优异,适用性广泛。

流量Q学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z

本研究提出了一种新的离线强化学习算法SOCD,旨在解决多用户延迟约束调度问题。该算法结合了扩散策略网络和无采样的批评网络,从预收集的数据中学习高效的调度策略,显著提升了动态系统的性能,降低了在线交互的成本与损失。

Offline Critic-Guided Diffusion Policy for Multi-User Delay-Constrained Scheduling

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-22T00:00:00Z

本研究提出了Proj-IQL算法,旨在解决离线强化学习中的外推误差问题。通过引入支持约束和矢量投影技术,优化策略评估与改进。实验结果表明,Proj-IQL在D4RL基准测试中表现优异,尤其在复杂导航任务中。

Application of Projection Implicit Q-Learning with Support Constraint in Offline Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码