小红花·文摘

让离线强化学习从「局部描摹」变「全局布局」丨ICLR’26

量子位 ·

$Calibrated Q-learning(简称Cal-QL)——为高效在线微调而对“离线RL预训练”做校准：让学到的Q值有上界(保持CQL已做到的不盲目乐观)，更有底线(不盲目悲观)$

Calibrated Q-learning(简称Cal-QL)——为高效在线微调而对“离线RL预训练”做校准：让学到的Q值有上界(保持CQL已做到的不盲目乐观)，更有底线(不盲目悲观)

结构之法算法之道 ·

本文提出了一种结合离线强化学习与在线强化学习的方法WSRL（Warm-start RL），旨在解决微调过程中的灾难性遗忘问题。WSRL通过在在线微调初期收集少量数据，有效利用预训练知识，提升微调效率和性能，避免依赖大量离线数据。

WSRL——热启动的RL如何20分钟内控制机器人：先离线RL预训练，之后离线策略热身(模拟离线数据保留)，最后丢弃离线数据做在线RL微调

结构之法算法之道 ·

本研究提出了一种新的离线强化学习框架——时间距离感知转换增强（TempDATA），旨在解决因超出分布样本导致的性能下降问题。TempDATA通过在时间结构化的潜空间中生成增强过渡，能够模拟长期行为，提升多个测试任务的表现。

Temporal Distance-aware Transition Augmentation for Offline Model-based Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种基于离线强化学习的微电网电压调节新方法，利用现有数据集进行模型训练。实验结果表明，该方法在不同数据集上表现出色，尤其在低质量数据集上具有良好效果，展现出重要的应用潜力。

微电网电压调节的离线强化学习

BriefGPT - AI 论文速递 ·

本文提出了一种新颖的密度感知安全感知（DASP）方法，旨在解决离线强化学习中的状态分布偏移问题。该方法通过鼓励代理选择数据密度更高的结果，提升决策过程的安全性和可靠性。

Out-of-Distribution State Correction in Offline Reinforcement Learning Based on Variational Methods

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，解决离线强化学习中Q值过高估计的问题，特别是在动态推荐系统中。通过梯度反转学习构建平衡状态表示，支持反事实探索，并引入Q值分解策略，显著提升玩家收益和平台推荐效果。

FAST-Q: Fast Exploration Using Adversarially Balanced State Representations for Counterfactual Action Estimation in Offline Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究针对离线强化学习中的分布偏移问题，提出了离线机器人世界模型（RWM-O），以改进策略学习，增强泛化能力和安全性，推动基于真实数据的政策学习。

离线机器人世界模型：无需物理模拟器的机器人策略学习

BriefGPT - AI 论文速递 ·

该研究提出VIPO算法，旨在解决离线强化学习中的模型误差导致的保守性问题。VIPO通过最小化离线数据学习的价值与模型估计价值之间的不一致性来增强模型训练。实验结果表明，VIPO在D4RL和NeoRL基准测试中表现优异，提升了模型的准确性。

VIPO: Offline Reinforcement Learning with Penalization of Value Function Inconsistency

BriefGPT - AI 论文速递 ·

本研究针对离线强化学习中的模糊问题和复杂算法设计，提出了统一算法Unifloral，并开发了两种新算法，显著提升了性能和效率。

A New Starting Point for Offline Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种基于对抗数据增强的离线强化学习模型MORAL，旨在解决静态数据下策略开发的稳健性问题。实验结果表明，MORAL在政策学习和样本效率方面优于传统方法，具有广泛的适用性。

基于模型的离线强化学习与对抗数据增强

BriefGPT - AI 论文速递 ·

本研究提出了一种离线强化学习中的离散扩散技能（DDS）算法，旨在解决离散技能空间的开发问题。该算法结合变换器编码器和扩散解码器，显著提升了长时间任务的表现，在AntMaze-v2基准测试中性能提高至少12%，同时增强了可解释性和训练稳定性。

Discrete Diffusion Skills in Offline Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出了NeoRL-2基准，旨在解决离线强化学习中的数据保守性和环境访问限制问题。该基准应对现实世界中的高延迟效应和安全约束，实验结果显示现有方法在这些基准上表现不佳，强调了对更有效算法的需求。

NeoRL-2: Near Real-World Benchmarks for Offline Reinforcement Learning with Extended Realistic Scenarios

BriefGPT - AI 论文速递 ·

本研究提出了一种新框架，克服传统可解释方法的局限性，增强离线强化学习中的行为发现与动作归因，从而提供更精确的高层次代理行为解释。

Behavior Discovery and Attribution in Interpretable Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究探讨了离线强化学习中的超参数调优与模型选择问题，提出了一种新方法，通过选择不同的值函数或动态模型来优化目标策略。新型选择器LSTD-Tournament在实证性能上表现优异，具有广泛的应用潜力。

离线强化学习中的模型选择与评估：新算法与实验协议

BriefGPT - AI 论文速递 ·

本研究提出了一种“可靠性保障的变换器”（RT）算法，旨在解决离线强化学习中的不可靠轨迹问题。RT算法通过计算轨迹的累计可靠性，生成高回报轨迹，并在多个基准任务中表现出优越性。

Model-Based Offline Reinforcement Learning and Reliability-Assured Sequence Modeling

BriefGPT - AI 论文速递 ·

本研究提出了一种符号Q网络（Sym-Q）框架，利用离线强化学习解决符号回归中整合专家知识和交互困难的问题。实验结果表明，Sym-Q在标准测试中优于现有方法，并在真实案例中通过互动设计机制提升了性能。

Interactive Symbolic Regression through Offline Reinforcement Learning: A Co-Design Framework

BriefGPT - AI 论文速递 ·

本研究提出了一种高效的离线强化学习方法——流量Q学习（FQL），有效解决了传统方法中复杂动作分布的问题。通过训练一步政策，避免了不稳定的递归反向传播，表现优异，适用性广泛。

流量Q学习

BriefGPT - AI 论文速递 ·

本研究提出了一种新的离线强化学习算法SOCD，旨在解决多用户延迟约束调度问题。该算法结合了扩散策略网络和无采样的批评网络，从预收集的数据中学习高效的调度策略，显著提升了动态系统的性能，降低了在线交互的成本与损失。

Offline Critic-Guided Diffusion Policy for Multi-User Delay-Constrained Scheduling

BriefGPT - AI 论文速递 ·

本研究提出了Proj-IQL算法，旨在解决离线强化学习中的外推误差问题。通过引入支持约束和矢量投影技术，优化策略评估与改进。实验结果表明，Proj-IQL在D4RL基准测试中表现优异，尤其在复杂导航任务中。

Application of Projection Implicit Q-Learning with Support Constraint in Offline Reinforcement Learning

BriefGPT - AI 论文速递 ·