小红花·文摘

$Calibrated Q-learning(简称Cal-QL)——为高效在线微调而对“离线RL预训练”做校准：让学到的Q值有上界(保持CQL已做到的不盲目乐观)，更有底线(不盲目悲观)$

Calibrated Q-learning(简称Cal-QL)——为高效在线微调而对“离线RL预训练”做校准：让学到的Q值有上界(保持CQL已做到的不盲目乐观)，更有底线(不盲目悲观)

结构之法算法之道 ·

本研究提出了一种无政策依赖的强化学习（PA-RL）方法，旨在解决现有强化学习在不同策略适应性不足的问题。PA-RL通过通用监督学习损失替代传统的策略改进步骤，使机器人策略微调性能提升40%至70%，样本效率提高两倍。

Policy-Agnostic Reinforcement Learning: Offline and Online Fine-Tuning for Any Class and Structure

BriefGPT - AI 论文速递 ·

本文介绍了多种离线强化学习方法，包括隐式Q学习（IQL）和隐式扩散Q学习（IDQL），通过改进策略和优化训练效率，在D4RL基准测试中取得了先进性能。研究还提出了扩散策略和时间效率方法CPQL，显著提升了策略改进和推理速度。此外，扩散演员-评论家（DAC）和高效扩散对齐（EDA）方法进一步优化了价值函数和策略微调，增强了样本效率和任务适应能力。

DIAR：基于扩散模型的隐式Q学习与自适应重估

BriefGPT - AI 论文速递 ·