小红花·文摘 - 小红花技术领袖俱乐部

$Calibrated Q-learning(简称Cal-QL)——为高效在线微调而对“离线RL预训练”做校准：让学到的Q值有上界(保持CQL已做到的不盲目乐观)，更有底线(不盲目悲观)$

Calibrated Q-learning(简称Cal-QL)——为高效在线微调而对“离线RL预训练”做校准：让学到的Q值有上界(保持CQL已做到的不盲目乐观)，更有底线(不盲目悲观)

结构之法算法之道 ·

$π∗0.6——RL微调流式VLA π0.6：先基于演示数据做离线RL预训练，再在线RL后训练(与环境自主交互，从经验数据中学习，且必要时人工干预)$

π∗0.6——RL微调流式VLA π0.6：先基于演示数据做离线RL预训练，再在线RL后训练(与环境自主交互，从经验数据中学习，且必要时人工干预)

结构之法算法之道 ·

本研究探讨了决策变换器在线微调不足的问题，指出传统回报期望计算的负面影响。实验结果显示，加入TD3梯度显著提升了微调性能，尤其在低奖励离线数据预训练时，为决策变换器的改进提供了新思路。

Reinforcement Learning Gradient Boosting for Online Fine-Tuning of Decision Transformers

BriefGPT - AI 论文速递 ·

本研究提出HuDOR技术，解决多指机器人手臂从人类视频中训练的挑战，通过在线微调策略显著加速学习，实验结果显示任务表现提升了4倍。

Narrowing the Gap in Dexterity Between Humans and Robots Through Object-Oriented Rewards

BriefGPT - AI 论文速递 ·