小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Calibrated Q-learning(简称Cal-QL)——为高效在线微调而对“离线RL预训练”做校准:让学到的Q值有上界(保持CQL已做到的不盲目乐观),更有底线(不盲目悲观)

Cal-QL(校准Q学习)是一种提高离线强化学习后在线微调效率的方法。它通过校准Q值,避免了传统方法中的“遗忘”现象,确保学习到的Q值不低于参考策略的价值,从而防止智能体在微调时误认为新动作更优,导致性能下降。该方法在离线预训练后,通过在线交互进行有效的策略微调,提升了样本效率和策略性能。

Calibrated Q-learning(简称Cal-QL)——为高效在线微调而对“离线RL预训练”做校准:让学到的Q值有上界(保持CQL已做到的不盲目乐观),更有底线(不盲目悲观)

结构之法 算法之道
结构之法 算法之道 · 2025-12-16T11:06:50Z
π∗0.6——RL微调流式VLA π0.6:先基于演示数据做离线RL预训练,再在线RL后训练(与环境自主交互,从经验数据中学习,且必要时人工干预)

本文介绍了RECAP框架在π∗0.6模型中的应用,通过结合示范数据和自主经验,提升机器人在复杂任务中的学习能力。该框架采用离线预训练和在线微调,优化决策过程,显著提高了机器人在制作咖啡和折叠衣物等任务中的表现。

π∗0.6——RL微调流式VLA π0.6:先基于演示数据做离线RL预训练,再在线RL后训练(与环境自主交互,从经验数据中学习,且必要时人工干预)

结构之法 算法之道
结构之法 算法之道 · 2025-11-18T15:13:09Z

本研究探讨了决策变换器在线微调不足的问题,指出传统回报期望计算的负面影响。实验结果显示,加入TD3梯度显著提升了微调性能,尤其在低奖励离线数据预训练时,为决策变换器的改进提供了新思路。

Reinforcement Learning Gradient Boosting for Online Fine-Tuning of Decision Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

本研究提出HuDOR技术,解决多指机器人手臂从人类视频中训练的挑战,通过在线微调策略显著加速学习,实验结果显示任务表现提升了4倍。

Narrowing the Gap in Dexterity Between Humans and Robots Through Object-Oriented Rewards

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码