小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了离线到在线学习中的挑战,提出了一种新算法,结合悲观的下置信界(LCB)和乐观的上置信界(UCB)策略。研究表明,该算法在性能上接近更优的LCB和UCB策略,具有广泛的适用性,可能扩展到多臂强盗问题之外。

Balancing Optimism and Pessimism in Offline to Online Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-12T00:00:00Z

本研究提出了一种新算法KROPE,用于解决离线价值函数学习中的不稳定性。KROPE通过相似的奖励和状态-动作对来优化表示,提高学习稳定性,减少价值误差,并提供理论稳定性保障。

Stable Offline Value Function Learning Based on Dual Simulation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

本文提出了一种新型政策梯度算法,适用于状态值和策略函数逼近,解决高维“诅咒”问题,确保离线学习收敛。研究改进了多种Actor-Critic算法,强调样本复杂度和收敛速度,展示了在动态环境中的强化学习应用效果。

重球动量加速的演员-批评算法与函数逼近

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-13T00:00:00Z

本文探讨了在折扣无限时间马尔可夫决策过程中的强化学习算法,包括策略价值估计、离线强化学习方法、基于悲观主义的算法及混合强化学习算法Hy-Q。研究表明了批处理与在线学习的区别,并提出了新算法在样本效率和遗憾最小化方面的理论保证。

混合强化学习突破线性马尔可夫决策过程中的样本数量限制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-08T00:00:00Z

本文分析了强化学习算法在不同环境下的可行性,探讨了自动化强化学习的关键元素与挑战,综述了动态环境模型的强化学习方法及其优缺点,介绍了离线强化学习的研究及应用,重点讨论了深度强化学习在医疗保健中的安全性评估。

如何选择强化学习算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-30T00:00:00Z

本文介绍了多种强化学习算法的进展,包括SusACER、RTAC和基于神经拉普拉斯动态模型的离线学习算法。这些算法在机器人控制、实时决策和时间限制任务中表现优越,解决了复杂性和适应性问题,展示了在不同场景下的有效性和性能提升。

什么时候进行感知和控制?一种适应时间的连续时间强化学习方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-03T00:00:00Z

本研究提出了一种新的混合离线-在线强化学习方法H2O,利用有限真实数据和模拟器探索,解决了现有算法的缺陷。DASCO方法通过双生成器解决离线强化学习中的矛盾目标问题,显著提升了性能。此外,研究探讨了基于模型的离线强化学习方法PerSim及用户模拟器的应用,以提高数据效率和策略学习效果。

改进带有不准确模拟器的离线强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-07T00:00:00Z

本文介绍了一种自适应策略学习框架,该框架集成了离线学习和在线学习。它采用乐观/贪婪和悲观更新策略来提高离线数据集的质量,从而实现高样本效率。

离线训练用于在线 RL: 解耦策略学习以减轻探索偏见

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-12T00:00:00Z

本文介绍了一种新型在线部分可观测树规划器,使用因果建模和推理消除未测量混淆变量误差,并提出了离线学习因果模型的方法。玩具问题评估表明,因果模型准确,规划方法抗干扰性更强,策略性能更高。

具有随时确定性保证的在线 POMDP 规划

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-03T00:00:00Z

本文介绍了自适应策略学习框架,可融合离线与在线学习,提高离线数据集质量,实验表明可在离线数据集质量较差情况下实现高样本效率。

H2O+: 混合离线和在线强化学习的改进框架与动态间隙

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-22T00:00:00Z

本文介绍了自适应策略学习框架,融合离线学习与在线学习,通过乐观/贪心和悲观更新策略提高离线数据集质量。实验结果表明,该算法在离线数据集质量较差的情况下能高效学习。

离线约束深度强化学习中的营销预算分配

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-06T00:00:00Z
在线规划,离线学习:通过基于模型的控制实现高效学习与探索

我们提出了一种名为POLO的在线与离线学习框架,旨在帮助代理在持续行动和学习中优化局部轨迹,稳定并加速价值函数的学习,同时通过近似价值函数减少规划时间,提高策略效果。该方法在复杂控制任务中表现优异,如人形运动和灵巧操作。

在线规划,离线学习:通过基于模型的控制实现高效学习与探索

OpenAI
OpenAI · 2018-11-05T08:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码