小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了离线到在线学习中的挑战,提出了一种新算法,结合悲观的下置信界(LCB)和乐观的上置信界(UCB)策略。研究表明,该算法在性能上接近更优的LCB和UCB策略,具有广泛的适用性,可能扩展到多臂强盗问题之外。

在离线到在线学习中的乐观与悲观平衡

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-12T00:00:00Z

本文介绍了一种轻量级框架,提升双足机器人在未知地形上的行走能力。通过基于扩散模型的实时控制器,该框架实现多种速度和行为,具备良好泛化能力。控制器利用离线数据学习,简单且可扩展。实验在Stoch BiRo机器人上进行,展示了其优势。

自适应扩散地形生成器用于自主不平坦地形导航

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-14T00:00:00Z

本研究提出了一种新算法KROPE,用于解决离线价值函数学习中的不稳定性。KROPE通过相似的奖励和状态-动作对来优化表示,提高学习稳定性,减少价值误差,并提供理论稳定性保障。

基于双仿真的稳定离线价值函数学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

通过交通流理论和机器学习,提出了一种数据驱动和免费模拟器的交通信号控制框架。利用历史交通数据构建奖励推断模型,通过离线学习信号控制策略。实验证明该方法性能卓越,具有实际应用性。

基于强化学习的自适应交通信号控制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-28T00:00:00Z

研究人员回顾和分类了基础语言模型中的连续学习方法,将其分为离线和在线连续学习,并详细分析了挑战和未来工作。

在资源受限环境中持续学习将视觉概念映射到大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-11T00:00:00Z

研究人员对基于连续学习的基础语言模型进行了全面回顾和分类,将其分为离线和在线连续学习,并详细分析了挑战和未来工作。

反思基于预训练模型的无需排练连续学习的现状

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-13T00:00:00Z

本文介绍了一种自适应策略学习框架,该框架集成了离线学习和在线学习。它采用乐观/贪婪和悲观更新策略来提高离线数据集的质量,从而实现高样本效率。

离线训练用于在线 RL: 解耦策略学习以减轻探索偏见

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-12T00:00:00Z

本文介绍了一种新型在线部分可观测树规划器,使用因果建模和推理消除未测量混淆变量误差,并提出了离线学习因果模型的方法。玩具问题评估表明,因果模型准确,规划方法抗干扰性更强,策略性能更高。

具有随时确定性保证的在线 POMDP 规划

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-03T00:00:00Z

本文介绍了自适应策略学习框架,可融合离线与在线学习,提高离线数据集质量,实验表明可在离线数据集质量较差情况下实现高样本效率。

H2O+: 混合离线和在线强化学习的改进框架与动态间隙

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-22T00:00:00Z

本文介绍了自适应策略学习框架,融合离线学习与在线学习,通过乐观/贪心和悲观更新策略提高离线数据集质量。实验结果表明,该算法在离线数据集质量较差的情况下能高效学习。

离线约束深度强化学习中的营销预算分配

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-06T00:00:00Z
在线规划,离线学习:通过基于模型的控制实现高效学习与探索

我们提出了一种名为POLO的在线与离线学习框架,旨在帮助代理在持续行动和学习中优化局部轨迹,稳定并加速价值函数的学习,同时通过近似价值函数减少规划时间,提高策略效果。该方法在复杂控制任务中表现优异,如人形运动和灵巧操作。

在线规划,离线学习:通过基于模型的控制实现高效学习与探索

OpenAI
OpenAI · 2018-11-05T08:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码