小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文提出了两种无模型强化学习算法,针对无限时间平均回报的马尔可夫决策过程(MDP)问题。第一种算法在弱通信MDP中简化为折扣回报,遗憾为O(T^(2/3));第二种算法改进至O(sqrt(T)),但需要更强的遍历条件。这些算法在计算效率和遗憾最小化方面取得了显著进展。

可证明有效的无限时间平均奖励强化学习与线性函数逼近

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-16T00:00:00Z

本文介绍了一种基于多臂老虎机框架的决策模型,分析社交网络中的学习与决策过程。个体通过观察邻居行为来最小化后悔。研究提出多种算法,适用于不同网络结构和反馈情况,证明了在社交网络中实现近似纳什均衡的有效性。同时,探讨了延迟反馈和动态偏好下的遗憾最小化问题,提出新的算法和度量标准,具有重要应用价值。

带有赌博反馈的对抗网络优化:在非平稳多跳网络中最大化效用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

本文探讨了在折扣无限时间马尔可夫决策过程中的强化学习算法,包括策略价值估计、离线强化学习方法、基于悲观主义的算法及混合强化学习算法Hy-Q。研究表明了批处理与在线学习的区别,并提出了新算法在样本效率和遗憾最小化方面的理论保证。

混合强化学习突破线性马尔可夫决策过程中的样本数量限制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-08T00:00:00Z

本文介绍了一种针对隐式马尔科夫决策过程(LMDPs)中遗憾最小化问题的新样本高效算法,提出了局部保证的有效算法。研究表明,具有潜在上下文信息的LMDPs需要Ω(K^(2/3))的后悔,并提出了匹配上限的算法。这些结果对交互式学习问题具有重要意义。

分离潜在马尔可夫决策过程中的近优学习与规划

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-12T00:00:00Z

本文研究了多臂赌博机问题,提出了一种新算法以最小化遗憾,并展示了其在特定条件下的近似最优性。同时,研究探讨了攻击者如何通过干扰策略控制受害者行为,揭示了在线推荐系统中的安全隐患。

非精确多臂赌博机

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-09T00:00:00Z

本文探讨了多臂赌博机问题的样本复杂性,提出了新算法和复杂度度量,研究了不同情况下的遗憾最小化策略,并展示了算法在信息检索和在线学习中的优越性。

改进的多臂赌博机问题的近乎紧密逼近保证

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-01T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码