小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

该文介绍了应用Lagrange乘数法对带有不等式约束的C-MDP中的actor critic和natural actor critic算法进行非渐近分析的结果。证明了这些算法在非独立同分布环境中能够找到性能函数的一阶稳定点,其采样复杂度分别为ε^{-2.5}。实验结果表明这两个算法在大网格尺寸上表现良好,受限的自然actor critic稍微优于受限的actor critic,而对于小网格尺寸,后者稍微优于前者。

约束的演员 - 评论家算法和约束的自然演员 - 评论家算法的有限时间分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-25T00:00:00Z

本文研究了固定置信度下的最佳武器识别问题,提出了一种简单的算法,采样复杂度与已知的特定实例下界匹配,在几乎必然的情况下一致性和期望上。该算法使用的停止规则不依赖于武器数量。实验结果表明,该算法明显优于现有算法。同时,本文还对具有连续武器集的线性武装的最佳武器识别问题进行了首次分析。

具有固定置信度的不安定赌博机中的最佳臂标识

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-20T00:00:00Z

本文提出了一种简单的算法,用于固定置信度下的最佳武器识别问题,采样复杂度与已知的实例下界匹配,且停止规则不依赖于武器数量。实验结果表明,该算法优于现有算法。同时,本文还首次分析了具有连续武器集的线性武装的最佳武器识别问题。

一种用于良好手臂识别的实时算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-16T00:00:00Z

本文研究了固定置信度下的最佳武器识别问题,提出了一种简单的算法,采样复杂度与已知实例下界匹配。算法依赖于跟踪最佳比例的武器采样规则,且停止规则不依赖于武器数量。实验结果表明,算法优于现有算法。同时,对具有连续武器集的线性武装的最佳武器识别问题进行了首次分析。

快速和遗憾最优的最佳臂识别:基本限制和低复杂度算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-01T00:00:00Z

本文研究了固定置信度下的最佳武器识别问题,提出了一种简单的算法,采样复杂度与已知实例下界匹配。算法依赖于跟踪最佳比例的武器采样规则,且停止规则不依赖于武器数量。实验结果表明,算法优于现有算法。同时,对具有连续武器集的线性武装的最佳武器识别问题进行了首次分析。

关于固定预算下二臂赌博机最优臂识别的统一最优算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-23T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码