小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

研究了多智能体多臂赌博问题,智能体观察邻居的选择和奖励,通过算法最大化自己的奖励,预测智能体的性能排名。

多智能体随机可共享臂容量的多臂赌博机

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-20T00:00:00Z

本研究将内容探索任务形式化为带有延迟奖励的多臂赌博问题,通过预测延迟奖励的模型和赌博算法提高推荐系统性能。

长期离线策略评估与学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-24T00:00:00Z

本研究将内容探索任务形式化为带有延迟奖励的多臂赌博问题,通过预测延迟奖励的模型和赌博算法提高推荐系统性能。

用户有限注意力的利用:失配、学习和排序

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-21T00:00:00Z

本文介绍了一种新颖的组合性随机贪婪的赌博算法(SGB),用于解决多臂赌博问题。该算法通过观察每个时间步选择的一组臂的联合奖励,采用了优化的随机探索再确认的方法。实验证明,该算法在单调随机次模性奖励下,能够实现(1-1/e)的遗憾边界,并且在基数约束方面优于最先进的方法。同时,在在线受限社交影响最大化的背景下,该算法始终优于其他算法,并且随着基数的增长,性能差距也增大。

组合随机贪心赌博机

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-13T00:00:00Z

该研究提出了基于多臂赌博问题的UCB^τ算法,通过引入调整的奖励项考虑任务难度,具有理论上的强大性能。在合成数据集上的比较评估中,UCB^τ表现出色,具有更低的风险。

少探索即可

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-26T00:00:00Z

该文介绍了一种解决无休止多臂赌博问题的观测模型,应用可实现区域方法和部分守恒定律分析其可索引性和优先指数。提出了一个近似过程来将问题转化为有限状态问题,并进行了数值实验。

基于 Whittle 指数的有限时间分析:带有神经网络函数逼近的不安定多臂赌博机上的 Q 学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-03T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码