小红花·文摘

该文章介绍了一种新颖的组合性随机贪婪的赌博算法（SGB），用于解决多臂赌博问题。该算法在没有额外信息的情况下，通过观察每个时间步选择的一组臂的联合奖励来进行优化。该算法在单调随机次模性奖励方面实现了较好的性能，并在在线受限社交影响最大化的背景下进行了实证评估。

基于状态分离的 SARSA：一种具有恢复奖励的实用顺序决策算法

BriefGPT - AI 论文速递 ·

该研究探讨了利用强化学习在S&P 500指数上进行交易的可行性。实验结果显示，训练数据集中包含COVID-19时期的市场数据可以比基准策略获得更好的性能。在线策略方法（VI和SARSA）胜过Q-Learning，并突显了偏差-方差权衡和简单政策的泛化能力。未来工作包括尝试更新的Q-Learning策略和探索替代经济指标用于训练模型。

基于 Sarsa 和 Q 学习的异构智能目标跟踪的索引策略

BriefGPT - AI 论文速递 ·

本文使用MuJoCo物理模拟器比较了Q学习、SARSA和DDPG三种方法在连续控制环境中的性能。结果显示Q学习在大量回合中得分超过SARSA，但DDPG在少数回合中表现更好。通过调整超参数可以提高性能并节省时间和资源消耗。作者预期DDPG的新设计将显著提高性能，并希望在充足的时间和计算资源下进一步提升性能。

通过持续行动的可变时间离散化的演员 - 评论家方法

BriefGPT - AI 论文速递 ·

强化学习是机器学习的一个分支，通过环境反馈优化模型。Q-learning维护Q值表，Sarsa确保探索性，DQN结合神经网络解决状态枚举问题。该技术在自动驾驶和机器人等领域应用广泛，值得深入研究。

强化学习简介

informal ·