基于 Sarsa 和 Q 学习的异构智能目标跟踪的索引策略
原文中文,约500字,阅读约需2分钟。发表于: 。多个智能目标跟踪的非远视雷达调度,需要考虑短期的跟踪性能和未来智能跟踪的目标操纵的概率,采用了并行不安宁赌徒过程组成的马尔可夫决策过程模型以及用于近似指标的前向 Sarsa 和反向 Q-learning 方法,综合运用了状态 - 动作价值函数来提高长期跟踪奖励。
该研究探讨了利用强化学习在S&P 500指数上进行交易的可行性。实验结果显示,训练数据集中包含COVID-19时期的市场数据可以比基准策略获得更好的性能。在线策略方法(VI和SARSA)胜过Q-Learning,并突显了偏差-方差权衡和简单政策的泛化能力。未来工作包括尝试更新的Q-Learning策略和探索替代经济指标用于训练模型。