小红花·文摘

该研究探讨了利用强化学习在S&P 500指数上进行交易的可行性。实验结果显示，训练数据集中包含COVID-19时期的市场数据可以比基准策略获得更好的性能。在线策略方法（VI和SARSA）胜过Q-Learning，并突显了偏差-方差权衡和简单政策的泛化能力。未来工作包括尝试更新的Q-Learning策略和探索替代经济指标用于训练模型。