本文研究了线性臂选模型选择,提出了一种Pareto最优算法,以平衡探索与开发。针对因果背景下的赌博问题,优化了上下文马尔可夫决策过程,并提出新算法以提高干预效果,最终在随机环境中验证了其有效性。
本文研究了随机环境中的顺序决策优化问题,提出了基于切割平面和张量分解的动态规划算法,以解决传统动态规划的计算复杂度问题。这些新方法有效处理大规模决策变量,提高了优化效率。
本文介绍了一种自适应时间差异版对比性预测编码,通过拼接不同时间序列数据的片段来减少学习未来事件预测所需的数据量,并将该方法应用于推导目标条件强化学习的离线策略算法。实验表明,该方法在成功率方面取得了2倍的中值提高,能够更好地应对随机环境。
完成下面两步后,将自动完成登录并继续当前操作。