本文介绍了一种名为UMCTS的强化学习方法,用于解决桁架结构的大小和布局优化问题。UMCTS在基准问题上得到了测试,并且比分支定界法快两倍。数值结果表明,所提出的方法稳定地获得了比其他传统方法更好的解决方案。
本文介绍了一种基于模型的强化学习技术,将 Monte-Carlo 树搜索应用于无限期 Marov 决策过程的有限期版本,并使用值函数和策略函数的组合来规定有限期问题的终端条件或决策树的叶节点评估器。作者提供了第一个基于树搜索的强化学习算法的样本复杂度边界,并证明由深度神经网络实现的技术能够创建一种竞争性人工智能代理。
完成下面两步后,将自动完成登录并继续当前操作。