基于 UCB 驱动的多目标增强学习的效用函数搜索
原文中文,约200字,阅读约需1分钟。发表于: 。基于多目标强化学习的分解方法,通过使用多个效用函数将多目标问题分解为单目标问题,采用上限置信区间的方法在学习过程的不同阶段高效搜索最有前景的权重向量,以最大化 resulting Pareto front 的超体积。
基于分解的多目标强化学习(MORL/D)引入了全面的分类体系,为现有和潜在MORL作品提供了结构化的基础。该框架展示了灵活性和多功能性,并为MORL领域的新研究方向奠定了基础,推动了该领域的发展。