学习帕累托集合用于多目标连续机器人控制
原文中文,约300字,阅读约需1分钟。发表于: 。多目标控制问题中,我们提出了一种简单高效的多目标强化学习算法,通过单独的超网络在高维策略参数空间中学习连续的 Pareto 解集,实现了不同用户偏好下的多种优化策略网络的直接生成,并在多个连续机器人控制问题上取得了最佳性能以及最少训练参数。
本文提出了一种新的、高效的方法,用于生成局部连续的 Pareto 集和 Pareto fronts,并将其应用于现代机器学习问题中。通过基于样本的稀疏线性系统,将多目标优化的理论结果扩展到现代机器学习问题,并实现了局部 Pareto 集的分析。通过在多任务分类和回归问题上的应用,证明了该算法在平衡权衡、有效地找到更多的不同权衡解以及迎合百万级参数任务的能力。