投影优化:多目标与多组RLHF的通用框架
📝
内容提要
本研究针对现有的多目标强化学习与人类反馈(MORLHF)方法中普遍存在的线性聚合局限性,提出了一种新的框架,通过将非线性聚合最大化问题转化为多个线性聚合的子问题,从而提高计算效率。同时,本框架扩展了多组场景下的应用,使得各组能根据不同目标权重达成共识。实验表明,该方法在获得个体目标的最优策略后,几乎无需训练即可实现有效聚合。
➡️
本研究针对现有的多目标强化学习与人类反馈(MORLHF)方法中普遍存在的线性聚合局限性,提出了一种新的框架,通过将非线性聚合最大化问题转化为多个线性聚合的子问题,从而提高计算效率。同时,本框架扩展了多组场景下的应用,使得各组能根据不同目标权重达成共识。实验表明,该方法在获得个体目标的最优策略后,几乎无需训练即可实现有效聚合。