小红花·文摘

本研究提出DISCO方法，旨在解决强化学习在不平衡数据集上的优化不足。通过领域和难度感知的奖励缩放，DISCO显著提升了策略学习的效率，实验结果表明其性能比现有方法提高了5%，并在多领域对齐基准上创下新纪录。