小红花·文摘

本研究提出了一种新方法，解决元强化学习在多任务优化中的训练损失不平衡问题，特别是由于任务回报尺度不均造成的瓶颈。该方法在不同环境中表现出显著进展，推动了在线多任务适应和记忆问题的解决。