本研究提出了MaZO框架,旨在解决大型语言模型在多任务微调中的高内存需求。通过权重重要性度量和任务权重更新掩码,MaZO有效降低了参数空间维度,减轻了任务冲突,性能超过了一阶优化方法。
多任务强化学习中,通过引入任务特定的动作修正方法提高机器人泛化能力,解决任务冲突和负面干扰问题。方法将策略学习分解为共享策略和动作修正策略,引入稀疏奖励和拉格朗日方法,有效解决多目标多任务强化学习问题。实验结果显示该方法在样本效率和行为执行有效性上优于现有方法。
完成下面两步后,将自动完成登录并继续当前操作。