小红花·文摘

该研究使用多任务软演员-评论家算法（MT-SAC）训练机械臂在Meta World环境中执行七项任务。与MT-QWALE算法比较，发现MT-QWALE在隐藏目标位置的情况下表现更佳，成功完成任务。此外，研究提出的任务不可知学习方法（TAL）在虚拟场景中优于现有算法，展示了多任务强化学习的探索优势和样本效率提升。