小红花·文摘

本研究提出了ParMod框架，旨在解决非马尔可夫任务中的奖励稀疏性和长时记忆问题。通过将任务模块化为子任务并利用多个代理并行训练，该框架显著提高了学习效率和性能。