小红花·文摘

本研究提出了一种新的显著性不变性持续政策学习（SCPL）算法，旨在提升视觉强化学习中代理在未见场景中的泛化能力。通过引入价值一致性模块和动态模块，该算法在各种基准测试中显著提高了泛化性能，尤其在复杂环境中表现突出。