本研究提出了一种新算法“显著性不变性持续政策学习”(SCPL),旨在提升视觉强化学习中代理在未见场景的泛化能力。该算法通过价值一致性模块和动态模块,显著提高了在多项基准测试中的表现,尤其在复杂环境中效果显著。
完成下面两步后,将自动完成登录并继续当前操作。