本文提出了一种带有片段式探索机制的循环强化学习代理,旨在文本游戏中发现有效策略。研究表明,该代理能够在未见过的更难游戏中泛化,展示了在多样化任务中学习的潜力。此外,探讨了深度学习与时间逻辑结合的应用,提出了新型数位分解器和计数奖励自动机,提升了样本效率和任务完成能力。
完成下面两步后,将自动完成登录并继续当前操作。