小红花·文摘

本文提出了一种带有片段式探索机制的循环强化学习代理，旨在文本游戏中发现有效策略。研究表明，该代理能够在未见过的更难游戏中泛化，展示了在多样化任务中学习的潜力。此外，探讨了深度学习与时间逻辑结合的应用，提出了新型数位分解器和计数奖励自动机，提升了样本效率和任务完成能力。