小红花·文摘

最近的深度强化学习研究发现，可以从离线数据中提取有关良好策略的算法信息。本文介绍了一种名为Deep State Identifier的新方法，通过编码为视频的剧集学习预测回报，并利用敏感性分析来提取和识别重要的关键状态。实验证明了该方法理解和改进代理行为的潜力。