研究行为者与评论者表示在强化学习中的相互作用
📝
内容提要
本文研究了深度强化学习中,从高维观测流中提取相关信息的挑战,特别是在行为者-评论者算法中。研究发现,分开的表示能让行为者和评论者专注于提取不同类型的信息,行为者关注与行动相关的信息,而评论者则专注于价值和动态信息,最终提升了样本效率和生成能力。
🏷️
标签
➡️