Reinforcement-Learning 学习笔记
💡
原文中文,约75300字,阅读约需180分钟。
📝
内容提要
部分可观测性在强化学习中意味着代理只能获取部分状态,导致决策不最优。通过增强状态表示和结合历史观测,可以改善决策。函数逼近器无法存储历史信息,需要特征工程或特殊架构来实现记忆。Sutton指出,函数逼近虽然能简化状态,但无法补全缺失信息,需手动调整状态定义。
🎯
关键要点
- 部分可观测性在强化学习中意味着代理只能获取部分状态,导致决策不最优。
- 通过增强状态表示和结合历史观测,可以改善决策。
- 函数逼近器无法存储历史信息,需要特征工程或特殊架构来实现记忆。
- Sutton指出,函数逼近虽然能简化状态,但无法补全缺失信息,需手动调整状态定义。
➡️