💡
原文中文,约900字,阅读约需3分钟。
📝
内容提要
强化学习是一种通过与环境交互来实现目标的计算方法,包括历史、状态、策略、奖励和价值函数等概念。历史是观察、行动和奖励的序列,状态是确定接下来会发生的事情的信息,策略是学习智能体在特定时间的行为方式,奖励定义了强化学习目标的标量,价值函数用于预测未来累积奖励。
🎯
关键要点
- 强化学习是一种通过与环境交互来实现目标的计算方法。
- 强化学习主要包括历史、状态、策略、奖励和价值函数等概念。
- 历史是观察、行动和奖励的序列。
- 状态是用于确定接下来会发生的事情的信息。
- 策略是学习智能体在特定时间的行为方式,是从状态到行动的映射。
- 奖励定义了强化学习目标的标量,能立即感知到什么是「好」的。
- 价值函数用于预测未来累积奖励,定义长期的「好」。
➡️