强化学习概述

强化学习概述

💡 原文中文,约900字,阅读约需3分钟。
📝

内容提要

强化学习是一种通过与环境交互来实现目标的计算方法,包括历史、状态、策略、奖励和价值函数等概念。历史是观察、行动和奖励的序列,状态是确定接下来会发生的事情的信息,策略是学习智能体在特定时间的行为方式,奖励定义了强化学习目标的标量,价值函数用于预测未来累积奖励。

🎯

关键要点

  • 强化学习是一种通过与环境交互来实现目标的计算方法。
  • 强化学习主要包括历史、状态、策略、奖励和价值函数等概念。
  • 历史是观察、行动和奖励的序列。
  • 状态是用于确定接下来会发生的事情的信息。
  • 策略是学习智能体在特定时间的行为方式,是从状态到行动的映射。
  • 奖励定义了强化学习目标的标量,能立即感知到什么是「好」的。
  • 价值函数用于预测未来累积奖励,定义长期的「好」。
➡️

继续阅读