深度强化学习中面向智能体无关行动指导的智能体感知训练
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文研究了在预算下动作建议的转移学习模型,发现变异系数 (CV) 对选择生成建议策略具有重要意义。提出了一种新的强化学习算法,能够学习何时提供建议,适应于学生和任务。认为在预算下学习建议是一个更通用的学习问题的例子。
🎯
关键要点
- 研究了在预算下动作建议的转移学习模型。
- 关注于在有限建议预算下,强化学习教师向异质学生提供游戏 Pac-Man 的行动建议。
- 研究了影响建议质量的关键因素,包括教师的平均表现、方差和奖励折现的重要性。
- 变异系数 (CV) 在选择生成建议策略中具有重要的非平凡意义。
- 提出了一种新的强化学习算法,能够学习何时提供建议,适应于学生和任务。
- 认为在预算下学习建议是一个更通用的学习问题的例子。
➡️