通过训练智能体探索学习生成交互环境
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
Autoverse是一种可扩展的、用于单人2D网格游戏的可进化的领域特定语言。它可以作为开放式学习算法的可扩展训练场。研究者使用Autoverse从搜索中的模仿学习来启动开放式学习,通过进化Autoverse环境生成复杂的环境和游玩轨迹,并使用模仿学习提炼专家游玩轨迹为基于神经网络的策略。最后,他们将学到的策略作为开放式强化学习的起点,不断进化新的训练环境,提高生成环境的可学习性和泛化性能。
🎯
关键要点
- Autoverse是一种可扩展的领域特定语言,用于单人2D网格游戏。
- Autoverse可以作为开放式学习算法的训练场。
- 使用元胞自动机类似的重写规则描述游戏机制,能够表达多种游戏环境。
- 提出通过模仿学习启动开放式学习,进化Autoverse环境以生成复杂环境和游玩轨迹。
- 使用模仿学习提炼专家游玩轨迹为基于神经网络的策略。
- 将学到的策略作为开放式强化学习的起点,不断进化新的训练环境。
- 目标是最大化强化学习代理的值函数误差,提高环境的可学习性和泛化性能。
➡️