通过训练智能体探索学习生成交互环境

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

Autoverse是一种可扩展的、用于单人2D网格游戏的可进化的领域特定语言。它可以作为开放式学习算法的可扩展训练场。研究者使用Autoverse从搜索中的模仿学习来启动开放式学习,通过进化Autoverse环境生成复杂的环境和游玩轨迹,并使用模仿学习提炼专家游玩轨迹为基于神经网络的策略。最后,他们将学到的策略作为开放式强化学习的起点,不断进化新的训练环境,提高生成环境的可学习性和泛化性能。

🎯

关键要点

  • Autoverse是一种可扩展的领域特定语言,用于单人2D网格游戏。
  • Autoverse可以作为开放式学习算法的训练场。
  • 使用元胞自动机类似的重写规则描述游戏机制,能够表达多种游戏环境。
  • 提出通过模仿学习启动开放式学习,进化Autoverse环境以生成复杂环境和游玩轨迹。
  • 使用模仿学习提炼专家游玩轨迹为基于神经网络的策略。
  • 将学到的策略作为开放式强化学习的起点,不断进化新的训练环境。
  • 目标是最大化强化学习代理的值函数误差,提高环境的可学习性和泛化性能。
➡️

继续阅读