InfoQ ·

Dreamer 4：通过想象训练从离线数据中学习实现目标

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

谷歌DeepMind的研究人员提出了一种新方法，通过视频训练智能体Dreamer 4，成功在Minecraft中挖掘钻石。该方法称为想象训练，强调智能体仅从离线数据学习。Dreamer 4在处理复杂任务时表现优异，使用的数据量比OpenAI的VPT少100倍，并在真实机器人数据集上也取得了良好效果。

🎯

关键要点

谷歌DeepMind的研究人员提出了一种新方法，通过视频训练智能体Dreamer 4，成功在Minecraft中挖掘钻石。
该方法称为想象训练，强调智能体仅从离线数据学习，无需与物理世界直接互动。
Dreamer 4的模型架构包括两个主要组件：一个将视频帧压缩为连续表示的分词器和一个预测下一个世界表示的动态模型。
研究人员采用快捷强制训练动态模型，使其在预测未来帧时能够更高效地进行更大步长的预测。
Dreamer 4是第一个仅通过离线数据训练的智能体，能够在Minecraft中挖掘钻石，尽管这需要基于原始像素数据选择超过20,000个鼠标和键盘动作的序列。
Dreamer 4在使用的数据量上比OpenAI的VPT少100倍，并且在性能上超越了现代基于微调通用视觉-语言模型的行为克隆方法。
研究人员指出，Dreamer 4在性能上超越了Gemma 3，表明该方法不仅适用于构建行为克隆智能体，也可能适用于一般决策制定。
Hafner提到Minecraft是一个优秀的具身智能体研究测试平台，尽管挖掘钻石是复杂任务，但Minecraft还有更多挑战。
Dreamer 4还在真实世界的机器人数据集上进行了测试，展示了其进行反事实交互的能力，并与最先进的视频模型相比显示出良好的结果。

🔎

延伸解读

想象训练的意义

Dreamer 4的想象训练方法强调了智能体在没有物理互动的情况下，通过离线数据进行学习。这种方法在机器人领域尤其重要，因为直接与环境互动往往不切实际。通过这种方式，智能体可以在模拟环境中进行训练，从而提高其在真实世界中的应用能力。

数据效率的优势

Dreamer 4在训练过程中使用的数据量比OpenAI的VPT少100倍，但仍能取得优异的表现。这表明，优化的数据使用策略可以显著提升智能体的学习效率，尤其在数据获取成本高昂的情况下，这种方法具有重要的实用价值。

Minecraft作为测试平台

研究人员指出，Minecraft是一个极佳的具身智能体研究测试平台。尽管挖掘钻石是一个复杂任务，但Minecraft提供了更多挑战，能够帮助研究人员评估智能体在多种情境下的表现。这为未来的AI研究提供了广阔的探索空间。

❓

延伸问答

Dreamer 4是如何训练的？

Dreamer 4通过视频训练，采用想象训练方法，仅从离线数据学习，无需与物理世界直接互动。

Dreamer 4在Minecraft中的表现如何？

Dreamer 4成功在Minecraft中挖掘钻石，尽管这需要选择超过20,000个鼠标和键盘动作的序列。

Dreamer 4与OpenAI的VPT相比有什么优势？

Dreamer 4使用的数据量比OpenAI的VPT少100倍，并且在性能上超越了VPT。

想象训练的主要特点是什么？

想象训练强调智能体仅从离线数据学习，训练过程在智能体的“想象”中进行。

Dreamer 4的模型架构包含哪些组件？

Dreamer 4的模型架构包括一个将视频帧压缩为连续表示的分词器和一个预测下一个世界表示的动态模型。

Dreamer 4在真实世界的测试结果如何？

Dreamer 4在真实世界的机器人数据集上进行了测试，展示了其进行反事实交互的能力，并取得了良好结果。

🏷️