从视频中实现强化学习的原则性表示学习
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种通过生成式预训练学习得到的视觉表示,用于提高多种任务下视觉增强学习系统性能和效率的框架。通过预训练无动作潜在视频预测模型,并引入动作条件潜在预测模型和基于视频的内在激励奖励机制,有效提升了数据利用率和最终权能的完成度。
🎯
关键要点
-
本文介绍了一种通过生成式预训练学习得到的视觉表示。
-
该框架用于加速并提高视觉增强学习系统在多种任务下的性能和效率。
-
在视频数据上预训练了一个无动作潜在视频预测模型。
-
这些表示用于未知环境下的学习操作条件下的世界模型。
-
引入了一个新的架构,堆叠了一个动作条件潜在预测模型以实现更好的探索。
-
提出了基于视频的内在激励奖励机制,提升了数据利用率和最终权能的完成度。
➡️