通过功能奖励编码的无监督零样本强化学习
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种通过生成式预训练学习得到的视觉表示,用于加速和提高多种任务下视觉增强学习系统性能和效率的框架。通过预训练无动作潜在视频预测模型,并引入动作条件潜在预测模型和基于视频的内在激励奖励机制,有效提升了数据利用率和最终权能的完成度。
🎯
关键要点
- 本文介绍了一种通过生成式预训练学习得到的视觉表示的框架。
- 该框架用于加速和提高多种任务下视觉增强学习系统的性能和效率。
- 在视频数据上预训练了一个无动作潜在视频预测模型。
- 无动作预测模型的表示用于未知环境下的学习操作条件下的世界模型。
- 引入了一个新的架构,堆叠了一个动作条件潜在预测模型以实现更好的探索。
- 提出了基于视频的内在激励奖励机制,提升数据利用率和最终权能的完成度。
➡️