小红花·文摘

本文介绍了一种生成式预训练的视觉表示学习框架，旨在提升视觉增强学习系统的性能与效率。通过结合无动作潜在视频预测模型和动作条件潜在预测模型，优化了探索过程，并提出基于视频的内在激励机制，显著提高了数据利用率和学习效果。研究表明，该方法在多种机器人任务中表现优越，具备高数据效率和较少训练轮数。