离线强化学习中的结构化非稳定性数据集

BriefGPT - AI 论文速递 ·

离线强化学习通过使用不同行为策略收集的转换来解决强化学习需要大量数据的问题。该方法基于对比预测编码，识别离线数据集中的非稳定性，并在训练和评估过程中进行预测。实验证明该方法在连续控制任务和高维运动任务中表现优于基线方法。

对比预测编码强化学习数据集离线强化学习行为策略连续控制任务非稳定性

原文中文，约300字，阅读约需1分钟。