SUMO:基于搜索的模型离线强化学习不确定性估计

📝

内容提要

本研究解决了离线强化学习中静态数据集规模和质量有限的问题,提出了一种基于搜索的不确定性估计方法SUMO,作为模型集合的替代方案。SUMO通过测量合成样本与真实数据集样本之间的交叉熵来表征不确定性,并有效提升了基础算法的性能,展示了其在离线强化学习中的潜在应用价值。

🏷️

标签

➡️

继续阅读