SUMO:基于搜索的模型离线强化学习不确定性估计
📝
内容提要
本研究解决了离线强化学习中静态数据集规模和质量有限的问题,提出了一种基于搜索的不确定性估计方法SUMO,作为模型集合的替代方案。SUMO通过测量合成样本与真实数据集样本之间的交叉熵来表征不确定性,并有效提升了基础算法的性能,展示了其在离线强化学习中的潜在应用价值。
🏷️
标签
➡️