如何微调模型：统一模型偏移与模型偏差策略优化

设计和推导出具有性能提升保证的高效的基于模型的强化学习算法具有挑战性，主要原因是模型学习和策略优化之间的高耦合。在本文中，我们理论上推导了一种优化目标，能够统一模型漂移和模型偏差，并制定了一种微调过程。该过程自适应地调整模型更新，以获得性能改进保证，同时避免模型过拟合。基于这些，我们开发了一种简单的算法 USB-PO（Unified model Shift and model Bias...

本文介绍了一种名为USB-PO的基于模型的强化学习算法，通过统一模型漂移和模型偏差，并制定了一种自适应微调过程，以获得性能改进保证，同时避免模型过拟合。实证结果表明，USB-PO在几个具有挑战性的基准任务上实现了最先进的性能。

USB-PO 强化学习模型偏差模型漂移自适应微调