小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种新框架，结合奖励最大化与模仿学习，解决跨动态强化学习中的专家状态不可访问问题。通过F距离正则化政策优化，显著提升了算法性能，具有广泛应用潜力。

Policy Regularization on Globally Accessible States in Cross-Dynamics Reinforcement Learning

BriefGPT - AI 论文速递 ·