本文提出了一种新方法——约束潜在动作策略(C-LAP),旨在解决离线强化学习中因静态数据集导致的政策生成不在分布内的问题。C-LAP通过学习观察与动作的联合分布,显著减少了学习政策所需的梯度步骤,并在实验中表现出色。
完成下面两步后,将自动完成登录并继续当前操作。