PPO是一种off policy的强化学习算法,通过转换策略分布中的采样数据来更新模型参数。PPO使用公式中的概率比值来决定是否更新模型参数,并使用clamp来裁切比值。关键词:PPO, off policy, 强化学习, 概率比值, clamp
完成下面两步后,将自动完成登录并继续当前操作。