该文介绍了置信度条件价值函数的学习方法,能够在训练时学习不同的保守程度,并在评估时动态地选择其中一种。实验结果表明该方法在多个离散控制领域中的性能优于现有的保守离线强化学习算法。
完成下面两步后,将自动完成登录并继续当前操作。