本研究提出了一种“可靠性保障的变换器”(RT)算法,旨在解决离线强化学习中的不可靠轨迹问题。RT算法通过计算轨迹的累计可靠性,生成高回报轨迹,并在多个基准任务中表现出优越性。
完成下面两步后,将自动完成登录并继续当前操作。