小红花·文摘

本研究提出了一种“可靠性保障的变换器”（RT）算法，旨在解决离线强化学习中的不可靠轨迹问题。RT算法通过计算轨迹的累计可靠性，生成高回报轨迹，并在多个基准任务中表现出优越性。