本研究探讨了决策变换器在线微调不足的问题,指出传统回报期望计算的负面影响。实验结果显示,加入TD3梯度显著提升了微调性能,尤其在低奖励离线数据预训练时,为决策变换器的改进提供了新思路。
完成下面两步后,将自动完成登录并继续当前操作。