小红花·文摘

本研究探讨了决策变换器在线微调不足的问题，指出传统回报期望计算的负面影响。实验结果显示，加入TD3梯度显著提升了微调性能，尤其在低奖励离线数据预训练时，为决策变换器的改进提供了新思路。