小红花·文摘

本文解决了前向-后向表示模型训练的两个主要限制：线性任务编码和离线数据集训练。通过引入自回归特征和离线强化学习技术，提升了模型的表达能力和在新环境中的表现，尤其在空间精度和任务泛化方面表现突出。