本研究提出了一种新的状态-动作轨迹嵌入方法,解决了现有轨迹编码在多任务间泛化能力不足的问题。该方法无需奖励标签,能够有效捕捉动态决策过程中的技能和能力,实验结果表明其在模仿、分类、聚类和回归等任务中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。