小红花·文摘

本研究提出了一种新的状态-动作轨迹嵌入方法，解决了现有轨迹编码在多任务间泛化能力不足的问题。该方法无需奖励标签，能够有效捕捉动态决策过程中的技能和能力，实验结果表明其在模仿、分类、聚类和回归等任务中表现优异。