本研究提出了一种对抗估计方法,旨在提高深度强化学习在稀疏奖励环境中的样本效率,通过利用少量人类轨迹加速算法的收敛。
本文介绍了一种基于区域关系学习的模型,用于预测交通场景中人类的轨迹。该模型通过模拟人流密度变化来模拟社交互动,并利用条件变分自编码器实现多目标估计和多样化未来预测。实验结果表明,该模型在ADE/FDE指标上表现优于现有模型。
完成下面两步后,将自动完成登录并继续当前操作。