本文提出了一种新颖的深度强化学习算法,结合线性时间逻辑(LTL)和生成模型,通过自动机表示LTL任务和神经网络模拟未知系统,提升了样本效率,优化了机器人在未知环境中的导航控制策略。实验结果表明,该方法在复杂任务中展现出优异的鲁棒性和效率。
完成下面两步后,将自动完成登录并继续当前操作。