本研究提出了一种新的样本高效的方法NaSA-TD3,通过引入新奇性和惊喜作为额外信号来改进复杂环境中的探索。实验结果表明,NaSA-TD3在模拟环境和实际环境中都能够有效地处理复杂的连续控制机器人任务,并且在最终性能上优于现有的基于图像的强化学习方法。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: