该文介绍了一种基于转移学习的强化学习智能体的方法,能够快速适应任务或转移动力学变化。该方法通过迭代学习一组策略,并受到所有先前策略下的不太可能解决方案的约束,避免了学习额外的新颖性检测模型,并将约束融入行动选择和优化步骤中,避免了任务和新颖性奖励信号的平衡。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: