介绍了家族离线到在线RL框架,可自适应平衡策略改进和约束强度,提高强化学习性能。使用通用模型训练一族具有不同改进/约束强度的策略,并使用平衡模型为每个状态选择适当的策略。实验结果表明,该框架相对于现有方法具有显著的改进,并在D4RL基准上实现了最先进的性能。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: