本文研究了非策略性评估和优化在连续行动空间中的应用,提出了双重稳健非策略性估计模型,并证明其在个性化定价和资源分配中的有效性。同时,探讨了离线强化学习的统计限制和决策制定的统一框架,提出多种算法以提高学习性能和应对数据损坏问题,展示了鲁棒序列建模在实际任务中的潜力。
完成下面两步后,将自动完成登录并继续当前操作。