小红花·文摘

本文研究了非策略性评估和优化在连续行动空间中的应用，提出了双重稳健非策略性估计模型，并证明其在个性化定价和资源分配中的有效性。同时，探讨了离线强化学习的统计限制和决策制定的统一框架，提出多种算法以提高学习性能和应对数据损坏问题，展示了鲁棒序列建模在实际任务中的潜力。