基于被删失观察数据的离线决策学习与ε-不敏感操作成本
💡
原文中文,约1900字,阅读约需5分钟。
📝
内容提要
本文研究了非策略性评估和优化在连续行动空间中的应用,提出了双重稳健非策略性估计模型,并证明其在个性化定价和资源分配中的有效性。同时,探讨了离线强化学习的统计限制和决策制定的统一框架,提出多种算法以提高学习性能和应对数据损坏问题,展示了鲁棒序列建模在实际任务中的潜力。
🎯
关键要点
- 研究非策略性评估和优化在连续行动空间中的应用,提出双重稳健非策略性估计模型,证明其在个性化定价和资源分配中的有效性。
- 提出一种无需对奖励函数进行假设的离线上下文强化学习算法,利用随机梯度下降提高计算效率,展现良好的泛化能力。
- 提出方差感知悲观值迭代算法,重新权重贝尔曼残差以提高离线学习界限。
- 提出不变目标模型,解决分布偏移问题,实现学习性能和分布偏移之间的自然权衡。
- 针对部分标注学习问题,提出基于工具变量框架的加权学习方法,证明其在选择偏差存在时的优越性能。
- 提出广义偏好优化(GPO),实现对偏好优化的统一视角,揭示离线算法如何通过定义损失的凸函数实现正则化。
- 提出新的在线算法框架,将学习与决策分离,展示基于一阶方法的在线算法的理论发现。
- 引入带离线反馈的决策制定(DMOF)框架,衡量离线决策问题的可学习性,并展示EDD算法的快速收敛速度。
- 提出鲁棒决策 Transformer (RDT),结合高斯加权学习和迭代数据校正,展现其在数据损坏情况下的优越性能。
❓
延伸问答
什么是双重稳健非策略性估计模型?
双重稳健非策略性估计模型是一种用于个性化定价和资源分配的模型,具有对策略函数估计误差和回归模型估计误差的稳健性。
离线强化学习中如何提高计算效率?
通过应用随机梯度下降的方法,可以提高离线强化学习的计算效率,同时保持良好的泛化能力。
不变目标模型解决了什么问题?
不变目标模型用于解决分布偏移问题,实现学习性能和分布偏移之间的自然权衡。
广义偏好优化(GPO)有什么特点?
广义偏好优化(GPO)通过一类凸函数参数化的离线损失函数家族实现对偏好优化的统一视角,并揭示了离线算法如何通过定义损失的凸函数来实现正则化。
EDD算法在离线决策中有什么优势?
EDD算法在特定设置下实现了快速收敛速度,尤其是在监督学习和具有部分覆盖的马尔可夫序列问题中表现出色。
鲁棒决策Transformer(RDT)如何应对数据损坏?
鲁棒决策Transformer(RDT)结合高斯加权学习和迭代数据校正,能够减小数据损坏的影响,并在多种任务中展现出优越性能。
➡️