BriefGPT - AI 论文速递 ·

基于被删失观察数据的离线决策学习与ε-不敏感操作成本

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

本文研究了非策略性评估和优化在连续行动空间中的应用，提出了双重稳健非策略性估计模型，并证明其在个性化定价和资源分配中的有效性。同时，探讨了离线强化学习的统计限制和决策制定的统一框架，提出多种算法以提高学习性能和应对数据损坏问题，展示了鲁棒序列建模在实际任务中的潜力。

🎯

关键要点

研究非策略性评估和优化在连续行动空间中的应用，提出双重稳健非策略性估计模型，证明其在个性化定价和资源分配中的有效性。
提出一种无需对奖励函数进行假设的离线上下文强化学习算法，利用随机梯度下降提高计算效率，展现良好的泛化能力。
提出方差感知悲观值迭代算法，重新权重贝尔曼残差以提高离线学习界限。
提出不变目标模型，解决分布偏移问题，实现学习性能和分布偏移之间的自然权衡。
针对部分标注学习问题，提出基于工具变量框架的加权学习方法，证明其在选择偏差存在时的优越性能。
提出广义偏好优化（GPO），实现对偏好优化的统一视角，揭示离线算法如何通过定义损失的凸函数实现正则化。
提出新的在线算法框架，将学习与决策分离，展示基于一阶方法的在线算法的理论发现。
引入带离线反馈的决策制定（DMOF）框架，衡量离线决策问题的可学习性，并展示EDD算法的快速收敛速度。
提出鲁棒决策 Transformer (RDT)，结合高斯加权学习和迭代数据校正，展现其在数据损坏情况下的优越性能。

❓

延伸问答

什么是双重稳健非策略性估计模型？

双重稳健非策略性估计模型是一种用于个性化定价和资源分配的模型，具有对策略函数估计误差和回归模型估计误差的稳健性。

离线强化学习中如何提高计算效率？

通过应用随机梯度下降的方法，可以提高离线强化学习的计算效率，同时保持良好的泛化能力。

不变目标模型解决了什么问题？

不变目标模型用于解决分布偏移问题，实现学习性能和分布偏移之间的自然权衡。

广义偏好优化（GPO）有什么特点？

广义偏好优化（GPO）通过一类凸函数参数化的离线损失函数家族实现对偏好优化的统一视角，并揭示了离线算法如何通过定义损失的凸函数来实现正则化。

EDD算法在离线决策中有什么优势？

EDD算法在特定设置下实现了快速收敛速度，尤其是在监督学习和具有部分覆盖的马尔可夫序列问题中表现出色。

鲁棒决策Transformer（RDT）如何应对数据损坏？

鲁棒决策Transformer（RDT）结合高斯加权学习和迭代数据校正，能够减小数据损坏的影响，并在多种任务中展现出优越性能。

🏷️

标签

个性化定价优化离线强化学习资源分配非策略性评估

➡️

继续阅读

西部数据首次亮相WAIC：瞄准100TB硬盘，给AI修一座数据底座
当AI进入规模化，存储开始决定成本
锂电池也要交消费税了买电车成本或增加千元
【TechWeb】7月19日消息，近日，财政部、海关总署、税务总局联合发布公告称，自2026年9月1日起，对锂原电池、锂离子蓄电池等此前免征消费税的电池产...
谷歌开始将安卓备份数据也纳入账户存储空间不够用那就得付费开会员
#系统资讯谷歌调整安卓备份数据政策，将基础备份数据也纳入到 15GB 免费共享存储空间配额中，如果不够用那就需要开会员获得更大空间。不过这个通常不会对用...
kubernetes-goat学习笔记
PII泄露--用CodeQL识别日志中的PII数据
Tomcat通用回显学习笔记