小红花·文摘

本研究首次从$( ext{ε}, ext{δ})$-PAC视角解决在线多奖励多策略折扣设置中的政策评估问题，采用改进的MR-NaS探索方案，实现了样本复杂度的联合最小化，实验结果验证了其有效性。

Adaptive Exploration for Multi-Reward Multi-Policy Evaluation

BriefGPT - AI 论文速递 ·

本文提出了新算法SpectralDICE，旨在解决政策评估中的鞍点优化问题。该算法通过谱分解简化对偶变量的计算，提升了效率和样本利用率，并在基准测试中表现出色。

Primal-Dual Spectral Representation for Off-Policy Evaluation

BriefGPT - AI 论文速递 ·

本文提出了一种基于先前观测数据的分治处理分析方法，用于识别最可能受益于新干预措施的人群。研究涉及因果推断、优化方法及替代变量的作用，提出双重稳健方法以减少选择偏差，并在政策评估中展示其统计优越性。通过降维回归模型和学习排名的方法，优化了治疗分配和符合性预测，提升了算法性能。

在多治疗场景下，因果效应估计是否足够用于最佳推荐？

BriefGPT - AI 论文速递 ·

本文提出了一个框架，旨在解决外部有效性偏差，探讨因果推断的泛化性和可转移性。通过回顾随机对照试验和观察研究，提出未来研究方向，促进跨学科合作，增强对因果效应的理解。同时，研究探讨了机器学习模型在实验中的应用及其无偏估计问题，并提出新的因果推断方法，以提高政策评估的有效性。

基于预测的因果推断的普适化

BriefGPT - AI 论文速递 ·

该研究探讨了利用历史数据评估新政策的方法，提出了一种自适应估计器选择方法，显著提高了评估准确性。研究中引入了新指标SharpeRatio@k，用于评估反事实政策的有效性，并应用于开源软件SCOPE-RL。此外，研究还解决了深度强化学习中的模型选择问题，提出了一种基于Q函数的度量方法，适用于连续动作空间和稀疏奖励的马尔可夫决策过程。

$Δext {-}{m OPE}$：使用一对策略进行离策略估计

BriefGPT - AI 论文速递 ·