本研究首次从$( ext{ε}, ext{δ})$-PAC视角解决在线多奖励多策略折扣设置中的政策评估问题,采用改进的MR-NaS探索方案,实现了样本复杂度的联合最小化,实验结果验证了其有效性。
本文提出了新算法SpectralDICE,旨在解决政策评估中的鞍点优化问题。该算法通过谱分解简化对偶变量的计算,提升了效率和样本利用率,并在基准测试中表现出色。
本文提出了一种基于先前观测数据的分治处理分析方法,用于识别最可能受益于新干预措施的人群。研究涉及因果推断、优化方法及替代变量的作用,提出双重稳健方法以减少选择偏差,并在政策评估中展示其统计优越性。通过降维回归模型和学习排名的方法,优化了治疗分配和符合性预测,提升了算法性能。
本文提出了一个框架,旨在解决外部有效性偏差,探讨因果推断的泛化性和可转移性。通过回顾随机对照试验和观察研究,提出未来研究方向,促进跨学科合作,增强对因果效应的理解。同时,研究探讨了机器学习模型在实验中的应用及其无偏估计问题,并提出新的因果推断方法,以提高政策评估的有效性。
该研究探讨了利用历史数据评估新政策的方法,提出了一种自适应估计器选择方法,显著提高了评估准确性。研究中引入了新指标SharpeRatio@k,用于评估反事实政策的有效性,并应用于开源软件SCOPE-RL。此外,研究还解决了深度强化学习中的模型选择问题,提出了一种基于Q函数的度量方法,适用于连续动作空间和稀疏奖励的马尔可夫决策过程。
完成下面两步后,将自动完成登录并继续当前操作。