本文提出了一种新颖的联合方法,通过多中心数据实现有效的因果推断。该方法结合隐私保护的鲁棒估计和迁移学习,优化协变量平衡,展示了在有限样本情况下的效率和鲁棒性优势。通过新的加权方案和算法,能够更准确地估计因果效应,并应用于比较治疗方法的效果。
本文提出了一种名为MRDR的鲁棒Doubly Robust估计方法,旨在解决强化学习中的离策略评估问题。该方法通过最小化方差,在上下文决策和强化学习基准中展现出强一致性和渐进最优性。此外,研究探讨了多种算法和方法,以提高离线策略评估的样本效率和准确性。
完成下面两步后,将自动完成登录并继续当前操作。