小红花·文摘

本文介绍了R2P方法，通过外生估计算法评估个性化治疗效果，量化不确定性，并优化缺陷组和子组划分。研究了因果效应的异质性及处理效应的差异，提出了新的交叉验证标准和Rashomon集合模型，探索数据生成机制，强调简单模型在复杂数据集上的有效性。研究结果表明，使用dropout技术可以有效减轻预测多样性，并在因果估计中取得改进。

利用罗合分割法鲁棒地估计因子数据的异质性

BriefGPT - AI 论文速递 ·

本文提出了一种适用于主流政策优化算法的强化学习框架，通过引入 dropout 技术，避免了代理目标方差过度增加，并在 Atari 2600 环境中验证了 D-PPO 相对于 PPO 算法在性能上取得了显著的改进。

强化学习中的退化策略：限制策略优化方法中的替代目标方差

BriefGPT - AI 论文速递 ·