小红花·文摘

该论文探讨了Pareto最优估计和政策学习方法，旨在识别最有效的治疗方案，平衡短期与长期效果。研究采用双重稳健方法预测渐进流失管理策略的长期结果，并提出基于平衡权重的个性化决策策略，显著优于现有方法。此外，论文介绍了深度强化学习在优化决策长期公平性方面的应用，提出了量化长期公平性的框架，并验证了算法在不同数据集上的有效性。