该论文探讨了Pareto最优估计和政策学习方法,旨在识别最有效的治疗方案,平衡短期与长期效果。研究采用双重稳健方法预测渐进流失管理策略的长期结果,并提出基于平衡权重的个性化决策策略,显著优于现有方法。此外,论文介绍了深度强化学习在优化决策长期公平性方面的应用,提出了量化长期公平性的框架,并验证了算法在不同数据集上的有效性。
完成下面两步后,将自动完成登录并继续当前操作。