该研究提出了一种新型的政策学习框架,解决了实际场景中正性假设不可行的挑战。通过半参数效率理论建立了增量倾向得分策略的特征和识别条件,并提出了高效估计器,验证了该框架在有限样本情况下的性能。
完成下面两步后,将自动完成登录并继续当前操作。