准实验适用于无法随机分配实验单元的情况,通过特定假设评估策略效果。以美团履约业务为例,由于溢出效应和小样本限制,需采用双重差分法等准实验设计来量化策略效果。
该文介绍了一种基于模型的强化学习方法,用于制定保守化自适应策略。该方法通过预测人机交互模型来评估策略效果,并避免用户面临更高的成本。实证和模拟结果表明,该方法在自适应菜单的案例中表现更好。
完成下面两步后,将自动完成登录并继续当前操作。