小红花·文摘

美团技术团队 ·

该文介绍了一种基于模型的强化学习方法，用于制定保守化自适应策略。该方法通过预测人机交互模型来评估策略效果，并避免用户面临更高的成本。实证和模拟结果表明，该方法在自适应菜单的案例中表现更好。

BriefGPT - AI 论文速递 ·