一种实用的政策学习方法来考虑用户在重复拍卖中的疲劳
原文中文,约300字,阅读约需1分钟。发表于: 。在线广告使用拍卖方式实时销售,基于机器学习模型可以预测之前的拍卖活动对当前机会价值的影响,然而,已有政策并未充分考虑到拍卖的重复性,导致其效果不佳,因此通过政策学习减少对耐心的成本是至关重要的。
该文章介绍了一种通过离线强化学习优化竞价策略的通用方法。该方法使用混合代理架构将基础策略与深度神经网络结合,通过训练优化基础策略参数并丢弃神经网络部分。实验证明该方法在模拟和生产竞价环境中都能显著提升性能,且不会增加额外成本。