一种实用的政策学习方法来考虑用户在重复拍卖中的疲劳
该文章介绍了一种通过离线强化学习优化竞价策略的通用方法。该方法使用混合代理架构将基础策略与深度神经网络结合,通过训练优化基础策略参数并丢弃神经网络部分。实验证明该方法在模拟和生产竞价环境中都能显著提升性能,且不会增加额外成本。
原文中文,约300字,阅读约需1分钟。
该文章介绍了一种通过离线强化学习优化竞价策略的通用方法。该方法使用混合代理架构将基础策略与深度神经网络结合,通过训练优化基础策略参数并丢弃神经网络部分。实验证明该方法在模拟和生产竞价环境中都能显著提升性能,且不会增加额外成本。