一种实用的政策学习方法来考虑用户在重复拍卖中的疲劳

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

该文章介绍了一种通过离线强化学习优化竞价策略的通用方法。该方法使用混合代理架构将基础策略与深度神经网络结合,通过训练优化基础策略参数并丢弃神经网络部分。实验证明该方法在模拟和生产竞价环境中都能显著提升性能,且不会增加额外成本。

原文中文,约300字,阅读约需1分钟。
阅读原文