基于多智能体强化学习的多方案组合优化广告推荐系统
原文中文,约300字,阅读约需1分钟。发表于: 。本文探讨了使用多智能体强化学习在大型平台上进行多场景优化的问题,通过将搜索、推荐和广告等不同场景视为一种合作的、部分可观察的多智能体决策问题进行研究。我们引入了多智能体递归确定性策略梯度(MARDPG)算法,以共享目标对不同场景进行整合,并允许策略间的通信以提高整体性能。我们的结果表明,在点击率(CTR)、转化率和总销售额等指标上,我们的方法在实际环境中具有显著改进的效果。
本文介绍了一种新的框架,使得多智能体强化学习能够进行迁移学习。通过从其他场景学习到的机动技能,相比于从头学习的智能体,我们的方法在多智能体学习性能方面取得了显著的提升。